دوره "Applied Text Mining in Python" به دانشجویان فرصتی میدهد تا با مبانی استخراج متن و دستکاری آن آشنا شوند. در آغاز این دوره، دانشجویان به درک عمیقتری از نحوهی مدیریت متن در زبان برنامهنویسی ...
بهروزرسانی: ۱۴۰۳/۰۸/۱۲
درک نحوهی مدیریت متن در پایتون
بهکارگیری روشهای پایه پردازش زبان طبیعی
نوشتن کدی که مدارک را بر اساس موضوع گروهبندی کند
توصیف فریمورک nltk برای دستکاری متن
برای درک و استفاده بهتر از این دوره، یک دانش نسبی از زبان برنامهنویسی پایتون و مباحث داده پیشنهاد میشود.
دوره "Applied Text Mining in Python" به دانشجویان فرصتی میدهد تا با مبانی استخراج متن و دستکاری آن آشنا شوند. در آغاز این دوره، دانشجویان به درک عمیقتری از نحوهی مدیریت متن در زبان برنامهنویسی پایتون دست خواهند یافت.
این بخش شامل بررسی ساختار متن از دیدگاه ماشین و انسان است که میتواند به درک بهتر تعاملات بین دادههای متنی و الگوریتمهای پردازش کمک کند. همچنین، دانشجویان با فریمورک nltk که ابزاری کلیدی برای دستکاری متن محسوب میشود، آشنا خواهند شد. این فریمورک امکانات متنوعی را برای تجزیه و تحلیل و پردازش متن در اختیار کاربران قرار میدهد.
در فصل دوم، دوره به بررسی نیازهای معمول در دستکاری متن میپردازد، که شامل استفاده از عبارات منظم برای جستجو در متن، پاکسازی دادههای متنی و آمادهسازی آنها برای استفاده در فرآیندهای یادگیری ماشین است.
در فصل سوم، دانشجویان با روشهای پایهای پردازش زبان طبیعی آشنا خواهند شد و یاد خواهند گرفت که چگونه میتوانند متنها را طبقهبندی کنند. در نهایت، در فصل آخر دوره، مباحث پیشرفتهتری درباره شناسایی موضوعات موجود در اسناد و گروهبندی آنها بر اساس شباهت (مدلسازی موضوع) مطرح خواهد شد.
این مهارتها به دانشجویان کمک میکند تا بتوانند در پروژههای خود از تکنیکهای مؤثر برای استخراج معنا و اطلاعات از دادههای متنی استفاده کنند.
اطلاعات بیشتر
V. G. Vinod Vydiswaran استادیار علوم یادگیری سلامت در دانشکده پزشکی و همچنین استادیار اطلاعات در دانشکده اطلاعات دانشگاه میشیگان است. علایق پژوهشی او عمدتاً در زمینههای اعتماد به اطلاعات، استخراج و تحلیل متن در مقیاس بزرگ و پردازش زبان طبیعی متمرکز است. علاوه بر این، او به دادهکاوی، استخراج اطلاعات، یادگیری ماشین، ساخت سیستمهای یادگیری سلامت و کار بر روی برنامههای جالب مدلهای الگوریتمی برای مواجهه با چالشهای واقعی علاقهمند است.
تحقیقات کنونی او بر روی استخراج و تحلیل اطلاعات سلامت از منابع مختلف، از جمله ادبیات علمی، فرومهای سلامت اجتماعی و شبکههای اجتماعی و اطلاعات متمرکز است. او بهطور خاص به تحلیل اطلاعات متنی پزشکی آنلاین برای استنتاج اعتبار منابع و ادعاهایی که مطرح میکنند، علاقمند است. از طریق کارهای خود، او به دنبال کمک به درک و کاربرد اطلاعات قابل اعتماد در حوزه سلامت است و در نهایت به بهبود نتایج سلامت از طریق تصمیمگیریهای آگاهانه کمک میکند.
اطلاعات بیشتر