طبقه بندی متن کردی با استفاده از یک الگوریتم بهینه سازی، انجام شده توسط فاطمه دانشفر (Fatemeh Daneshfar)

مشخصات پژوهش

عنوان	طبقه بندی متن کردی با استفاده از یک الگوریتم بهینه سازی
نوع پژوهش	پایان نامه
کلیدواژه‌ها	طبقه‌بندی متن، پردازش زبان طبیعی، انتخاب ویژگی، الگوریتم‌ فراابتکاری، زبان کردی
سال	1402
پژوهشگران	آرش سهرابی(دانشجو)، فاطمه دانشفر (Fatemeh Daneshfar)(استاد راهنما)، محمدجواد آقاجانی(استاد مشاور)

چکیده

امروزه با افزایش روزافزون اطلاعات و گستردگی موضوعات، طبقه‌بندی متون یکی از چالش‌های هوش مصنوعی است. طبقه‌بندی متون شاخه‌ایی از پردازش زبان طبیعی است که در آن‌ها متون در دسته‌ها یا گروه‌هایی قرار می‌گیرند. طبقه‌بندی متون یکی از مواردی است که اخیرا مورد توجه قرارگرفته است و کاربرد‌های بسیاری دارد، از جمله مهمترین آنها، دسته‌بندی اسناد، بازیابی اطلاعات، پرسش ‌و پاسخ، قطبیت‌سنجی و ... می‌باشد. زبان کردی یکی از شاخه‌های هندو-ایرانی زبان‌های هندو-اروپایی است که بیش از 30 میلیون نفر در آسیای غربی، عمدتاً در عراق، ترکیه، ایران، سوریه، ارمنستان و آذربایجان به آن صحبت می‌کنند. زبان کردی دارای گویش های متنوعی است و دارای سیستم دستوری و واژگان غنی مختص به خود است. اکثر سیستم‌های طبقه‌بندی متن را می‌توان به چهار مرحله خلاصه کرد: استخراج ویژگی، کاهش ابعاد، انتخاب طبقه‌بندی کننده و ارزیابی. در ابتدا از یک متن، استخراج ویژگی (با استفاده از کد کردن کلمات) به روش‌های مختلف صورت می‌گیرد. ازآنجا که اغلب ویژگی‌های استخراج شده اضافی و بی‌ربط هستند، می‌توانند باعث خطا در طبقه‌بندی‌کننده شوند. سپس انتخاب ویژگی‌های مهم‌تر، به‌عنوان یک مشکل اساسی در طبقه‌بندی متون، مطرح است. انتخاب ‌ویژگی‌های مهم از تمام ویژگی‌ها، نقش به سزایی درافزایش کارایی دقت طبقه‌بندی دارد. در این مرحله ما با استفاده از روش‌های یادگیری ماشین سعی در انتخاب بهترین ویژگی‌ها داریم که این امر، بر روی مجموعه دادگان متنی زبان کردی صورت می‌پذیرد. از جمله روش‌های یادگیری ماشین در مسئله‌های بهینه‌سازی، استفاده از الگوریتم‌های فراابتکاری است. الگوریتم‌های فراابتکاری بسیاری تا امروز معرفی شده‌اند که هرکدام الهام گرفته از طبیعت هستند. این الگوریتم‌ها فرضیات کمی در مورد یک مسئله ایجاد می‌کنند و یا می‌توانند فضاهای بسیار بزرگی از راه‌حل‌های کاندید را جستجو کنند. الگوریتم مرغ تخم‌گذار از جمله یکی از بهترین الگوریتم‌های فراابتکاری در حل مسائل بهینه‌سازی در فضای پیوسته است. با استفاده از الگوریتم فراابتکاری مرغ تخم‌گذار ویژگی‌های استخراج شده از متن طوری انتخاب می‌گردند که دقت طبقه‌بندی کننده افزایش یابد. بدین منظور ابتدا نسخه‌ای پیشرفته از این الگوریتم در فضای گسسته ارائه می‌شود و سپس در فضای نمونه تمام حالات انتخاب ویژگی، جایگذاری می‌شوند. الگوریتم با پیمایش فضای نمونه و ارزیابی نقطه به نقطه‌ی حالات، از نقطه‌ای به نقطه‌ی بهتر حرکت می‌کند. چالش اصلی این کار انتخاب نقطه‌ای خوب برای شروع و انتخاب درست محدوده تغییر برای هر نقطه است. ما در این پژوهش به یکی از بهترین روش‌ها برای بهبود انتخاب ویژگی در وظیفه‌ی طبقه‌بندی متن دست یافته‌ایم که روشی جدید است. از طرفی با پیاده‌سازی این روش بر روی زبان کردی (که جزو زبان‌های کم منبع در پردازش زبان طبیعی محسوب می‌شود) پژوهش خود را غنی‌تر ساخته‌ایم. نتایج این پژوهش در مقیاس کم (با توجه به کمبود منابع پردازشی) بهبود یک درصدی در دقت طبقه‌بندی کننده را نشان می‌دهد که نشان از کارایی رویکرد ارائه شده دارد و دری تازه بر روی پژوهشگران عزیز باز می‌کند.