عنوان
|
طبقه بندی متن کردی با استفاده از یک الگوریتم بهینه سازی
|
نوع پژوهش
|
پایان نامه
|
کلیدواژهها
|
طبقهبندی متن، پردازش زبان طبیعی، انتخاب ویژگی، الگوریتم فراابتکاری، زبان کردی
|
چکیده
|
امروزه با افزایش روزافزون اطلاعات و گستردگی موضوعات، طبقهبندی متون یکی از چالشهای هوش مصنوعی است. طبقهبندی متون شاخهایی از پردازش زبان طبیعی است که در آنها متون در دستهها یا گروههایی قرار میگیرند. طبقهبندی متون یکی از مواردی است که اخیرا مورد توجه قرارگرفته است و کاربردهای بسیاری دارد، از جمله مهمترین آنها، دستهبندی اسناد، بازیابی اطلاعات، پرسش و پاسخ، قطبیتسنجی و ... میباشد. زبان کردی یکی از شاخههای هندو-ایرانی زبانهای هندو-اروپایی است که بیش از 30 میلیون نفر در آسیای غربی، عمدتاً در عراق، ترکیه، ایران، سوریه، ارمنستان و آذربایجان به آن صحبت میکنند. زبان کردی دارای گویش های متنوعی است و دارای سیستم دستوری و واژگان غنی مختص به خود است. اکثر سیستمهای طبقهبندی متن را میتوان به چهار مرحله خلاصه کرد: استخراج ویژگی، کاهش ابعاد، انتخاب طبقهبندی کننده و ارزیابی. در ابتدا از یک متن، استخراج ویژگی (با استفاده از کد کردن کلمات) به روشهای مختلف صورت میگیرد. ازآنجا که اغلب ویژگیهای استخراج شده اضافی و بیربط هستند، میتوانند باعث خطا در طبقهبندیکننده شوند. سپس انتخاب ویژگیهای مهمتر، بهعنوان یک مشکل اساسی در طبقهبندی متون، مطرح است. انتخاب ویژگیهای مهم از تمام ویژگیها، نقش به سزایی درافزایش کارایی دقت طبقهبندی دارد. در این مرحله ما با استفاده از روشهای یادگیری ماشین سعی در انتخاب بهترین ویژگیها داریم که این امر، بر روی مجموعه دادگان متنی زبان کردی صورت میپذیرد. از جمله روشهای یادگیری ماشین در مسئلههای بهینهسازی، استفاده از الگوریتمهای فراابتکاری است. الگوریتمهای فراابتکاری بسیاری تا امروز معرفی شدهاند که هرکدام الهام گرفته از طبیعت هستند. این الگوریتمها فرضیات کمی در مورد یک مسئله ایجاد میکنند و یا میتوانند فضاهای بسیار بزرگی از راهحلهای کاندید را جستجو کنند. الگوریتم مرغ تخمگذار از جمله یکی از بهترین الگوریتمهای فراابتکاری در حل مسائل بهینهسازی در فضای پیوسته است. با استفاده از الگوریتم فراابتکاری مرغ تخمگذار ویژگیهای استخراج شده از متن طوری انتخاب میگردند که دقت طبقهبندی کننده افزایش یابد. بدین منظور ابتدا نسخهای پیشرفته از این الگوریتم در فضای گسسته ارائه میشود و سپس در فضای نمونه تمام حالات انتخاب ویژگی، جایگذاری میشوند. الگوریتم با پیمایش فضای نمونه و ارزیابی نقطه به نقطهی حالات، از نقطهای به نقطهی بهتر حرکت میکند. چالش اصلی این کار انتخاب نقطهای خوب برای شروع و انتخاب درست محدوده تغییر برای هر نقطه است. ما در این پژوهش به یکی از بهترین روشها برای بهبود انتخاب ویژگی در وظیفهی طبقهبندی متن دست یافتهایم که روشی جدید است. از طرفی با پیادهسازی این روش بر روی زبان کردی (که جزو زبانهای کم منبع در پردازش زبان طبیعی محسوب میشود) پژوهش خود را غنیتر ساختهایم. نتایج این پژوهش در مقیاس کم (با توجه به کمبود منابع پردازشی) بهبود یک درصدی در دقت طبقهبندی کننده را نشان میدهد که نشان از کارایی رویکرد ارائه شده دارد و دری تازه بر روی پژوهشگران عزیز باز میکند.
|
پژوهشگران
|
محمدجواد آقاجانی (استاد مشاور)، آرش سهرابی (دانشجو)، فاطمه دانشفر (استاد راهنما)
|