مشخصات پژوهش

صفحه نخست /یک روش ترکیبی مبتنی بر بهینه ...
عنوان یک روش ترکیبی مبتنی بر بهینه سازی کلونی مورچگان برای انتخاب ویژگی در متن
نوع پژوهش پایان نامه
کلیدواژه‌ها انتخاب ویژگی، کاهش ابعاد، راهکار ترکیبی برای انتخاب ویژگی، بهینه سازی کلونی مورچگان، دسته بندی متن
چکیده پیشرفت های بوجود آمده در جمع آوری داده و قابلیت های ذخیره سازی در طی دهه های اخیر باعث ایجاد حجم بزرگی از اطلاعات در بسیاری از علوم شده است. در مقایسه با بسترهای داده ای قدیمی و کوچکتر، بسترهای داده ای امروزی چالش های جدیدی در تحلیل داده ها بوجود آورده اند. روش های آماری سنتی به دو دلیل، امروزه کارائی خود را از دست داده اند. علت اول، افزایش تعداد مشاهدات است و علت دوم که از اهمیت بالاتری برخوردار است افزایش تعداد ویژگی های مربوط به یک مشاهده می-باشد. تعداد ویژگی هایی که برای هر مشاهده باید اندازه گیری شود ابعاد داده نامیده می شود. بسترهای داده ای که دارای ابعاد زیادی هستند علیرغم فرصت هایی که به وجود می آورند، چالش های محاسباتی زیادی را ایجاد می کنند. یکی از مشکلات داده های با ابعاد زیاد این ست که در بیشتر مواقع تمام ویژگی های داده ها برای یافتن دانشی که در داده ها نهفته است مهم و حیاتی نیستند. به همین دلیل در بسیاری از زمینه ها کاهش ابعاد داده یکی از مباحث قابل توجه باقی مانده است. از این رو، انتخاب ویژگی برای کاهش فضای ویژگی و افزایش کارایی دسته بندی متن به کار می رود. در این پژوهش یک روش دو مرحله ای برای انتخاب ویژگی در دسته بندی متن ارائه شده است. در ابتدا یک روش فیلترینگ با استفاده از معیار "انتخاب کننده ویژگی مجزا" اعمال می شود و ویژگی هایی که بیشترین مقدار را دارند انتخاب می شوند. سپس در مرحله بعد، از یک الگوریتم بهینه سازی کلونی مورچگان جدید برای انتخاب ویژگی هایی که در مرحله قبل انتخاب شده اند برای انتخاب بهترین زیرمجموعه از ویژگی ها استفاد می شود. الگوریتم بهینه سازی کلونی مورچگان در مرحله دوم از یک گراف جهت دار مستقیم که حاوی دو یال یکی یال انتخاب و دیگری یال عدم انتخاب یک ویژگی است استفاده می کند. این طرح باعث می شود که برخلاف روش های پیشین که از الگوریتم بهینه سازی کلونی مورچگان استفاده کرده اند، به جای گراف کامل با O(n^2) یال برای نمایش ویژگی ها از یک گراف جهت دار با O(n) یال استفاده شود. یکی دیگر از مشکلات روش های پیشین مشخص کردن تعداد ویژگی به صورت ثابت از ابتداست که باعث می شود تعداد ویژگی های بهینه انتخاب نشوند. گراف استفاده شده در این پژوهش می تواند هر تعداد از ویژگی های برجسته در گراف را در زمان خطی انتخاب کند که دقت دسته بندی را افزایش می دهد.
پژوهشگران رحیم شیخی (دانشجو)، پرهام مرادی دولت آبادی (استاد مشاور)، فردین احمدی زر (استاد راهنما)