عنوان
|
بهبود انتخاب ویژگی بر پایه گراف با استفاده از پیش گویی پیوند و روش حفره های ساختاری
|
نوع پژوهش
|
پایان نامه
|
کلیدواژهها
|
داده های با ابعاد بالا، انتخاب ویژگی، پیش گویی پیوند، خوشه بندی گراف، حفره های ساختاری، رأس های حیاتی
|
چکیده
|
انتخاب ویژگی، یکی از راهکارهای اساسی یادگیری ماشین برای رفع مشکل پردازش داده های با ابعاد بسیار بالا است. بررسی و بکارگیری روش های کارآمدتر انتخاب ویژگی با هدف دستیابی به نتایج بهتر در انتخاب ویژگی، می تواند سبب بهبود و تسریع نتایج کارآیی الگوریتم های مرتبط با یادگیری ماشین شود. در این پژوهش یک روش شش مرحله ای برای بهبود انتخاب ویژگی بدین شرح پیشنهاد می شود. در گام اول، پیش پردازش، مجموعه داده از نظر مقادیر گم شده و تکراری، اصلاح می شود و سپس نرمال سازی می شود. همچنین یکبار امتیاز فیشر را برای همه ی ویژگی ها محاسبه می کنیم و تعداد n-Top ویژگی با بیشترین امتیاز فیشر را حفظ می کنیم و مابقی را حذف می کنیم. در گام دوم با استفاده از ضریب همبستگی پیرسون وابستگی بین رئوس محاسبه می گردد و گرافی وزن دار از ویژگی ها و مقدار وابستگی بین آن ها تشکیل و بازنمایی می گردد و به دلیل عملکرد بهتر الگوریتم خوشه بندی، یال های با مقادیر وزن کمتر از مقدار آستانه بهینه 0.5 از گراف حذف می شوند. در گام سوم برای بهبود ساختار گراف و بازیابی روابط محتمل به اشتباه حذف شده یا از قلم افتاده، با استفاده از الگوریتم های پیش گویی پیوند یال هایی را به گراف اضافه می کنیم. در گام چهارم، با استفاده از الگوریتم تشخیص جامعه لووین بدون ناظر به دلیل سادگی و سرعت اجرای بالا و شناسایی خودکار خوشه ها، جوامع را در گراف ایجاد شده می یابیم. در گام پنجم با استفاده از روش حفره های ساختاری که ارتباطات نهفته بین ویژگی ها را نیز لحاظ می کند، رأس های بحرانی و مرکزی تر در هر خوشه شناسایی می شود. در نهایت، در گام ششم، در یک فرآیند تکراری برای هر خوشه، براساس روش گام قبلی، اعضای خوشه رتبه بندی می شوند سپس بصورت نزولی مرتب شده و تعداد w ویژگی ابتدای لیست را انتخاب می کند. اگر تعداد ویژگی هر خوشه کمتر از w باشد آنگاه همه آن ها انتخاب می شوند. به عبارتی دیگر، تعداد w ویژگی در هر خوشه بعنوان نماینده خوشه حفظ کرده و سایر ویژگی ها از خوشه حذف می شوند. در پایان، همه ویژگی های باقی مانده در خوشه ها را به عنوان زیر مجموعه ویژگی های نهایی بهینه گزارش می کنیم. مقایسه نتایج با استفاده از چهار طبقه بند مشهور SVM، KNN، NB و DT حاکی از کارآیی و برتری روش پیشنهادی جدید در مقایسه با روش های اخیر به ویژه در مجموعه داده های با ابعاد بسیار بزرگ و با تعداد نمونه بیشتر است.
|
پژوهشگران
|
امیر صحتی موفق (دانشجو)، صادق سلیمانی (استاد راهنما)، پرهام مرادی دولت آبادی (استاد راهنما)
|