راهکارترکیبی برای انتخاب ویژگی در داده های ابعاد بالا

مشخصات پژوهش

عنوان	راهکارترکیبی برای انتخاب ویژگی در داده های ابعاد بالا
نوع پژوهش	پایان نامه
کلیدواژه‌ها	انتخاب ویژگی، استخراج ویژگی، تحلیل واریانس، طبقه بندی متن، روش های مبتنی بر فیلتر، انتخاب ژن، رتبه دهی ژن ها، تحلیل میکروآرایه.
سال	1391
پژوهشگران	محمد حسین دشتبان(دانشجو)، پرهام مرادی دولت آبادی(استاد راهنما)، هادی زارع(استاد مشاور)

چکیده

با پیشرفت روزافزون تکنولوژی در زمینه داده کاوی در حوزه های علمی مختلف، مجموعه داده های با ابعاد بسیار بالا در حال افزایش است که منجر به کاهش کارایی الگوریتمهای دسته بندی می شود. لذا نیاز به کاهش حجم این مجموعه داده ها امری ضروری است. در مجموعه داده ها با ابعادبالا، تعداد زیادی ویژگی برای هرنمونه وجود دارد که بسیاری از آنها نامرتبط و زاید می باشند. در این پایان نامه برروی انتخاب ویژگی بر روی مجموعه داده های ابعادبالای دو حوزه مختلف علم، بیوانفورماتیک و متن، کارشده است. برای هریک از این حوزه ها راهکارهای انتخاب ویژگی متفاوتی توسط محققان ارایه شده است که این راهکارها وابسته به ماهیت ویژگی های حوزه مورد نظر می باشد. مثلا ویژگی های داده های میکروآرایه مقدار "بیان ژن ها" می باشند که عددی حقیقی می باشد در حالی که در متن، ویژگی ها واژه ها بوده که الگوریتمهای ارائه شده در این حوزه بر روی خصوصیت آماری آنها که ماهیتی گسسته دارد تمرکز دارد. راهکارهای ارائه شده برای انتخاب ویژگی به دو دسته کلی باناظر و بی ناظر تقسیم بندی می شوند. راهکارهای باناظر از برچسب کلاس ها در انتخاب ویژگی کمک می گیرند، در حالی که در حالت بی ناظر تنها از مقادیر ویژگی ها استفاده می شود. تحلیل واریانس از راهکارهای بی ناظر می باشد که از دیرباز مورد توجه محققان بوده است. در قسمت اول این پایان نامه، روش های انتخاب ویژگی بی ناظر و با ناظر با تکیه بر استخراج ویژگی، تحلیل واریانس و خوشه بندی پیشنهاد شده است. روش ارایه شده بر روی شش مجموعه داده بزرگ بیوانفورماتیک که ویژگی های آن ژن ها می باشند، اعمال شده است. آزمایشات و بررسی های مختلف انجام گرفته نشان می دهند که روش بی ناظر و باناظر پیشنهادی در مجموعه داده های مختلف کارایی قابل قبولی را کسب نموده است. در راهکار پیشنهادی دوم پایان نامه، روش انتخاب ویژگی مبتنی بر فیلتر با تکیه بر عامل های احتمالاتی تاثیرگذار در دسته بندی متن که در روش های انتخاب ویژگی احتمالاتی پرکاربرد به کار رفته، ارایه می شود. روش ارایه شده از جنبه های مختلف مورد تحلیل قرارگرفته و کارایی ویژگی های انتخابی آن در دسته بندی متن با روش های دیگر انتخاب ویژگی مبتنی بر فیلتر مقایسه شده است. آزمایشات متعدد، روش های فیلتر را از جنبه های مختلف همانند: میزان اشتراک ویژگی های برتر انتخاب شده، بررسی واریانس و

پرهام مرادی دولت آبادی

مشخصات پژوهش

چکیده