یک راهکار ترکیبی برای خوشه بندی مستندات متنی با استفاده از الگوریتم های کاهش بعد

مشخصات پژوهش

عنوان	یک راهکار ترکیبی برای خوشه بندی مستندات متنی با استفاده از الگوریتم های کاهش بعد
نوع پژوهش	پایان نامه
کلیدواژه‌ها	خوشه بندی مستندات متنی، وزن دهی ویژگی ها، معیار شباهت اقلیدسی و غیراقلیدسی.
سال	1395
پژوهشگران	منیژه رییسی(دانشجو)، پرهام مرادی دولت آبادی(استاد راهنما)، علیرضا عبداله پوری(استاد مشاور)

چکیده

با رشد روزافزون مستندات متنی، انتخاب اطلاعات مطلوب در زمان محدود کار دشواری است. با استفاده از ابزارهایی نظیر خوشه بندی، می توان این حجم انبوه اطلاعات را مدیریت نمود. خوشه بندی فرآیندی است که در آن مجموعه ای از نمونه داده ها به گروه های مجزایی از خوشه ها تقسیم می شوند. به طوری که، نمونه های یک خوشه تا حد امکان به یکدیگر شبیه بوده و با نمونه های دیگر خوشه ها، متفاوت باشند. خوشه بندی در زمینه های بسیاری از جمله شناسایی الگو، یادگیری ماشین، داده کاوی و بازیابی اطلاعات کاربرد دارد. در این پایان نامه، چهار روش جدید خوشه بندی برای مستندات متنی ارائه شده است که در این روش ها به منظور انتخاب زیرمجموعه ی موثری از ویژگی ها، از روش کاهش بعد پراکندگی داده استفاده می شود. در روش پیشنهادی اول، یک تابع هدف جدید مبتنی بر خوشه بندی فازی به همراه آنتروپی وزن ویژگی ها ارائه شده است. وزن دهی در این روش به صورت سراسری است. از جمله مزیت های این روش می توان به بروزرسانی وزن ویژگی ها در طی فرآیند خوشه بندی و مقابله با نویز اشاره کرد. از آنجایی که در مسائل واقعی جهان، وزن هر ویژگی در خوشه های مختلف، متفاوت است، در دو روش پیشنهادی دوم و سوم، وزن دهی ویژگی ها به صورت محلی انجام می شود. لازم به ذکر است که تفاوت روش پیشنهادی دوم و سوم در معیار شباهتشان می باشد. در روش پیشنهادی سوم از معیار شباهت غیراقلیدسی استفاده می شود. این امر باعث می شود، در مواقعی که نویز بیش از اندازه وجود دارد، خوشه بندی با دقت بهتری انجام شود. در روش پیشنهادی چهارم از ترکیب الگوریتم زنبور عسل و وزن دهی سراسری استفاده شده است. بدین ترتیب، علاوه بر این که از مزایای الگوریتم های هوش جمعی بهره می برد، با وزن دهی ویژگی ها دقت خوشه بندی نیز بهبود پیدا می کند. عملکرد روش های پیشنهادی در مجموعه داده های عددی و متنی مورد ارزیابی قرار گرفته است. در این ارزیابی، عملکرد روش های پیشنهادی با 9 روش خوشه بندی شناخته شده و بر اساس معیارهای ارزیابی مختلف بررسی شده است. نتایج آزمایشات، کارایی روش های پیشنهادی و بهبود روش های خوشه بندی قبلی را نشان می دهند.

علیرضا عبداله پوری

مشخصات پژوهش

چکیده