یک راهکار خوشه بندی مبتنی بر چگالی با استفاده از انتشار برچسب پویا

مشخصات پژوهش

عنوان	یک راهکار خوشه بندی مبتنی بر چگالی با استفاده از انتشار برچسب پویا
نوع پژوهش	پایان نامه
کلیدواژه‌ها	خوشه بندی حداکثر چگالی، خوشه بندی نرم، خوشه بندی مبتنی بر گراف، انتشار برچسب، خمینه.
سال	1396
پژوهشگران	عبدالرحمن لطفی(دانشجو)، پرهام مرادی دولت آبادی(استاد راهنما)

چکیده

خوشه بندی یک رویکرد عمده در زمینه داده کاوی و یادگیری ماشین است و در بسیاری از برنامه های دنیای واقعی موفق بوده است. خوشه بندی حداکثر چگالی یکی از روش های مبتنی بر چگالی است که به تازگی منتشر شده و از کارایی موثری در خوشه بندی اشیا داده برخوردار می باشد. با این حال، این روش خوشه بندی و بسیاری از بهبودهای آن از کاستی هایی رنج می برند. به عنوان مثال، این روش فقط ساختار جهانی داده ها را بررسی می کند که منجر به از دست دادن خوشه های بسیاری می شود. پارامتر برش روی مقادیر چگالی محلی تاثیر مستقیم می گذارد و همچنین می تواند بر کیفیت خوشه بندی تأثیر بگذارد. همچنین راهبرد تخصیص برچسب موجب ایجاد واکنش زنجیره ای می شود. به این صورت که اگر یک نمونه برچسب اشتباه بگیرد،ممکن است نمونه های بیشتری این برچسب اشتباه را بگیرند. یکی دیگر از کاستی های روش خوشه بندی حداکثر چگالی و بهبودهای آن، ناتوانی در تشخیص داده های بسیار پیچیده و دارای چگالی های متنوع می باشد. در این پایان نامه، چهار روش پیشنهادی ارائه شده است. که دو روش اول و دوم رویکردی بدون تکرار و روش سوم وچهارم رویکرد تکراری مبتنی بر گراف را ارائه می دهند. در روش اول از چگالی محلی مبتنی بر همسایگی بهره برده شده است. همچنین برای جلوگیری از تخصیص برچسب اشتباه به نمونه ها، روش مبتنی بر رای گیری بین نمونه ها ارائه خواهد شد. در روش پیشنهادی دوم از یک رابطه همسایگی نرم برای محاسبه چگالی محلی نمونه ها و ایجاد ساختار اولیه خوشه ها استفاده خواهد شد. همچنین نواحی هم پوشان ، نمونه های مرزی و نمونه های نویز در این روش شناسایی خواهند شد. در روش پیشنهادی سوم علاوه بر استفاده از چگالی محلی مبتنی بر همسایگی، برای خوشه ها ساختار محلی و ستون فقرات ایجاد می شود. بعد یک روش انتشار برچسب پویای مبتنی بر گراف را برای انتشار مناسب برچسب ها به کار می برد، که تا حد زیادی از انتشار برچسب اشتباه به نمونه ها جلوگیری می کند. روش پیشنهادی چهارم توسعه یافته روش پیشنهادی سوم است، با این تفاوت که مشکل انتخاب مرکز خوشه در مجموعه داده هایی با تنوع چگالی را در نظر خواهد گرفت و راهبرد ایجاد ریزخوشه و ادغام مبتنی بر الگوریتم های سلسله مراتبی را برای حل آن به کار خواهد برد. آزمایش های متعددی برای ارزیابی عملکرد روش های پیشنهادی در هر دو مجموعه داده های مصنوعی و داده های

پرهام مرادی دولت آبادی

مشخصات پژوهش

چکیده