1403/02/16
شاهو زارعی

شاهو زارعی

مرتبه علمی: استادیار
ارکید:
تحصیلات: دکترای تخصصی
اسکاپوس: 6325
دانشکده: دانشکده علوم پایه
نشانی: دانشکده علوم پایه- اتاق 321
تلفن: 2492: داخلی

مشخصات پژوهش

عنوان
آمیخته مدل‌های خبره برای خوشه‌بندی با متغیر‌های کمکی
نوع پژوهش
پایان نامه
کلیدواژه‌ها
خوشه‌بندی مبتنی بر مدل، الگوریتم‎$EM$،‎ مدل آمیخته خبرگان، خوشه‌بندی بر مبنای متغیر کمکی.
سال 1402
پژوهشگران فاطمه نظری(دانشجو)، شاهو زارعی(استاد راهنما)

چکیده

خوشه‌بندی یک ابزار بسیار مفید آماری از نوع یادگیری بدون نظارت در یادگیری ماشین و علم داده‌ها محسوب می‌شود. در این روش، داده‌ها بدون نیاز به کوچک‌ترین راهنمایی به خوشه‌های مشابه تقسیم می‌شوند. داده‌ها درون خوشه بیشترین شباهت و بین خوشه‌ها بیشترین تفاوت را دارند. این فن آماری در تلخیص مشاهدات، تشخیص الگو و ارتباط بین مشاهدات کاربرد دارد. در این پایان‌نامه روش‌های خوشه‌بندی مبتنی بر مدل مورد بررسی قرار می‌گیرد. در این حالت فرض می‌شود، که داده‌ها از یک توزیع آمیخته‌ی متناهی که مؤلفه‌های آن اغلب دارای یک توزیع مشخص مانند توزیع نرمال می‌باشند، آمده باشند. امروزه مشخص شده است، که اطلاعات کمکی می‌تواند در خوشه‌بندی کردن بهتر و درست‌تر داده‌ها کمک کند. اما در خوشه‌بندی مبتنی بر مدل آمیخته معمولی از متغیرهای کمکی استفاده نمی‌شود. برای استفاده از اطلاعات کمکی می‌توان از مدل‌های آمیخته رگرسیونی استفاده کرد. در تحقیق حاضر، نوع جدیدی از خوشه‌بندی که اساس آن بر وجود اطلاعات اضافی در قالب متغیر‌های کمکی هم در خوشه‌ها و هم در وزن‌های آمیخته است، مورد بررسی قرار می‌گیرد. این روش مدل آمیخته خبرگان نامیده می‌شود. اگر متغیر کمکی در قسمت‌ وزن‌‌های آمیخته که به آن متغیر همراه گفته می‌شود درست انتخاب شود، تفسیر نتایج خوشه‌بندی واضح‌تر و معمولا باعث افزایش دقت خوشه‌بندی می‌شود. در فصل اول پایان‌نامه، مقدمات پایه خوشه‌بندی، مثال‌هایی از کابردهای واقعی آن، الگوریتم‌های مختلف خوشه‌بندی و استفاده از شاخص‌های ‌ارزیابی برای خوشه‌بندی توضیح و بررسی می‌شوند. در فصل دوم، مدل‌های آمیخته متناهی و استنباط در مدل‌ه‍ای آمیخته بر اساس الگوریتم ‎$EM$‎ و فن ‎$Mclust$‎ و همچنین مرور مختصری بر مدل‌های آمیخته رگرسیونی بیان می‌شود. در فصل سوم خوشه‌بندی مبتنی بر مدل خبرگان نرمال و استنباط در این مدل به طور دقیق بیان می‌شود. در فصل چهارم، با استفاده از شبیه‌‌سازی و استفاده از داده‌های واقعی مختلف شامل مشخصات اندام‌های مختلف بدن گونه سمندر کوهستانی دریوگین در دو جنس نر و ماده و همچنین داده‌های شراب ایتالیایی، مدل‌ها و الگوریتم‌های معرفی شده مورد ارزیابی و مقایسه قرار می‌گیرند.