طبقه بندی داده های نامتعادل با استفاده از روش های نمونه برداری و یادگیری حساس به هزینه

مشخصات پژوهش

عنوان	طبقه بندی داده های نامتعادل با استفاده از روش های نمونه برداری و یادگیری حساس به هزینه
نوع پژوهش	پایان نامه
کلیدواژه‌ها	معیار تنوع، معیار تفکیک پذیری، افزایش نمونه، داده های نامتعادل، حساس به هزینه، طبقه بندی کننده
سال	1393
پژوهشگران	شادی محمودی(دانشجو)، پرهام مرادی دولت آبادی(استاد راهنما)، فردین اخلاقیان طاب(استاد راهنما)

چکیده

مسأله طبقه بندی داده های نامتعادل یکی از مسائلی است که اخیراً توجه زیادی از مهندسین و محققین را به خود جذب کرده است. داده های نامتعادل در واقع نوعی از داده هاست که در آن تعداد نمونه های یک کلاس نسبت به دیگر کلاس ها بسیار بیشتر (یا بسیار کمتر) است. در نتیجه الگوریتم های طبقه بندی کننده به کلاس اکثریت بایاس شده و در بیشتر موارد کلاس نمونه های ورودی جدید را از نوع اکثریت تشخیص می دهد که این امر منجر به کاهش کارایی آنها در مواجهه با این نوع داده می شود. یکی از پرکاربردترین تکنیک هایی که جهت برخورد با داده های نامتعادل به کار می رود، تغییر توزیع کلاس ها با روش های رایجی چون تکنیک های افزایش نمونه یا کاهش نمونه و همچنین سازگار کردن طبقه بندی کننده ها است. در این پایان نامه دو راهکار برای افزایش کارایی طبقه بندی کننده ها در مواجهه با داده های نامتعادل ارائه شده است. ایده اصلی در روش پیشنهادی اول استفاده از دو معیار تنوع و تفکیک پذیری در افزایش نمونه ی کلاس اقلیت است که معیار تنوع در جهت کاهش بیش یادگیری و معیار تفکیک پذیری با جلوگیری از تولید نمونه های ریسک پذیر، تأثیر مثبتی در متعادل سازی توزیع کلاس ها داشته است. روش پیشنهادی اول بر روی 11 مجموعه داده ای با سه نوع طبقه بندی کننده بر اساس شش معیار ارزیابی با چهار روش پیشین مورد مقایسه و ارزیابی قرار گرفته است. در روش پیشنهادی دوم طبقه بندی بیز ساده، به گونه ای تغییر داده شده است که در طبقه بندی کلاسهای اکثریت و اقلیت هزینه های متفاوتی را اعمال نماید. در این روش از ماتریس جریمه مناسب، به منظور کاهش بایاس طبقه-بندی کننده به سمت کلاس اکثریت استفاده شده است. نتایج کار بر روی نه مجموعه داده ای و با بهره گیری از شش معیار ارزیابی داده های نامتعادل و با استفاده از منحنی هزینه نهایی، دقت و عملکرد طبقه بندی کننده بیزین ساده با طبقه بندی کننده استاندارد مورد ارزیابی قرار گرفته است. طبق نتایج به دست آمده دقت روش پیشنهادی در بیشتر موارد افزایش یافته و یا قابل مقایسه با طبقه بندی کننده استاندارد می باشد و از طرفی با اعمال ماتریس جریمه، هزینه نهایی طبقه بندی کننده حساس به هزینه در بیشتر موارد، پایین تر از طبقه بندی کننده بیزین ساده استاندارد می باشد

فردین اخلاقیان طاب

مشخصات پژوهش

چکیده