عنوان
|
بهبود طبقه بندی متن با استفاده از روش های ترکیب
|
نوع پژوهش
|
پایان نامه
|
کلیدواژهها
|
طبقه بند- طبقه بند متن- ترکیب طبقه بندها - رأی گیری وزن دار
|
چکیده
|
با توجه به گسترش اینترنت و افزایش چشمگیر حجم مطالب متنی، ابزارها و روش های خودکار برای مدیریت اسناد و مطالب متنی، مورد توجه بسیار زیادی قرار گرفته اند. از جمله ی این ابزارها می توان به طبقه بند متن اشاره کرد که می تواند در این زمینه بسیار مؤثر باشد. این ابزار کاربردهای فراوانی در سیستم های بررسی متون مانند موتورهای جستجو، سیستم های فیلترینگ، تشخیص هرزنامه ها، کتابخانه های دیجیتال و سایر سیستم های مشابه دارد. از آن جایی که صحت طبقه بندی متن یکی از مهمترین شاخص های موفقیت این سیستم ها به شمار می آید، از اهداف اساسی این پایان نامه افزایش میزان صحت طبقه بندی متون می باشد. با توجه به میزان کارهای انجام شده قبلی، افزایش کارایی طبقه بندهای منفرد مشکل می باشد، لذا رهیافت ما برای رسیدن به این هدف استفاده و بهبود روش های ترکیب طبقه بندها است. در این پایان نامه برای بهبود صحت طبقه بندی متن، و بر مبنای روش ترکیب رأی گیری وزن دار، دو رهیافت جدید برای وزن دهی طبقه ها و طبقه بندها پیشنهاد شده است. رهیافت اول مبتنی بر در نظر گرفتن وزن مستقل برای هر طبقه و هر طبقه بند است. رهیافت دوم تعمیم رهیافت اول است. بدین شکل که برای جواب مثبت یا منفی هر طبقه بند در مورد هر طبقه وزن مستقلی در نظر گرفته می شود. برای محاسبه ی اوزان در هر دو رهیافت، علاوه بر الگوریتم ژنتیک، معادله تجربی خاصی هم پیشنهاد گردیده است که در زمان بسیار کمتری نسبت به الگوریتم ژنتیک اجرا می گردد. نتایج طبقه بندی بر مبنای محاسبه اوزان با استفاده از معادله ی پیشنهادی، کاملاَ با نتایج استفاده از الگوریتم ژنتیک قابل مقایسه و حتی گاهی بهتر هم می باشد. آزمایش ها با استفاده از طبقه بندهای رُکیو، نزدیک ترین همسایه و بیز، و سه روش انتخاب ویژگی شامل اطلاعات متقابل، خی2 و MCFS انجام شده است. نتایج تجربی حاصل از اعمال الگوریتم های ترکیب پیشنهادی بر روی مجموعه داده های آموزشی رایج و مقایسه با نتایج حاصل از سایر روش های ترکیب طبقه بندها، مانند رأی گیری وزن دار، عملگر میانگین وزن دار رتبه یافته و روش قالب تصمیم، نشان می دهد که رهیافت های پیشنهادی دقت طبقه بندی را بنحو چشمگیری افزایش داده اند. این نتایج از آزمایش بر روی چهار مجموعه داده های آموزشی متفاوت و رایج بدست آمده است.
|
پژوهشگران
|
علی دانش (دانشجو)، فردین اخلاقیان طاب (استاد راهنما)
|