تطبیق روشهای انتخاب ویژگی برای دسته بندی متون کردی

مشخصات پژوهش

عنوان	تطبیق روشهای انتخاب ویژگی برای دسته بندی متون کردی
نوع پژوهش	پایان نامه
کلیدواژه‌ها	زبان کردی، بازیابی اطلاعات، پردازش زبان طبیعی، انتخاب ویژگی، دسته بندی متون
سال	1393
پژوهشگران	دنیا الیاسی(دانشجو)، علیرضا عبداله پوری(استاد راهنما)، کیومرث شیخ اسماعیلی(استاد مشاور)

چکیده

زبان کردی در دسته زبان های هند و اروپایی می باشد، توسط ساکنان مناطق وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار می گیرد. علی رغم جمعیت بالای متکلمان زبان کردی، این زبان در دسته زبان های کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راه حل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی (KLPP) در دانشگاه کردستان و علوم تحقیقات شروع به کار کرده است. هدف اصلی این پروژه ارائه منابع و ابزارهای ضروری برای پردازش متون زبان کردی می-باشد. این گزارش، خروجی یک پایان نامه ارشد را که در چارچوب KLPP به انجام رسیده است، گزارش می کند. اولین خروجی این پروژه مجموعه پێوان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی – دو شاحه اصلی زبان کردی- می باشد. این مجموعه یک منبع زبان شناسی غنی محسوب می شود و بصورت گسترده در تمامی بخش های پایان نامه به عنوان مجموعه داده مورد استفاده قرار گرفته است. به دنبال ساخن این مجموعه اسناد، ما مجموعه آزمون پێوان را به عنوان یک سنگ محک برای سیستم های بازیابی اطلاعات کردی، ایجاد می کنیم پس از تولید مجموعه آزمون پێوان، به اهداف دیگر پایان نامه یعنی تطبیق روش های انتخاب ویژگی برای زبان کردی می پردازیم. تا کنون مطالعات بسیار اندکی به منظور دسته بندی متون کردی صورت گرفته است، به همین منظور در این پروژه سعی شده روش های انتخاب ویژگی که تاثیر بسزایی در دسته بندی مناسب متون دارند با زبان کردی تطبیق داده شود، هم چنین روش های مختلف مورد بررسی قرار گرفته تا منطبق ترین روش با ساختار زبان کردی انتخاب شود. دسته بندی متون مراحل مختلفی مانند روش های استخراج ویژگی، وزن دهی به ویژگی های استخراجی، انتخاب آن، ساخت بردار اسناد و در نهایت اجرای الگوریتم های دسته بندی بر اساس بردار اسناد می باشد. ویژگی های انتخابی نقش بسزایی در کارایی دسته بندی متون دارند و کاملا وابسته به ساختار زبان متون می باشند، به همین دلیل در این پروژه ابتدا دو مجموعه داده طبقه بندی برای زبان کردی تهیه شده است، سپس پیش پردازشی متناسب با این زبان بر روی متون صورت گرفته است. در ادامه به تجزیه اسناد برای استخراج ویژگی های مناسب می پردازیم. روش های مختلف انتخاب ویژگی

علیرضا عبداله پوری

مشخصات پژوهش

چکیده