ارائه الگوریتم های ریشه یاب و غلط گیر برای متون زبان کردی

مشخصات پژوهش

عنوان	ارائه الگوریتم های ریشه یاب و غلط گیر برای متون زبان کردی
نوع پژوهش	پایان نامه
کلیدواژه‌ها	زبان کردی- بازیابی اطلاعات -پردازش زبان طبیعی - ریشه یابی - هسته یابی- غلط گیری
سال	1392
پژوهشگران	شاهین صلواتی(دانشجو)، فردین اخلاقیان طاب(استاد راهنما)

چکیده

زبان کردی که در دسته زبانهای هندواروپایی میباشد، توسط ساکنان مناطقی وسیعی در کشورهای ایران، عراق، ترکیه و سوریه مورد تکلم قرار میگیرد. علیرغم جمعیت بالای متکلمان زبان کردی، این زبان در دستهزبانهای کم منبع قرار دارد و چندان مورد توجه پژوهشگران حوزه پردازش زبان به ویژه بازیابی اطلاعات و پردازش زبان طبیعی قرار نگرفته است. بر همین اساس، با هدف ارائه راهحل و رفع مشکل تنک بودن منابع، اخیرا پروژه پردازش زبان کردی ) KLPP ) در دانشگاه کردستان شروع به کار کرده است. هدف اصلی پروژه، ارائه منابع و ابزارهای ضروری برای پردازش متونزبان کردی میباشد. این گزارش، خروجیهای یک پایان نامه ارشد را که در چارچوب KLPP به انجام رسیده است،گزارش میکند. اولین خروجی این پروژه، مجموعه پێوان است، که شامل تعداد زیادی از اسناد نوشته شده به سورانی و کرمانجی–دوگویش اصلی زبان کردی- می باشد. این مجموعه یک منبع زبانشناسی غنی محسوب میشود و بصورت گسترده در تمامی بخشهای این پایاننامه برای تسهیل توسعه سایر ابزاها مورد استفاده قرار گرفته است. به دنبال ساخت این مجموعه اسناد، ما مجموعه آزمون پێوان را به عنوان یک سنگ محک برای سیستمهای بازیابی اطلاعات کردی، ایجاد می کنیم. پس از تولید این پیشنیاز ضروری، ما بر روی اهداف اصلی این پایاننامه، که شامل ساخت یک ریشه یاب، یک هسته یاب و یک غلط گیر، برای زبان کردی به طور عام و برای گویش سورانی به طور خاص میباشد، تمرکز میکنیم. برای این هدف، ابتدا ژێدهر، یک ریشه یاب مبتنی برقاعده )پشتیبانی کننده از هر دو گویش سورانی و کرمانجی( ایجاد و تاثیر آن را بر بهبود کارایی موتورهای جستجوی کردی نشان میدهیم. سپس، پهیڤ، یک هسته یاب مستقل از فرهنگ لغت را ارائه می کنیم، که توانایی استخراج هسته کلمات مشتق )افعال یا اسامی( را دارد. پهیڤ، مبتنی بر مجموعهای از قواعد ریختشناسی میباشد، که آنها را از گویش سورانی گردآوری کردهایم. در نهایت، ڕێنووس را که یک ابزار غلطگیر متون سورانی میباشد، ارائه میکنیم. غلطگیر از روشهای آماری، مبتنی برقاعده و فرهنگ لغت بهره میبرد. ڕێنووس تنها برای تشخیص کلمات اشتباه ارائه نشده است، بلکه میتواند یک لیست از جایگزینهای بالقوه را به کاربر پیشنهاد کند. بسیار علاقه مندیم به این نکته اشاره شود که تمامی راهحلهای ارائه شده در این پایاننامه، پیادهسازی و کارایی آنها به صورت تجربی

فردین اخلاقیان طاب

مشخصات پژوهش

چکیده