انتخاب ویژگی از جریان داده با استفاده از اطلاعات تصمیم گیری و امتیاز تمایز

مشخصات پژوهش

عنوان	انتخاب ویژگی از جریان داده با استفاده از اطلاعات تصمیم‌گیری و امتیاز تمایز
نوع پژوهش	پایان نامه
کلیدواژه‌ها	انتخاب ویژگی، جریان داده، اطلاعات تصمیم‌گیری، امتیاز تمایز، انتخاب ویژگی
سال	1404
پژوهشگران	مصطفی نادری(دانشجو)، محسن رمضانی(استاد راهنما)، پرهام مرادی دولت آبادی(استاد مشاور)

چکیده

با گسترش فناوری‌های تولید داده، حجم عظیمی از اطلاعات به صورت پیوسته تولید می‌شوند که به عنوان جریان داده شناخته می‌شوند. این داده‌ها با ویژگی‌هایی مانند حجم نامحدود، سرعت تولید بالا و تغییرات پویا، چالش‌های جدی برای الگوریتم‌های سنتی انتخاب ویژگی ایجاد می‌کنند. روش‌های موجود عمدتاً رویکردی حریصانه دارند و تنها بر انتخاب ویژگی‌های با بالاترین امتیاز تمرکز می‌کنند که این امر مانع از درنظرگیری تعاملات پنهان بین ویژگی‌ها می‌شود. در این پژوهش، یک روش نوین برای انتخاب ویژگی در جریان داده‌ها ارائه شده است که بر مبنای ترکیب هوشمندانه اطلاعات تصمیم‌گیری (Decision Information - DI) و امتیاز تمایز (Discernibility Score - DS) عمل می‌کند. اطلاعات تصمیم‌گیری میزان آموزندگی یک ویژگی را در رابطه با متغیر هدف کمی‌سازی می‌کند، در حالی که امتیاز تمایز توانایی ویژگی‌ها را در تفکیک نمونه‌های متعلق به کلاس‌های مختلف ارزیابی می‌نماید. این رویکرد پیشنهادی، با بهره‌گیری از DI برای ارزیابی ارتباط ویژگی‌ها و DS برای سنجش افزونگی و قدرت تمایز، قادر است بهترین زیرمجموعه ویژگی‌ها را به صورت پویا و افزایشی انتخاب کند. این مکانیزم به طور خودکار با ورود داده‌های جدید، فرآیند انتخاب ویژگی را به‌روزرسانی می‌کند و بر مشکلات ناشی از ماهیت حریصانه روش‌های پیشین غلبه می‌نماید. مزیت اصلی این چارچوب، توانایی آن در شناسایی هم‌افزایی بین ویژگی‌ها از طریق ترکیب معیارهای DI و DS است، ضمن آنکه با طراحی افزایشی از مقیاس‌پذیری بالا و امکان پیاده‌سازی در محیط‌های بلادرنگ برخوردار می‌باشد. ارزیابی روش پیشنهادی بر روی مجموعه‌داده‌های متنوع پزشکی، ژنتیکی، دست‌نویس و مصنوعی با معیارهای دقت، امتیاز F1 و ROC-AUC انجام شد. نتایج تجربی نشان داد روش پیشنهادی با میانگین دقت 89.1٪، برتری قابل توجهی در مقایسه با دوازده روش پیشین دارد. این روش نه تنها ابعاد داده را به طور مؤثر کاهش می‌دهد، بلکه دقت و کارایی مدل‌های یادگیری ماشین را در محیط جریان داده به طور مداوم بهبود می‌بخشد. دستاوردهای این پژوهش زمینه را برای کاربردهای مؤثر در حوزه‌هایی مانند شبکه‌های اجتماعی، اینترنت اشیاء و سیستم‌های تشخیص تقلب فراهم می‌کند.

محسن رمضانی

مشخصات پژوهش

چکیده