1403/09/01
فاطمه دانشفر

فاطمه دانشفر

مرتبه علمی: استادیار
ارکید:
تحصیلات: دکترای تخصصی
اسکاپوس: 35078447100
دانشکده: دانشکده مهندسی
نشانی: دانشگاه کردستان-دانشکده مهندسی-گروه کامپیوتر
تلفن:

مشخصات پژوهش

عنوان
روش یادگیری عمیق چندوجهی مبتنی‌بر توجه برای شرح تصویر
نوع پژوهش
پایان نامه
کلیدواژه‌ها
شرح تصویر، رمزگذار-رمزگشا، مکانیسم توجه، بینایی کامپیوتر، پردازش زبان طبیعی، یادگیری عمیق
سال 1403
پژوهشگران پردیس لطفی(دانشجو)، فاطمه دانشفر(استاد راهنما)، هاشم پروین(استاد مشاور)

چکیده

مغز ما قادر است تصاویری که در برابرمان ظاهر می‌شوند را توصیف و یا دسته‌بندی کند. اما چگونه یک کامپیوتر می‌تواند تصویر را پردازش کرده و آن را با یک شرح مناسب و دقیق شناسایی کند؟ این امر چند سال پیش غیرقابل دستیابی به نظر می‌رسید، اما با پیشرفت الگوریتم‌های بینایی ماشین و یادگیری عمیق، همچنین در دسترس بودن مجموعه داده‌ها و مدل‌های هوش مصنوعی مناسب، ساخت یک تولیدکننده شرح مناسب برای یک تصویر آسان‌تر شده است. تولید شرح تصویر همچنین یک صنعت رو به رشد در سراسر جهان است. فرایند تولید شرح تصویر برای تبدیل تصاویر به یک سری کلمات با استفاده از یک سری پیکسل‌ها استفاده می‌شود. می‌توان تصور کرد که تولید شرح تصاویر چالشی از ابتدا تا انتها در قالب یک چالش توالی به توالی است. برای دستیابی به این هدف، لازم است هم کلمات و هم تصاویر را پردازش کرد. در این پایان نامه، ابتدا، توضیحی از شرح تصویر و کاربردهای آن در حوزه‌های مختلف ارائه شده است و سپس، به بررسی سیر تکاملی روش‌های شرح تصویر پرداخته شده است. روش‌های مختلفی که در گذر زمان برای شرح تصویر پیشنهاد شده‌اند، به‌طور جامع مورد بررسی قرار گرفته‌اند. این دسته‌بندی منسجم به ما کمک می‌کند تا به فهم عمیق‌تری از تکنیک‌ها و روش‌های موجود در شرح تصویر برسیم. همچنین، در این پایان نامه مقالات اخیر در حوزه شرح تصویر مورد بررسی قرار گرفته‌اند. با توجه به نتایج بدست آمده از بررسی مقالات اخیر، ضرورت ادامه پژوهش‌ها در حوزه شرح تصویر مورد تأکید قرار گرفته است. این پژوهش‌ها می‌توانند بهبودهای مهمی در روش‌های موجود برای شرح تصویر و نیز کشف روش‌های نوین و پیشرفته‌تر منجر شوند. در این پایان نامه از روش رمزگذار-رمزگشا مبتنی‌بر توجه استفاده شده است که برخلاف روش‌های پیشین که توجه فقط برروی یکی از بخش‌ها اعمال می‌شد، مکانیسم توجه هم برروی تصویر و هم برروی متن اعمال شده است که این یک ایده جدید در این حوزه می‌باشد و همچنین شیوه تولید شرح نهایی لغت به لغت است. از مجموعه داده FLICKR8K استفاده شده است و همچنین از معیار های ارزیابیBLEU (1,2,3,4) ، ROUGE، METEOR استفاده شده است.که این نتایج به ترتیب، 51_49_48_44_52_37.5 است. این نتایج به دست آمده حاکی از بهبود روش‌های قبلی است.