مغز ما قادر است تصاویری که در برابرمان ظاهر میشوند را توصیف و یا دستهبندی کند. اما چگونه یک کامپیوتر میتواند تصویر را پردازش کرده و آن را با یک شرح مناسب و دقیق شناسایی کند؟ این امر چند سال پیش غیرقابل دستیابی به نظر میرسید، اما با پیشرفت الگوریتمهای بینایی ماشین و یادگیری عمیق، همچنین در دسترس بودن مجموعه دادهها و مدلهای هوش مصنوعی مناسب، ساخت یک تولیدکننده شرح مناسب برای یک تصویر آسانتر شده است. تولید شرح تصویر همچنین یک صنعت رو به رشد در سراسر جهان است. فرایند تولید شرح تصویر برای تبدیل تصاویر به یک سری کلمات با استفاده از یک سری پیکسلها استفاده میشود. میتوان تصور کرد که تولید شرح تصاویر چالشی از ابتدا تا انتها در قالب یک چالش توالی به توالی است. برای دستیابی به این هدف، لازم است هم کلمات و هم تصاویر را پردازش کرد. در این پایان نامه، ابتدا، توضیحی از شرح تصویر و کاربردهای آن در حوزههای مختلف ارائه شده است و سپس، به بررسی سیر تکاملی روشهای شرح تصویر پرداخته شده است. روشهای مختلفی که در گذر زمان برای شرح تصویر پیشنهاد شدهاند، بهطور جامع مورد بررسی قرار گرفتهاند. این دستهبندی منسجم به ما کمک میکند تا به فهم عمیقتری از تکنیکها و روشهای موجود در شرح تصویر برسیم. همچنین، در این پایان نامه مقالات اخیر در حوزه شرح تصویر مورد بررسی قرار گرفتهاند. با توجه به نتایج بدست آمده از بررسی مقالات اخیر، ضرورت ادامه پژوهشها در حوزه شرح تصویر مورد تأکید قرار گرفته است. این پژوهشها میتوانند بهبودهای مهمی در روشهای موجود برای شرح تصویر و نیز کشف روشهای نوین و پیشرفتهتر منجر شوند. در این پایان نامه از روش رمزگذار-رمزگشا مبتنیبر توجه استفاده شده است که برخلاف روشهای پیشین که توجه فقط برروی یکی از بخشها اعمال میشد، مکانیسم توجه هم برروی تصویر و هم برروی متن اعمال شده است که این یک ایده جدید در این حوزه میباشد و همچنین شیوه تولید شرح نهایی لغت به لغت است. از مجموعه داده FLICKR8K استفاده شده است و همچنین از معیار های ارزیابیBLEU (1,2,3,4) ، ROUGE، METEOR استفاده شده است.که این نتایج به ترتیب، 51_49_48_44_52_37.5 است. این نتایج به دست آمده حاکی از بهبود روشهای قبلی است.