سامانه پژوهشی دانشگاه کردستان | سنتز متن به تصویر با استفاده از شبکه های مولد تخاصمی بر اساس مکانیسم توجه

عنوان	سنتز متن به تصویر با استفاده از شبکه های مولد تخاصمی بر اساس مکانیسم توجه
نوع پژوهش	پایان نامه
کلیدواژه‌ها	سنتز متن به تصویر، شبکه مولد متخاصم، مکانیسم توجه دوگانه، تولید تصویر چند مرحله ای، همترازی معنایی، سنتز تصویر با وضوح بالا، یادگیری عمیق، پردازش زبان طبیعی
چکیده	سنتز متن به تصویر که یک عملکرد اساسی در هوش مصنوعی مولد بحساب می آید به دنبال تولید تصاویر واقعی است که با توصیف های زبان طبیعی مطابقت داشته باشد. این مطالعه یک شبکه مولد متخاصم توجه دوگانه را پیشنهاد می دهد که از یک معماری نوآورانه ی چند مرحله ای برای تقویت مسائل مربوط به واقع گرایی بصری، هماهنگی معنایی و تولید جزئیات ریز دانه استفاده می کند. مدل GAN2DA از دو فاز مجزا بهره می گیرد که یک فاز خود هدایت شونده برای تولید پیش نویس های با وضوح پایین و یک فاز همترازسازی برای افزایش این پیش نویس ها به خروجی هایی با وضوح بالا بهره می گیرد. تکنیک توجه دوگانه به GAN2DA اجازه می دهد تا بر روی ویژگی های متنی و بصری تمرکز داشته و تصویر دقیق عناصر توصیفی را تضمین کرده و تصاویر منسجم و با کیفیت بالا را تولید کند. ما GAN2DA را با استفاده از مجموعه داده های CUB و -102Oxford ارزیابی کرده و نتایج رقابتی را در معیارهای شناخته شده مانند IS، FID و RP ارزیابی می کنیم. مدل پیشنهادی از مدل های ارائه شده قبلی از لحاظ مقایسه های کیفی و کمی پیشی می گیرد. مقایسه های کیفی بیشتر بر ظرفیت این مدل برای تولید تصاویر واضح تر و واقع بینانه تر با هماهنگی بیشتر با توصیف های متنی تأکید می کند. نوآوری هایی که در GAN2DA نشان داده شده است، توانایی آن را به عنوان یک چارچوب پیشرفته برای سنتز متن به تصویر نشان می دهد که در توسعه محتوای خلاق، طراحی خودکار مناسب و افزایش وضوح تصاویر قابل استفاده است.
پژوهشگران	فاطمه دانشفر (استاد راهنما)، محمد هوگر (دانشجو)، هاشم پروین (استاد مشاور)

مشخصات پژوهش