1404/09/14
فاطمه دانشفر (Fatemeh Daneshfar)

فاطمه دانشفر (Fatemeh Daneshfar)

مرتبه علمی: استادیار
ارکید:
تحصیلات: دکترای تخصصی
شاخص H:
دانشکده: دانشکده مهندسی
اسکولار:
پست الکترونیکی: f.daneshfar [at] uok.ac.ir
اسکاپوس: مشاهده
تلفن:
ریسرچ گیت:

مشخصات پژوهش

عنوان
سنتز متن به تصویر با استفاده از شبکه های مولد تخاصمی بر اساس مکانیسم توجه
نوع پژوهش
پایان نامه
کلیدواژه‌ها
سنتز متن به تصویر، شبکه مولد متخاصم، مکانیسم توجه دوگانه، تولید تصویر چند مرحله ای، همترازی معنایی، سنتز تصویر با وضوح بالا، یادگیری عمیق، پردازش زبان طبیعی
سال 1403
پژوهشگران محمد هوگر(دانشجو)، فاطمه دانشفر (Fatemeh Daneshfar)(استاد راهنما)، هاشم پروین(استاد مشاور)

چکیده

سنتز متن به تصویر که یک عملکرد اساسی در هوش مصنوعی مولد بحساب می آید به دنبال تولید تصاویر واقعی است که با توصیف های زبان طبیعی مطابقت داشته باشد. این مطالعه یک شبکه مولد متخاصم توجه دوگانه را پیشنهاد می دهد که از یک معماری نوآورانه ی چند مرحله ای برای تقویت مسائل مربوط به واقع گرایی بصری، هماهنگی معنایی و تولید جزئیات ریز دانه استفاده می کند. مدل GAN2DA از دو فاز مجزا بهره می گیرد که یک فاز خود هدایت شونده برای تولید پیش نویس های با وضوح پایین و یک فاز همترازسازی برای افزایش این پیش نویس ها به خروجی هایی با وضوح بالا بهره می گیرد. تکنیک توجه دوگانه به GAN2DA اجازه می دهد تا بر روی ویژگی های متنی و بصری تمرکز داشته و تصویر دقیق عناصر توصیفی را تضمین کرده و تصاویر منسجم و با کیفیت بالا را تولید کند. ما GAN2DA را با استفاده از مجموعه داده های CUB و -102Oxford ارزیابی کرده و نتایج رقابتی را در معیارهای شناخته شده مانند IS، FID و RP ارزیابی می کنیم. مدل پیشنهادی از مدل های ارائه شده قبلی از لحاظ مقایسه های کیفی و کمی پیشی می گیرد. مقایسه های کیفی بیشتر بر ظرفیت این مدل برای تولید تصاویر واضح تر و واقع بینانه تر با هماهنگی بیشتر با توصیف های متنی تأکید می کند. نوآوری هایی که در GAN2DA نشان داده شده است، توانایی آن را به عنوان یک چارچوب پیشرفته برای سنتز متن به تصویر نشان می دهد که در توسعه محتوای خلاق، طراحی خودکار مناسب و افزایش وضوح تصاویر قابل استفاده است.