تشخیص هیجان گفتار با استفاده از شبکه حالت اکو غیرخطی کواترنیون، انجام شده توسط فاطمه دانشفر (Fatemeh Daneshfar)

مشخصات پژوهش

عنوان	تشخیص هیجان گفتار با استفاده از شبکه حالت اکو غیرخطی کواترنیون
نوع پژوهش	سخنرانی
کلیدواژه‌ها	شبکه حالت اکو-تشخیص هیجان گفتار
سال	1400
پژوهشگران	فاطمه دانشفر (Fatemeh Daneshfar)

چکیده

شبکه حالت اکو ابزاری قدرتمند وکارآمد برای نمایش داده های پویامی باشد. بااین حال، بسیاری ازESN های موجود، محدودیت هایی را برای مدل سازی صحیح ومناسب دادگان باابعاد بالادارند. مهمترین محدودیت این شبکه ها میزان حافظه مصرفی بالا، بدلیل ساختار مخزن آنهااست که مانع افزایش واحدهای مخزن واستفاده حداکثر ازقابلیتهای ویژه این نوع شبکه ها شده است. یکی ازروشهای حل این مساله استفاده ازجبرکواترنیون است. ازآنجاکه کواترنیونها دارای چهاربعد مختلف می باشند، براحتی دادگان باابعادبالا رابصورت فشرده نمایش داده و بااستفاده ازضرب هامیلتونی ، باپارامترهای کمتری به نسبت اعدادحقیقی، روابط خارجی میان ویژگیهای چندبعدی یک دنباله وهمچنین وابستگی ساختاری نهفته داخلی آنها راکشف می کنند. علاوه برمشکل حافظه درشبکه حالت اکو، درتمامی مدلهای ارائه شده تاکنون، خروجی خطی شبکه ESNمحدودیت غیرقابل توصیفی برای توانایی پردازش آن ایجادمی کند، زیرا نمی تواند استفاده مؤثری ازآمار مرتبه بالاتر ویژگیهای ارائه شده توسط پویایی غیرخطی نرونهای مخزن راایجادکند. دراین پژوهش معماری جدیدی مبتنی برشبکه حالت اکو ارائه شده است که درساختار آن ازجبرکواترنیون برای فشرده سازی دادگان شبکه بهمراه تابع فعالیت ساده split function، استفاده شده است وترکیب کننده خطی خروجی با یک فیلتردوخطی چندبعدی جایگزین می شود. ازاین فیلتر برای محاسبات غیرخطی لایه خروجی شبکه حالت اکو کواترنیون استفاده خواهدشد. علاوه براین ازتکنیک تجزیه وتحلیل مؤلفه اصلی دوبعدی برای کاهش تعداد ابعاد دادگان منتقل شده به فیلتردوخطی استفاده می شود که نه تنها قابلیت پردازش شبکه رابهبودمی بخشد، بلکه سادگی فرایند آموزش رانیز حفظ می کند. دراین پژوهش ضرایب فیلتر دوخطی و وزنهای شبکه حالت اکوی غیرخطی کواترنیون (QNESN) بااستفاده ازالگوریتم ژنتیک بهینه سازی می شوند. به منظور اثبات اثربخشی مدل پیشنهادی به نسبت روشهای قبلی، آزمایشاتی برای تشخیص هیجان، روی سه مجموعه گفتارهیجانی SAVEEو EMODBو IEMOCAP انجام شده است. مقایسات نشان می دهند که شبکه QNESN عملکرد بهتری ازشبکه حالت اکوی ساده ونیز بیشتر سیستم های تشخیص هیجان گفتاری امروزی دارد.