1403/09/01
محسن رمضانی

محسن رمضانی

مرتبه علمی: استادیار
ارکید:
تحصیلات: دکترای تخصصی
اسکاپوس: 2135
دانشکده: دانشکده مهندسی
نشانی:
تلفن:

مشخصات پژوهش

عنوان
استفاده از ویژگیهای معنایی برای بهبود تشخیص رفتارهای حرکتی انسان
نوع پژوهش
پایان نامه
کلیدواژه‌ها
آنالیز ویدئو، شناسایی رفتار، بازیابی رفتار، شبکه عصبی عمیق، بازنمایی رفتار.
سال 1400
پژوهشگران هادی افشون(دانشجو)، فردین اخلاقیان طاب(استاد راهنما)، محسن رمضانی(استاد مشاور)

چکیده

امروزه آنالیز رفتار انسان در سیستم های برخط ویدئویی مانند جستجو، دوربین نظارتی و تعامل انسان و ماشین بسیار مورد توجه قرار گرفته است. با ورود هوش مصنوعی به این حوزه سعی شده تا ماشین در تحلیل و بررسی رفتارها جایگزین عامل انسانی گردد. مهمترین گام برای این کار بازنمایی رفتار است به طوری که حاوی جزئیات رفتار برای انجام عملیات طبقه بندی باشد. بازنمایی رفتار می تواند بر اساس مدل یا داده های حاصل از رفتار باشد که منتج به معرفی روش های مدل محور و داده محور گشته است. روش های مدل محور با ایجاد مدل هایی دو یا سه بعدی از بدن انسان بازنمایی را انجام می دهد در حالی که روش های داده محور با پیچیدگی زمانی و حافظه مورد نیاز کمتر تغییرات در قاب ها را بررسی می کنند. روش های داده محور با استفاده از ویژگی های سراسری و محلی به بازنمایی رفتار انسان می پردازند. ویژگی های سراسری با بررسی تغییرات کلی قاب ها و ویژگی های محلی با بررسی حرکت های اجرا شده در یک یا چند ناحیه محلی از ویدئو به بازنمایی رفتار انسان می پردازد. در کارهای صورت گرفته تاکنون معنای رفتار که به یک توالی از زیررفتارها تعبیر شود مورد توجه قرار نگرفته است. لذا در این پایان نامه برای تشخیص و بازیابی رفتار انسان در ویدئو، بازنمایی رفتار انسان با استفاده از معنای حرکات بوسیله شبکه های عمیق انجام می شود. برای تعریف معنا در این کار، هر رفتار به زیررفتارهایی از حرکت های تشکیل دهنده آن تبدیل شده و بعد از مدل کردن حرکت ها، رفتار انسان بر اساس ترکیب این مدل ها بازنمایی می شود. بدین منظور ابتدا حرکت های تشکیل دهنده رفتار با استفاده از ویژگی های محلی استخراج شده از روش Dollar و انتقال بردارهای این ویژگی ها به فضای فرکانس با استفاده از روش CWT، برای پردازش های آتی به منظور تفکیک ساده حرکت ها، بدست می آیند. سپس با استفاده از شبکه های عصبی عمیق هر کدام حرکت های بدست آمده مدل شده و نهایتا با ترکیب مدل های حرکت های تشکیل دهنده هر رفتار، بازنمایی نهایی آن انجام می شود که برای تفکیک رفتارها مورد استفاده قرار گرفته اند. به منظور ارزیابی مدل پیشنهادی از مجموعه داده های ویدئویی HMDB، UCF Sport، UCFYT و UCF50 استفاده شده است که همه آنها شامل ویدئوهای واقعی ضبط شده در شرایط گوناگون هستند. روش معرفی شده با استفاده از زبان برنامه نویسی پایتون، کتابخانه های krase و Tensorfllow پیاده سازی شده تا به بخش بندی ویدئو، بازنمایی رفتار و طبقه بندی بپردازد. عملکرد روش پیشنهادی با سایر روش های معرفی شده در حوزه تشخیص و بازیابی رفتار مقایسه شده است. روش های مورد بررسی از شبکه های عصبی عمیق و یا ترکیبی از روش های داده محور، مدل محور و شبکه های عصبی عمیق برای بازنمایی و طبقه بندی رفتار استفاده کرده اند. ارزیابی نتایج بدست آمده نشان می دهد که روش پیشنهادی در کاربردهای شناسایی و بازیابی در مقایسه با سایر روش ها به دلیل توجه به حرکت های تشکیل دهنده رفتار و توالی آنها و بازنمایی مناسب، به ترتیب از 02/0 درصد تا 5/1 درصد و از 7/0 درصد تا 4 درصد دقت بالاتری داشته است.