امروزه تشخیص رفتار انسان که بهعنوان یک زمینه مهم در کاربردهای مختلفی مورداستفاده قرار گرفته است، موردتوجه بسیاری از محققان حوزه بینایی ماشین است. در مطالعات انجام شده در این حوزه ابتدا مدلی از رفتار انسان ایجاد میشود که از آن مدل برای انجام پیشبینی برچسب و یا جستجوی ویدئو بهصورت مبتنی بر محتوا استفاده میشود. ایجاد مدل میتواند با استفاده از ویژگیهای سنتی و عمیق انجام شود. ویژگیهای سنتی شامل ویژگیهای سنتی سراسری و محلی میشوند که ویژگیهای سنتی سراسری و سنتی محلی خود به ترتیب با چالشهای مهمی از قبیل حساسیت به نویز و عدم درنظرگرفتن ژستهای کلی بدن مواجه هستند که روشها را برای استفاده در کاربردهای واقعی محدود میکنند. روشهای جدید از ویژگیهای حاصل از شبکههای عمیق برای طبقهبندی رفتارها استفاده میکنند. ویژگیهای عمیق از مدلکردن معنایی که در ویژگیهای دستساز مستتر است ناتوان است؛ لذا در روشهایی از استخراج دو ویژگی در دو جریان مستقل و ترکیب ویژگی و یا نتایج نهایی طبقهبندی برای پیشبینی رفتار استفاده میشود که به روشهای دو جریانه شناخته میشوند. در این تحقیق دو نوع ویژگی مکانی در دو جریان مورداستفاده قرار میگیرد به گونهای که این ویژگیها بتوانند با پوشش نقاط ضعف همدیگر به پیشبینی برچسب رفتاری دقیقتری برسند. در جریان اول ضرایب موجک از قابها استخراج میشوند که چند ریزگی مناسبی دارند و در جریان دیگر به استخراج ویژگیهای عمیق از قابها پرداخته میشود تا بازنمایی مکانی مناسبی از تغییرات محلی و سراسری داشته باشیم. این ویژگیهای حاصل از قابها در دو نقشه ویژگیهای مکانی قرار میگیرند که در نهایت با استفاده از یک شبکه عمیق جدید، با فیلدهای پذیرنده فراگیرتر، ویژگیهای زمانی مناسبی را حاصل نمایند. در این شبکه با استفاده از مدل مکانی - زمانی نهایی ایجاد شده پیشبینی برچسب رفتار انجام میشود و نتایج طبقهبندی در دو جریان نهایتاً با هم ترکیب خواهند شد تا به برچسبی با اطمینان بیشتر برسیم. دقت روش پیشنهادی روی 3 مجموعهداده واقعی UCFYT، UCF-Sport و JHMDB برابر با 98.7، 99.83 و 92.86 بوده که عملکرد روش به طور میانگین نسبت به بهترین روش معرفی شده قبلی 4.6 درصد بهتر است.