رتبۀ ماتریس های مربوط به داده های بزرگ

مشخصات پژوهش

عنوان	رتبۀ ماتریس های مربوط به داده های بزرگ
نوع پژوهش	پایان نامه
کلیدواژه‌ها	مَه داده، ماتریس های کم رتبه، متغیرهای پنهان
سال	1400
پژوهشگران	امین احمدی(دانشجو)، شاهرخ اسمعیلی(استاد راهنما)

چکیده

ماتریس های (تقریباً) کم رتبه در علوم داده به طور فراگیر در اولویت بندی فیلم ها، اسناد متنی، داده های نظرسنجی ، سوابق پزشکی و ژنوم شناسی ظاهر می شوند. درحالی که نوشتجات گسترده ای در مورد نحوه بهره برداری از ساختار کم رتبه در این مجموعه داده ها وجود دارد ، به توضیح اینکه در درجۀ اول چرا ساختار کم رتبه ظاهر می شود ، توجه کمتری شده است. در این پایان نامه، با درنظر گرفتن یک مدل سادۀ سازنده کار‎‎ایی مدل های کم رتبه در علوم داده برای این ماتریس ها شرح داده می شود: هر سطر یا ستون به یک متغیر پنهان کراندار (شاید با ابعاد بالا) مربوط شده است ، و درایه های ماتریس با استفاده از یک تابع تحلیلی تکه ای روی این متغیر های پنهان ایجاد می شوند. این ماتریس ها در حالت کلی رتبۀ کامل دارند. با وجود این ، هر درایه از یک ماتریس ‎$m\times n $‎ کشیده شده از این مدل را می توان با یک خطای مطلق ثابت توسط یک ماتریس کم رتبه که رتبه آن به ‎$\mathcal{O}\left( ‎\‎log\left( m+n \right) \right) $‎ افزایش می یابد ، تقریب زد. بنابراین هر ماتریس به اندازه کافی بزرگ از چنین مدل متغیر پنهانی را می توان، تا یک خطای کوچک درایه ای، با یک ماتریس کم رتبه تقریب زد.

شاهرخ اسمعیلی

مشخصات پژوهش

چکیده