رایانش لبه بدون سرور یک الگوی رایانشی در حال ظهور است که از ادغام دو فناوری اخیر رایانش لبه و رایانش بدون سرور تشکیل شده است. این مدل رایانشی توسعه و اجرای توابع نرمافزاری ماژولار را روی دستگاههای لبه با منابع محدود امکانپذیر میسازد. اما به دلیل محدودیت منابع محاسباتی، طبیعت پویای درخواستهای کاربران و محدودیتهای تاخیر توابع بدون سرور، رایانش لبه بدون سرور با چالشهای متعددی مواجه است. مقیاسدهی خودکار منابع و زمانبندی درخواستها از کلیدیترین چالشهای این حوزه به شمار میروند. دستیابی به مکانیزمهای کارآمد برای حل این مسئله-ها در یک محیط توزیعشده با منابع محدود و بارهای کاری غیرقابل پیشبینی یک امر پیچیده و دشوار است که نیازمند راهحلهای هوشمندانه و استراتژیهای بهینه میباشد. تحقیقات اخیر نشان داده است که رویکردهای مبتنی بر یادگیری ماشین در زمینه تخصیص خودکار منابع در محیطهای پویا نسبت به روشهای سنتی عملکرد بهتری داشتهاند. با این انگیزه، در این تحقیق ما یک مکانیزم مؤثر و کارآمد مبتنی بر یادگیری تقویتی برای تخصیص پویای منابع در محیط رایانش لبه بدون سرور پیشنهاد میدهیم که هدف اصلی آن دستیابی همزمان به کیفیت سرویس بالا برای کاربران و افزایش بهرهوری منابع برای ارائهدهندگان است. مکانیزم پیشنهادی شامل دو بخش است. (1) استفاده از الگوریتم Q-learning با تابع پاداش سفارشی به منظور انجام تصمیمگیری در مورد مقیاسدهی نمونههای فعال در هر برش زمانی؛ (2) بکارگیری الگوریتم ابتکاری گرمترین نمونه برای زمانبندی درخواستها بین نمونههای فعال. مکانیزم Q-learning پیشنهادی سعی میکند با کشف الگوهای فراخوانی توابع در طول زمان تعداد بهینه نمونههای فعال را پیدا کند. همچنین، الگوریتم ابتکاری پیشنهادی تلاش میکند با انتخاب گرمترین نمونه به ازای هر درخواست به بهبود عملکرد Q-learning کمک کند تا بتوان با کمترین تعداد نمونه درخواستهای کاربران را پاسخ داد. بنابراین، مکانیزم ارائه شده در این تحقیق یک دستاورد برد-برد خواهد داشت به این معنی که رضایت هر دو طرف کاربران و ارائهدهنده را تامین می-کند. به منظور اثربخشی مکانیزم پیشنهادی آزمایشهای شبیهسازی گسترده و متنوعی با در نظر گرفتن سناریوهای مختلف انجام شده است. با بررسی الگوهای ترافیکی مختلف و زمانهای مختلف برای گرم نگهداشتن نمونهها، نتایج حاصل از شبیهسازی نشان میدهد که مکانیزم پیشنهادی از نظر نرخ موفقیت درخواستها، میانگین تعداد نمونههای استفاده شده، تعداد وقوع شروع سرد و بهرهوری نمونهها در بیشتر سناریوها از الگوریتمهای پایه بهتر عمل میکند. یافتههای این تحقیق بیانگر آن است که مکانیزم توسعه داده شده برای مسئله مقیاسبندی خودکار در محیط رایانش لبه بدون سرور بسیار امیدوارکننده است به گونهای که میتوان آن را در محیطهای پویای دنیای واقعی بکار گرفت.