رایانش لبه وسایل نقلیه (VEC) به عنوان یک فناوری امیدبخش وسایل نقلیه را قادر می سازد تا وظایف محاسباتی سنگین و حساس به تاخیر را از طریق برونسپاری محاسبات به صورت کارآمد و با تاخیر کم انجام دهند. به دلیل پویایی و عدم قطعیت در محیط شامل تغییر سریع شرایط شبکه، بار کاری سرورهای لبه، هزینه ارائه دهندگان خدمات لبه و تنوع در وظایف محاسباتی، برونسپاری محاسبات به امری چالش برانگیز و پیچیده تبدیل شده است. به منظور بهینه سازی فرآیند تصمیم گیری برای برونسپاری وظایف، تکنیک ها و رویکردهای مختلفی ارائه شده است. اخیرا رویکردهای مبتنی بر یادگیری تقویتی به دلیل توانمندی در کشف و تطبیق با محیط های پویا و نامعین توجه زیادی را از سوی محققان به خود جلب کرده است. راهزن چند دست یک رویکرد یادگیری ساده و موثر در زمینه یادگیری تقویتی است که مسئله تعادل بین کاوش و بهره برداری را مورد بررسی قرار می دهد و با انجام آزمایش ها و یادگیری از تجربیات گذشته سعی در بهینه سازی پاداشهای طولانی مدت دارد. کران بالای اطمینان (UCB) یکی از الگوریتمهای شناخته شده مبتنی بر رویکرد راهزن چند دست است که در آن عامل باید دنباله ای از تصمیمات پشت سرهم را به منظور دستیابی به پاداش بهینه بگیرد. در این تحقیق، ما یک رویکرد کارآمد مبتنی بر الگوریتم کران بالای اطمینان برای مسئله برونسپاری محاسبات در محیط رایانش لبه وسایل نقلیه ناهمگن ارائه می دهیم که در آن وظایف می توانند به صورت محلی، روی یکی از سرورهای لبه یا سرور ابری اجرا شوند. با در نظر گرفتن تنوع و مهلت زمانی وظایف تولید شده، ناهمگنی سرورهای لبه، هزینه مختلف ارائه دهندگان و تاخیر شبکه، ما الگوریتم کران بالای اطمینان را به گونه ای بکار میگیریم که مهلت زمانی وظایف حساس به تاخیر رعایت شود در حالی که هزینه مالی برای وظایف معمولی کاهش یابد. به منظور ارزیابی کارایی روش پیشنهادی، آزمایش های شبیهسازی گسترده و متنوعی انجام شده است. نتایج بدست آمده نشان می دهد که روش پیشنهادی در مقایسه با روش های رقیب به خوبی می تواند نیازمندی وظایف حساس به تاخیر و معمولی را از نظر زمان پاسخ، رعایت مهلت زمانی و هزینه مالی برآورده سازد. همچنین نتایج ما نشان میدهد در روش پیشنهادی عامل تعبیه شده در داخل وسیله نقلیه به خوبی میتواند محیط را یاد بگیرد و به طور سریع خود را با تغییرات محیط تطبیق دهد.