با توجه به روند فزاینده مصرف انرژی الکتریکی در بخش خانگی و تأثیر مستقیم آن بر هزینههای خانوار و پایداری شبکه برق، توسعه چارچوبهای نوین مدیریت انرژی در خانههای هوشمند به ضرورتی اجتنابناپذیر تبدیل شده است. همچنین گسترش روزافزون فناوریهای خانه هوشمند و قیمتگذاری پویای برق، مستلزم توجه به بهینهسازی مصرف انرژی خانگی از طریق زمانبندی هوشمند لوازم میباشد. سیستم های مدیریت انرژی خانگی (HEMS)سنتی اغلب برای رسیدگی به پیچیدگی های قیمت گذاری پویا برق و تغییر نیازهای کاربران مجهز نیستند. این پیچیدگی نیازمند راه حل های پیشرفتهای است که می توانند به طور هوشمندانه استفاده از دستگاه را برای بهینه سازی برای اهداف متعدد و اغلب متناقض برنامه ریزی کنند. الگوریتمهای پیشرفته یادگیری تقویتی مانند شبکه Q عمیق با امکان یادگیری سیاستهای بهینه از طریق تعامل با محیط، راهحلهای امیدوار کنندهای ارائه می دهند. این سیستم ها می توانند به صورت پویا برنامه های دستگاه را بر اساس داده های زمان واقعی، مانند قیمت انرژی و الگوهای رفتار کاربر، بدون نیاز به برنامه نویسی صریح برای هر سناریو تنظیم کنند. در این پژوهش، یک مدل شبکه Q عمیق برای سیستم مدیریت انرژی خانگی ارائه گردیده است که هدف آن بهینهسازی زمانبندی لوازم خانگی با بهرهگیری از الگوریتمهای یادگیری تقویتی عمیق و مقایسه کارایی آنها با روشهای پایه است. بدین منظور، مجموعهای از دادههای تعرفه برق در بازه ده هفتهای، همراه با یک دیتاست از ترجیحات کاربر به عنوان ورودی به محیط شبیهسازی شده داده میشود. چهار الگوریتم متفاوت برای زمانبندی لوازم طراحی و پیادهسازی شد: انتخاب تصادفی اسلات از میان اولویتهای کاربر، انتخاب ثابت نخستین اولویت، الگوریتم حریصانه مبتنی بر انتخاب کمهزینهترین اسلات، و یک روش مبتنی بر یادگیری تقویتی عمیق به نام الگوریتم شبکه Q عمیق بهینهسازیشده بر اساس راحتی–هزینه(CCO-DQN) که با بهرهگیری از شبکههای عصبی و سیاستهای پاداش، امکان یادگیری پویا و تطبیقی را فراهم میسازد. مشارکتهای اصلی این پایاننامه در ارتباط با طراحی مدل شبکه عصبی الگوریتم پیشنهادی عبارت است از طراحی معماری اختصاصی یک شبکه عصبی Q عمیق که قادر است بهطور همزمان تأثیر تعرفههای متغیر انرژی و اولویتهای کاربر را مدلسازی کند. در این معماری، بردارهای ورودی چندبعدی شامل تعرفههای پویا، امتیاز اولویت زمانی و محدودیتهای عملکردی دستگاهها لحاظ شده است. دومین مورد، طراحی پاداش دوهدفه (هزینه–آسایش) است . این تابع با وزندهی تطبیقی، توازن پایداری بین اهداف متضاد برقرار میکند. سومین مورد، میتوان به بهینهسازی نمایش حالت–عمل اشاره کرد طوری که فضای حالت به گونهای مدلسازی شده که شامل قیمتهای لحظهای انرژی و بردار ترجیحات کاربر باشد و فضای عمل نیز منعکسکنندهی انعطافپذیری زمانبندی دستگاهها است. این طراحی منجر به کاوش کارآمدتر و همگرایی سریعتر مدل شدهاست. این مشارکتها با ترکیب بهینهسازی چندهدفه، سفارشیسازی معماری شبکه و تکنیکهای افزایش پایداری یادگیری، الگوریتم CCO-DQN را به عنوان جایگزینی کارآمدتر نسبت به روشهای پایهای تصادفی و حریصانه در مدیریت انرژی خانگی مطرح میکند.