امروزه یکی از چالش های اصلی شبکه های ترافیکی، هدایت وسائل نقلیه به مقصدشان تحت وضعیت پویای ترافیک با هدف کاهش زمانهای سفر و استفاده موثرتر از ظرفیتهای موجود شبکه می باشد. در پاسخ به مسائل بیان شده، سیستم هدایت مسیر پویا رویکردی موثر به نظر می رسد. این سیستم از جمله حوزه های مهم فعالیت سیستمهای هوشمند حمل ونقل می باشد. هسته اصلی سیستم هدایت مسیر پویا، محاسبات کوتاهترین مسیر بر اساس شرایط جاری(اطلاعات زمان واقعی) است. لذا با توجه به ضرورتهای بیان شده، هدف کلی تحقیق را می توان در قالب توسعه استراتژی قوی مسیریابی برای سیستم های هدایت مسیر تحت وضعیت پویای محیط تعریف نمود. بدین منظور در این مقاله با بیان یک چارچوب مفهومی هدایت مسیر مبتنی بر ساختار مسیریابی غیرمتمرکز، به چگونگی بکارگیری تکنیکهای عامل گرا با تاکید بر یادگیری تقویتی بعنوان یک راه حل در مواجهه با نامعینی های مساله مسیریابی وسائل نقلیه در شبکه های ترافیکی پرداخته شده است. از نتایج مهم تحقیق ارائه شده می توان به توانائی مدلهای یادگیری پیشنهاد شده در ارائه سیاست یا استراتژی انتخاب مسیر در تطبیق با شرایط پویای ترافیکی و نیز ارائه آلترناتیوهای مختلف پیشنهادی طی مسیر برای رانندگان با هدف حداقل نمودن معیار زمانهای سفر وسائل نقلیه اشاره نمود.