در دهه ی گذشته، شبکه ی حسگر بیسیم زیرآب (UWSN)، به عنوان زمینه ی پرکاربرد IoUT، مورد توجه بسیاری از مراکز دانشگاهی و صنعتی قرار گرفته است. در ارتباطات بیسیم زیرآب بیشتر محدوده ی طیف فرکانس رادیویی با فرکانس به شدت تضعیف میشود. سیگنال نوری نیز به شدت به ویژگی کدربودن آب دریا وابسته بوده و از اثرات پدیده ی پراکندگی رنج میبرد. در این میان، سیگنال صوتی برگرفته از مزیت انتقال داده بروی مسافتهای طولانی، فنآوری کارآمد و پرکاربرد در لایه ی فیزیکی UWSN، است. رویکرد رایج در لایه ی شبکه ی UWSN، مسیریابی برای انتقال داده های حسگری از گره های زیرآبی به چاهک بروی سطح آب میباشد. مصرف انرژی بالا، تنگنای در منبع توان گره، پهنای باند کم در دسترس، تاخیر انتشار کمابیش بالا برگرفته از سرعت انتشار پائین سیگنال صوتی (1500 متر بر ثانیه)، در کنار ویژگی بی ثبات در زمان و مکان فضای زیرآب، طراحی الگوریتم مسیریابی در UWSN، را دشوار و پیچیده مینماید. مسیریابی Anypath، به عنوان نسل اولیه ی پروتکلهای مسیریابی در UWSN، یک راهبرد کارآمد برای بهره وری انرژی و کنترل میانگین تاخیر انتها به انتها میباشد. در این پایاننامه، با بهره گیری از مزیتهای روشهای یادگیری تقویتی در تعامل با محیط پویا و ناهمگن، یک پروتکل مسیریابی مستقل از موقعیت مکانی گره ی زیرآبی مبتنی بر الگوریتم Q-learning، طراحی و پیشنهاد میشود. به طور خاص، با تعریف دو تابع پاداش وابسته به انرژی و اطلاعات عمق، یک هم وزنی در مصرف انرژی گره های زیرآبی ایجاد میشود. نتایج شبیه سازی در نرم افزار متلب نشان میدهد که پروتکل پیشنهادی با ماهیت تحرک گره های حسگر زیرآبی سازگار میباشد. همچنین، در هم سنجی با دو نمونه ی برجسته از پروتکل مسیریابی در زیرآب، زمان عمر شبکه و تاخیر انتها به انتها در UWSN، را توسعه میدهد.