یادگیری تقویتی با مسئله یادگیری عامل هوشمند برای انتخاب اعمال به منظور بیشینه کردن کارایی عامل سروکار دارد. استفاده از مهارت ها در یادگیری تقویتی، سبب سرعت بخشیدن به کارکرد عامل می شود. یافتن اهداف میانی و ایجاد مهارت برای دست یابی به آنها، مسئله ای کلیدی در کشف خودکار مهارت می باشد. با کشف اهداف میانی و تعیین تابع سیاست دست یابی به آنها، عامل قادر به اکتشاف مؤثرتر ویادگیری سریع تر در کارهای دیگر در محیط های یکسان یا مشابه است. در این پژوهش، از رویکرد مبتنی بر گراف برای کشف اهداف میانی استفاده شده است. دو مدل آماری برای خوشه بندی گراف ارائه گشته است. مهارت ها به صورت زیر سیاست هایی تعریف می شوند که انتقال مؤثر از یک خوشه به خوشه دیگر را برای عامل فراهم می سازند. مجموعه داده های شناخته شده در خوشه بندی گراف و مثال اتاق ها در یادگیری تقویتی مورد استفاده قرار گرفته اند و نتایج بدست آمده نشان دهنده کارایی روش ارائه شده می باشد.