دسته بندی | جزوه |
بازدید ها | 8 |
فرمت فایل | ppt |
حجم فایل | 61 کیلو بایت |
تعداد صفحات فایل | 33 |
یادگیری تقویتی
lدر یک مسئله یادگیری تقویتی با عاملی روبرو هستیم که از طریق سعی و خطا با محیط تعامل کرده و یاد میگیرد تا عملی بهینه را برای رسیدن به هدف انتخاب نماید.
lیادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم. lدو استراتژی اصلی برای اینکار وجود دارد: .1یکی استفاده از الگوریتم های ژنتیکی .2و دیگری استفاده از روشهای آماری و dynamic programming lدر RL روش دوم مد نظر است. l
lمحیط مجموعه ای از S حالت ممکن است. lدر هر لحظه t عامل میتواند یکی از A عمل ممکن را انجام دهد. lعامل ممکن است در مقابل عمل و یا مجموعه ای از اعمالی که انجام میدهد پاداش r را دریافت کند. این پاداش ممکن است مثبت و یا منفی )تنبیه(باشد