تقریب تابع ارزش عمل با استفاده از شبکه توابع پایه شعاعی برای یادگیری تقویتی
نویسنده:
چکیده:
مشکل تنگنای ابعاد، یکی از چالش هایی است که کاربرد الگوریتم های یادگیری تقویتی گسسته را در مورد مسائل کنترلی واقعی که دارای فضای حالت و عمل بزرگ و یا پیوسته می باشند محدود نموده است. ترکیب روش های آموزشی گسسته با تقریب زننده های تابعی برای حل این مشکل چندی است مورد توجه محققان قرارگرفته است. در همین راستا در این مقاله یک الگوریتم جدید یادگیری تقویتی عصبی (NRL) بر مبنای معماری نقاد- تنها معرفی میگردد. الگوریتم مذکور از ترکیب الگوریتم یادگیری سارسا با شبکه عصبیRBF به عنوان یک تقریب زننده ی تابعی حاصل شده است و ما آن را «یادگیری سارسای عصبی» (NSL) می نامیم. ورودی های شبکه جفت حالت و عمل های مساله و خروجی آن تابع ارزش عمل تقریب زده شده می باشد. وزن های شبکه به صورت بر خط با توجه به الگوریتم ارائه شده تنظیم میگردند. به عنوان یک شرط لازم همگرایی ما همچنین وجود نقاط ایستای منطبق بر نقاط ثابت الگوریتم «تکرار تقریب ارزش عمل» برای NSLرا اثبات می نماییم. نتایج شبیه سازی ارائه شده در مورد مسائل خودرو در کوهستان و آکروبات حاکی از عملکرد مناسب تر روش ارائه شده از لحاظ سرعت آموزش و کیفیت عملکرد میباشد.
کلیدواژگان:
زبان:
فارسی
انتشار در:
در صفحه:
50
لینک کوتاه:
magiran.com/p905290
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یکساله به مبلغ 1,390,000ريال میتوانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.
In order to view content subscription is required
Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!