بهبود سرعت آموزش در مسائل یادگیری تقویتی مبتنی بر انتقال دانش عصبی فازی
این مقاله به موضوع انتقال یادگیری در محیط هایی که بعضی از ویژگی های آن مشترک است می پردازد. چالش اصلی در این مبحث، نحوه انتقال دانش به دست آمده از محیط مبدا به محیط مقصد است. در ایده ارائه شده با در نظر گرفتن ویژگی های مشترک در فضای عامل بین دو محیط، ابتدا مقدار ارزش - عمل در محیط مبدا به دست می آید، سپس از یک شبکه عصبی- فازی برای تقریب مقدار تابع ارزش - عمل بهره برده میشود. در محیط مقصد، مقدار ارزش - عمل از ترکیب مقدار پیش بینی شبکه عصبی - فازی و مقدار به دست آمده در خود آن محیط استفاده می شود. به عبارت دیگر با توجه به آموزش انجام شده در محیط مبدا، مقادیر ارزش - عمل در محیط مقصد از ترکیب مقادیر ارزش - عمل تقریب زده شده توسط شبکه عصبی - فازی و مقدار به دست آمده از الگوریتم یادگیری در آن محیط به دست می آید. شایان ذکر است که از الگوریتم یادگیری Q در محیط استفاده شده است. نتایج حاصل از ایده ارائه شده، حاکی از افزایش چشمگیر سرعت یادگیری می باشد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.