یادگیری تقویتی چندعاملی مشارکتی در محیط های پویا بر اساس انتقال دانش برای مساله گله داری
امروزه، برای حل بسیاری از مسایل، از سیستم های چندعاملی مشارکتی استفاده می شود که در آن گروهی از عامل ها برای رسیدن به یک هدف مشترک همکاری می کنند. همکاری میان عامل ها، فوایدی همچون کاهش هزینه های عملیاتی، مقیاس پذیری بالا و سازگاری قابل توجه را به ارمغان خواهد آورد. برای آموزش این عامل ها در رسیدن به یک سیاست بهینه، از یادگیری تقویتی بهره می جویند. یادگیری در محیط های چندعاملی مشارکتی پویا، غیرقطعی و با اندازه فضای حالت بزرگ به یک چالش بسیار مهم در برنامه های کاربردی تبدیل شده است. ازجمله این چالش ها می توان به تاثیر اندازه فضای حالت بر مدت زمان یادگیری و همچنین همکاری ناکارآمد میان عامل ها و عدم وجود هماهنگی مناسب در تصمیم گیری عامل ها اشاره کرد. همچنین هنگام استفاده از الگوریتم های یادگیری تقویتی نیز با چالش هایی نظیر دشواری تعیین هدف یادگیری مناسب و زمان طولانی همگرایی ناشی از یادگیری مبتنی بر آزمایش و خطا مواجه خواهیم بود. در این مقاله، با معرفی یک چارچوب ارتباطی برای سیستم های چندعاملی مشارکتی، تلاش شده چالش های فوق تا حدی برطرف شود. در راستای حل مشکلات مربوط به همگرایی، انتقال دانش به کار برده شده است که می تواند به شکل قابل توجهی در افزایش کارایی الگوریتم های یادگیری تقویتی موثر واقع شود. همکاری میان عامل ها با استفاده از عامل سرگروه و هماهنگی میان آنان توسط یک عامل هماهنگ کننده صورت می پذیرد. چارچوب پیشنهادی برای حل مساله گله داری به کار رفته است و نتایج تجربی افزایش کارایی عامل ها را نشان می دهند.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.