جستجوی مقالات مرتبط با کلیدواژه
تکرار جستجوی کلیدواژه approximate dynamic programming در نشریات گروه فنی و مهندسی
approximate dynamic programming
در نشریات گروه برق
تکرار جستجوی کلیدواژه approximate dynamic programming در مقالات مجلات علمی
-
در این مقاله، الگوریتم بهینه توزیع شده تطبیقی برخط برای همزمانسازی عامل های غیرخطی یک سیستم چندعاملی با دینامیک های نامعلوم به عامل رهبر بر اساس تکنیک های برنامه ریزی پویای تقریبی و شناساگرهای شبکه های عصبی ارایه شده است. الگوریتم پیشنهاد شده به یادگیری حل برخط معادلات همیلتون-جاکوبی تزویج شده[1] (CHJ) تحت دینامیک های نامعلوم پرداخته است. هر عامل جهت یادگیری سیاست بهینه محلی از ساختار عملگر-نقاد بهره برده و دینامیک نامعلوم هر عامل نیز با به کارگیری یک تقریبگر شبکه عصبی، تقریب زده شده است. شناسایی دینامیک های نامعلوم با استفاده از قانون تکرار تجربیات انجام شده است به طوری که از اطلاعات ثبت شده به همراه داده های لحظه ای برای انطباق وزن های شبکه عصبی شناساگر دینامیک عامل ها، استفاده شده است. در حالی که وزن های تقریبگرهای دینامیک و شبکه های عملگر-نقاد به صورت همزمان در حال انطباق هستند، کرانداری تمامی سیگنال های حلقه بسته توسط تئوری لیاپانوف تضمین شده است. در انتها صحت الگوریتم پیشنهاد شده با ذکر نتایج شبیه سازی، نشان داده شده است.کلید واژگان: برنامه ریزی پویای تقریبی، تقریبگرهای عملگر-نقاد، سیستم های چندعاملی، کنترل بهینه توزیع شده، همزمانسازیIn this paper an online optimal distributed algorithm is introduced for multi-agent systems synchronization under unknown dynamics based on approximate dynamic programming and neural networks. Every agent has employed an actor-critic structure to learn its distributed optimal policy and the unknown dynamics of every agent is identified by employing a neural network approximator. The unknown dynamics are identified based on the experience replay technique where the recorded data and current data are used to adopt the approximators weights. The introduced algorithm learns the solution of coupled Hamilton-Jacobi equations under unknown dynamics in an online fashion. While the weights of the identifiers and actor-critic approximators are being tuned, the boundedness of the closed loop system signals are assured using Lyapunov theory. The effectiveness of the proposed algorithm is shown through the simulation results.Keywords: Actor-Critic Approximators, Approximate Dynamic Programming, Multi-Agent Systems, Optimal Distributed Control, Synchronization
-
در این مقاله یک الگوریتم یادگیری برخط برمبنای برنامه ریزی پویای تقریبی تک-شبکه برای حل تقریبی بازی های گرافی دیفرانسیلی زمان پیوسته غیرخطی با تابع هزینه زمان نامحدود و دینامیک معین پیشنهاد شده است. در بازی های گرافی دیفرانسیلی، هدف عامل ها ردیابی حالت رهبر به صورت بهینه می باشد، به طوری که دینامیک خطا و اندیس عملکرد هر عامل بستگی به توپولوژی گراف تعاملی بازی دارد. در الگوریتم پیشنهادی، هر عامل تنها از یک شبکه عصبی نقاد برای تقریب ارزش و سیاست کنترلی بهینه خود استفاده می کند و از قوانین تنظیم وزن پیشنهاد شده برای به روزرسانی برخط وزن های شبکه عصبی نقاد خود بهره می جوید. در این مقاله، با معرفی سوئیچ های پایدار ساز محلی در قوانین تنظیم وزن های شبکه عصبی که پایداری سیستم حلقه بسته و همگرایی به سیاست های تعادل نش را تضمین می کنند، دیگر نیازی به مجموعه سیاست های کنترلی پایدار ساز اولیه وجود ندارد. بعلاوه در این مقاله از تئوری لیاپانوف برای اثبات پایداری سیستم حلقه بسته استفاده می شود. در پایان، مثال شبیه سازی، موثر بودن الگوریتم پیشنهادی را نشان می دهدکلید واژگان: برنامه ریزی پویای تقریبی، شبکه های عصبی، کنترل بهینه، یادگیری تقویتیIn this paper, an online learning algorithm based on approximate dynamic programming is proposed to approximately solve the nonlinear continuous time differential graphical games with infinite horizon cost functions and known dynamics. In the proposed algorithm, every agent employs a critic neural network (NN) to approximate its optimal value and control policy and utilizes the proposed weight tuning laws to learn its critic NN optimal weights in an online fashion. Critic NN weight tuning laws containing a stabilizer switch guarantees the closed-loop system stability and the control policies convergence to the Nash equilibrium. In this algorithm, there is no requirement for any set of initial stabilizing control policies anymore. Furthermore, Lyapunov theory is employed to show uniform ultimate boundedness of the closedloop system. Finally, a simulation example is presented to illustrate the efficiency of the proposed algorithm.Keywords: Approximate Dynamic Programming, Neural Networks, Optimal Control, Reinforcement learning
نکته
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.