به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
جستجوی مقالات مرتبط با کلیدواژه

approximate dynamic programming

در نشریات گروه فنی و مهندسی
تکرار جستجوی کلیدواژه approximate dynamic programming در مقالات مجلات علمی
  • سجاد پاک خصال، سعید شمقدری*
    در این مقاله، روشی برای کنترل زیربهینه سیستم های چندجمله ای متغیر با زمان ارایه و از آن برای طراحی قانون هدایت ره گیرها استفاده می شود. ازآنجایی که معادلات برخورد ره گیر و هدف به فاصله بین آن ها وابسته هستند و این فاصله در طول پرواز تغییر می کند، طراح قانون هدایت با یک سیستم متغیر با زمان مواجه است. روش های توسعه داده شده برای کنترل سیستم های نامتغیر با زمان، به طور مستقیم قابل استفاده برای سیستم های متغیر با زمان نیستند. یکی از رویکردهای کنترلی مرسوم برای طراحی قانون هدایت ره گیرها، کنترل بهینه می باشد. برنامه ریزی پویای تقریبی یک روش شناخته شده برای حل مسیله کنترل بهینه است. یکی از چالش های کاربرد این روش برای کنترل سیستم های غیرخطی متغیر با زمان، سخت بودن حل معادله بلمن است. در روش پیشنهادی این مقاله، حل معادله بلمن با حل یک مسیله بهینه سازی مجموع مربعات جایگزین شده است. ثابت می شود که سیاست کنترلی طراحی شده با این روش، پایدارساز نمایی فراگیر و زیربهینه خواهد بود. درنهایت، کارایی روش پیشنهادی برای هدایت ره گیرها، از طریق شبیه سازی های عددی نشان داده می شود.
    کلید واژگان: قانون هدایت زیربهینه، برنامه ریزی پویای تقریبی، سیستم متغیر با زمان، بهینه سازی مجموع مربعات، الگوریتم تکرار سیاست
    Sajjad Pakkhesal, Saeed Shamaghdari *
    In this paper, we propose a method for sub-optimal control of time-varying polynomial systems and use it for pursuits guidance law design. Since, engagement equations between pursuit and target are depend on the range between them and this range is varying during the flight, guidance law designer is faced with a time-varying system. The developed methods for control of time-invariant systems are not directly applicable for time-varying systems. One of the conventional approaches for pursuits guidance law design is the optimal control. Approximate dynamic programming is a well-known method for solving the optimal control problem. One of the challenges of using this method for control of nonlinear time-varying systems is the difficulty of solving the Bellman equation. In the proposed method of this paper, solving the Bellman equation has been relaxed with solving a sum-of-squares optimization problem. It will be proved that the designed control policy with this method is globally exponentially stabilizing. Finally, performance of the proposed method for pursuits guidance will be illustrated with numerical simulations.
    Keywords: Sub-optimal guidance law, approximate dynamic programming, time-varying systems, sum-of-squares optimization, policy iteration algorithm
  • مجید خلیل زاده، حسین نقابی *

    در دنیای رقابتی موجود، شرکت ها از انواع ابزارها و راهکارها برای تمایز محصولات خود با محصولات رقبا استفاده می کنند. این مقاله به بررسی برنامه ریزی رسانه های تبلیغاتی و بودجه بندی آن برای چند محصول می پردازد. جنبه های مهمی شامل مرحله ی چرخه ی عمر محصول، طبقه ی ماتریس BCG واکنش رقبا و محدودیت بودجه در مدل پیشنهادی با هدف به حداکثر رساندن سود در پایان افق زمانی در نظر گرفته شد. مسیله ی تعریف شده با رویکرد برنامه پویای تصادفی فرموله شده و از الگوریتم برنامه ریزی پویای تقریبی برای غلبه بر بزرگی ابعاد مسئله و عدم قطعیت قابل توجه موجود در مسئله استفاده شد. در ادامه یک مطالعه موردی با استفاده از تکرار ارزش تقریبی ارایه و حل شد و نتایج مورد بحث قرار گرفت. همچنین، بودجه کل در مقادیر متفاوت مورد بررسی قرار گرفت که نشان می داد با افزایش مقدار بودجه مقدار هدف با سرعت)رشد(کمتری افزایش پیدا می کند.

    کلید واژگان: برنامه ریزی پویای تقریبی، برنامه ریزی رسانه یی، محدودیت منابع فرایند، تصمیم گیری مارکوف، تبلیغات
    M. Khalil Zadeh, H. Neghabi*

    In the new competitive world, companies use several types of tools and strategies to differentiate their products from competitors' products, one of which is promotional. Companies spend a large amount of their promotional budget on advertising. To increase the effectiveness of advertising budgeting, media planning must be properly developed and the manner allocation advertising be determined over a company's programming horizon. This paper investigates advertising media planning and budgeting for several products. Important aspects including life cycle stage, BCG matrix class, price, competitors' reaction, and budget constraint are considered in our model given uncertainty and with the aim of maximizing profits at the end of the time horizon. This problem is formulated as a stochastic dynamic program and Approximate Dynamic Programming (ADP) algorithm is utilized to overcome the huge dimensionality. The mentioned problem is subject to considerable uncertainties. Approximate Dynamic Planning (ADP) is a powerful technique for solving discrete time problems under multistage stochastic control processes. A numerical example was carried out on two products over the course of one year (12 monthly periods) with five different advertising packages. The results showed that 5 million iterations would be suitable for converging. Remaining budget analysis shows the percentage of selecting offensive packages in higher budgets for Product 2 and selection of such packages in the medium term for Product 1.The process of the life cycle shows that Product 1 does not most likely complete its life stages, while Product 2 completes its life cycle stages. Moreover, the BCG matrix confirms the results and Product 2 is in the final stages of dogs, while Product 1 is more likely in Cash Cows. Also, the total budget was examined in different quantities, which showed that as the amount of the budget increased, the target amount increased slowly. The presented model offers the opportunity to managers by which they are able to compare different media for making advertising decisions on various products in an uncertain environment with different budgets.

    Keywords: Approximate dynamic programming, media planning, resource constraints, markov decision process, advertising
  • فرزانه تاتاری*، محمدباقر نقیبی سیستانی
    در این مقاله، الگوریتم بهینه توزیع شده تطبیقی برخط برای همزمانسازی عامل های غیرخطی یک سیستم چندعاملی با دینامیک های نامعلوم به عامل رهبر  بر اساس تکنیک های برنامه ریزی پویای تقریبی و شناساگرهای شبکه های عصبی ارایه شده است. الگوریتم پیشنهاد شده به یادگیری حل برخط معادلات همیلتون-جاکوبی تزویج شده[1] (CHJ) تحت دینامیک های نامعلوم پرداخته است. هر عامل جهت یادگیری سیاست بهینه محلی از ساختار عملگر-نقاد بهره برده و دینامیک نامعلوم هر عامل نیز با به کارگیری یک تقریبگر شبکه عصبی، تقریب زده شده است. شناسایی دینامیک های نامعلوم با استفاده از قانون تکرار تجربیات انجام شده است به طوری که از اطلاعات ثبت شده به همراه داده های لحظه ای برای انطباق وزن های شبکه عصبی شناساگر دینامیک عامل ها، استفاده شده است. در حالی که وزن های تقریبگرهای دینامیک و شبکه های عملگر-نقاد به صورت همزمان در حال انطباق هستند، کرانداری تمامی سیگنال های حلقه بسته توسط تئوری لیاپانوف تضمین شده است.  در انتها صحت الگوریتم پیشنهاد شده با ذکر نتایج شبیه سازی، نشان داده شده است. 
    کلید واژگان: برنامه ریزی پویای تقریبی، تقریبگرهای عملگر-نقاد، سیستم های چندعاملی، کنترل بهینه توزیع شده، همزمانسازی
    Farzaneh Tatari*, MohammadB Naghibi S
    In this paper an online optimal distributed algorithm is introduced for multi-agent systems synchronization under unknown dynamics based on approximate dynamic programming and neural networks. Every agent has employed an actor-critic structure to learn its distributed optimal policy and the unknown dynamics of every agent is identified by employing a neural network approximator. The unknown dynamics are identified based on the experience replay technique where the recorded data and current data are used to adopt the approximators weights. The introduced algorithm learns the solution of coupled Hamilton-Jacobi equations under unknown dynamics in an online fashion. While the weights of the identifiers and actor-critic approximators are being tuned, the boundedness of the closed loop system signals are assured using Lyapunov theory. The effectiveness of the proposed algorithm is shown through the simulation results.
    Keywords: Actor-Critic Approximators, Approximate Dynamic Programming, Multi-Agent Systems, Optimal Distributed Control, Synchronization
  • مجید مازوچی، محمد باقر نقیبی سیستانی*، سید کمال حسینی ثانی
    در این مقاله یک الگوریتم یادگیری برخط برمبنای برنامه ریزی پویای تقریبی تک-شبکه برای حل تقریبی بازی های گرافی دیفرانسیلی زمان پیوسته غیرخطی با تابع هزینه زمان نامحدود و دینامیک معین پیشنهاد شده است. در بازی های گرافی دیفرانسیلی، هدف عامل ها ردیابی حالت رهبر به صورت بهینه می باشد، به طوری که دینامیک خطا و اندیس عملکرد هر عامل بستگی به توپولوژی گراف تعاملی بازی دارد. در الگوریتم پیشنهادی، هر عامل تنها از یک شبکه عصبی نقاد برای تقریب ارزش و سیاست کنترلی بهینه خود استفاده می کند و از قوانین تنظیم وزن پیشنهاد شده برای به روزرسانی برخط وزن های شبکه عصبی نقاد خود بهره می جوید. در این مقاله، با معرفی سوئیچ های پایدار ساز محلی در قوانین تنظیم وزن های شبکه عصبی که پایداری سیستم حلقه بسته و همگرایی به سیاست های تعادل نش را تضمین می کنند، دیگر نیازی به مجموعه سیاست های کنترلی پایدار ساز اولیه وجود ندارد. بعلاوه در این مقاله از تئوری لیاپانوف برای اثبات پایداری سیستم حلقه بسته استفاده می شود. در پایان، مثال شبیه سازی، موثر بودن الگوریتم پیشنهادی را نشان می دهد
    کلید واژگان: برنامه ریزی پویای تقریبی، شبکه های عصبی، کنترل بهینه، یادگیری تقویتی
    Majid Mazouchi, Mohammad Bagher Naghibi Sistani*, Seyed Kamal Hosseini Sani
    In this paper, an online learning algorithm based on approximate dynamic programming is proposed to approximately solve the nonlinear continuous time differential graphical games with infinite horizon cost functions and known dynamics. In the proposed algorithm, every agent employs a critic neural network (NN) to approximate its optimal value and control policy and utilizes the proposed weight tuning laws to learn its critic NN optimal weights in an online fashion. Critic NN weight tuning laws containing a stabilizer switch guarantees the closed-loop system stability and the control policies convergence to the Nash equilibrium. In this algorithm, there is no requirement for any set of initial stabilizing control policies anymore. Furthermore, Lyapunov theory is employed to show uniform ultimate boundedness of the closedloop system. Finally, a simulation example is presented to illustrate the efficiency of the proposed algorithm.
    Keywords: Approximate Dynamic Programming, Neural Networks, Optimal Control, Reinforcement learning
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال