ارائه الگوریتم یادگیری تقویتی عمیق در مسئله تعقیب و گریز برای پلیس هوشمند
توسعه و استفاده از روشهای مختلف هوش مصنوعی برای حل مسایل مختلف، یک زمینه تحقیقاتی وسیع و فعال در عصر جدید فناوری می باشد. مسیلهی تعقیب و گریز بهعنوان یک مسیلهی نمونه در بسیاری از تحقیقات جدید مربوط به یادگیری ماشین و هوش مصنوعی استفاده شده است. در شکل خاصی از مسیلهی تعقیب و گریز یعنی مسیلهی دزد و پلیس که موردبررسی این تحقیق است، تعدادی عامل پلیس در تعقیب عاملهای دیگر هستند. هدف این تحقیق، آموزش دو عامل هوشمند پلیس با استفاده از شبکههای یادگیری عمیق Q است به نحوی که بتوانند در کمترین زمان ممکن، سارق (عامل فرارکننده) را به موقعیت مشخصی برگردانند. در این تحقیق دو مدل با استفاده از الگوریتم مذکور در دو سناریوی مختلف برای یادگیری از تجربههای عاملهای پلیس، ارایهشده و درنهایت عملکرد مدلهای پیشنهادی از طریق مقایسه با الگوریتم دقیق جستجوی فراگیر مورد تست و ارزیابی قرار گرفتند. پس از آموزش عاملها، مشاهده شد که در هر دو سناریو به تدریج میزان هزینه شبکهها کاهش و میزان پاداشهای دریافتی توسط پلیسها در انتهای آموزش افزایش مییابند و به مقادیر مشخصی همگرا میشوند. در سناریوی اول عاملهای پلیس در برگرداندن سارق به موقعیت مشخص، کاملا موفق عمل میکنند و در سناریوی دوم نیز در بیش از 90 درصد محیطهای تصادفی، این عمل را با موفقیت انجام میدهند.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.