توسعه الگوریتم یادگیری تقویتی برای مدل کردن اثر ایمای پاولفی روی برنامه ریزی دوجهته
فرآیند تصمیم گیری در مغز انسان توسط دو سازوکار یادگیری پاولفی و ابزاری کنترل می شود. یادگیری پاولفی با آموختن پیوند محرک- نتیجه به یادگیری منجر می شود بدون آن که به عمل انتخابی وابسته باشد. همچنین این یادگیری به صورت تمایل به نزدیک شدن به محرک های نوید دهنده پاداش ظاهر می شود. اما کنترلر ابزاری به دنبال یادگیری پیوند عمل- نتیجه است. البته یادگیری ابزاری تنها به نتیجه عمل کنونی بسنده نکرده، و ممکن است به صورت یک برنامه ریزی رو به جلو دنباله ای از عمل ها را ارزیابی کند. از طرفی، برنامه ریزی رو به جلو ممکن است تنها فرآیند برنامه ریزی ای نباشد که یادگیری ابزاری از آن استفاده می کند. ممکن است انسان ها از برنامه ریزی روبه عقب نیز به منظور ارزیابی توالی عمل ها بهره برند. با این وجود برنامه ریزی روبه عقب کمتر تاکنون مورد توجه قرار گرفته است. پژوهش های پیشین نشان دادند با وجود مستقل بودن یادگیری پاولفی و ابزاری، آن ها با یکدیگر تعامل می کنند. در حقیقت یادگیری پاولفی نزدیک شوندگی روی برنامه ریزی رو به جلو تاثیر گذاشته و منجر به اتخاذ تصمیماتی می شود که ممکن است از نظر کنترلر ابزاری بهینه نباشند. اما تاثیر یادگیری پاولفی روی برنامه ریزی رو به عقب هنوز مطالعه نشده است.
در این مقاله، ما یک آزمایش مسیریابی طراحی کردیم که امکان برنامه ریزی های رو به جلو، رو به عقب، و دوجهته در آن فراهم است، و ایماهای پاولفی نزدیک شوندگی را نیز در نقشه ها تعبیه نمودیم.
تحلیل آماری داده های جمع آوری شده نه تنها از وجود برنامه ریزی رو به عقب حکایت می کنند، بلکه نشان می دهند که ایمای پاولفی نزدیک شوندگی بر روی سه برنامه ریزی تاثیر می گذارد، هر چند که این تاثیر در برنامه ریزی دوجهته بیش تر از روبه جلو، و در روبه جلو بیش تر از روبه عقب است. همچنین در بستر یادگیری تقویتی، الگوریتم برنامه ریزی دوجهته را تحت بایاس پاولفی توسعه دادیم.
نتایج شبیه سازی با نتایج برآمده از آزمایش سازگار بوده و بیان می کنند که تاثیر بایاس پاولفی را می توان به نوعی در قالب هرس درختان تصمیم مدل سازی نمود.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.