پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1394
پدیدآورندگان:
فاطمه تلگردی [پدیدآور اصلی]، علی اکبر پویان Ali Pouyan[استاد راهنما]، علیرضا خلیلیان [استاد مشاور]، سعید شیری [استاد مشاور]
چکیده: یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنالهای تقویتی است که از محیط دریافت میکند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده میشود. در نتیجه، عامل برای رسیدن به رفتار بهینه نیازمند صرف زمان بسیار است. راهکارهای مختلفی همچون شکلدهی پاداش تاکنون برای غلبه بر این مشکل پیشنهاد شده است. اما هیچکدام نتوانستند تأثیر بهسزایی در افزایش سرعت یادگیری، بهخصوص در محیطهای بزرگ و واقعی داشته باشند.
مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیدهتر شدن محیط، تعداد وضعیتهای مورد اکتشاف و پارامترهای تصمیمگیری افزایش پیدا میکند. تمامی این مسائل، اکتشاف را رویکردی زمانبر، با هزینه بسیار بالا و گاهی بسیار پرخطر کرده است. یک راهکار مورد پژوهش محققان در این حوزه، یادگیری کیفی است.
در این پایان نامه، چارچوبی کلی برای یادگیری کیفی ارائه میشود و خصوصیات و اجزا آن معرفی میگردد. این چارچوب بر اساس یادگیری کیفی و تخمین پاداش ساختگی می باشد تا از فواید هر دو روش استفاده کند. چارچوب پیشنهادی آنچنان است که قابل تنظیم و انطباق با الگوریتمهای مختلف، محیطهای گسسته و پیوسته، ناوبری و غیر ناوبری باشد. سپس از چارچوب پیشنهادی یک نمونه ساخته شده، و روی محیط های محک ارزیابی گردیده است. آزمایشهای صورت گرفته، مؤثر بودن چارچوب پیشنهادی را در تسریع رسیدن به سیاست بهینه نشان میدهد.
کلید واژه ها (نمایه ها):
#یادگیری تقویتی #یادگیری کیو #یادگیری کیفی #تحلیل گراف #انتزاع دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: