پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1394
پدیدآورندگان:
فاطمه تلگردی [پدیدآور اصلی]، علی اکبر پویان Ali Pouyan[استاد راهنما]، علیرضا خلیلیان [استاد مشاور]، سعید شیری [استاد مشاور]
چکیده: یادگیری تقویتی یکی از حوزه های یادگیری ماشین است که هدف آن بهبود رفتار عامل بر اساس سیگنال‌های تقویتی است که از محیط دریافت می‌کند. مشکل اینجاست که در بسیاری از کاربردهای واقعی، پاداش محیط با تاخیر بسیار زیادی به عامل داده می‌شود. در نتیجه، عامل برای رسیدن به رفتار بهینه نیازمند صرف زمان بسیار است. راه‌کارهای مختلفی همچون شکل‌دهی پاداش تاکنون برای غلبه بر این مشکل پیشنهاد شده است. اما هیچ‌کدام نتوانستند تأثیر به‌سزایی در افزایش سرعت یادگیری، به‌خصوص در محیط‌های بزرگ و واقعی داشته باشند. مشکل دیگر این است که تا زمانی که عامل به یک سطح قابل قبول از یادگیری برسد، تمام حرکات آن تصادفی خواهد بود. ضمناً با پیچیده‌تر شدن محیط، تعداد وضعیت‌های مورد اکتشاف و پارامترهای تصمیم‌گیری افزایش پیدا می‌کند. تمامی این مسائل، اکتشاف را رویکردی زمان‌بر، با هزینه بسیار بالا و گاهی بسیار پرخطر کرده است. یک راه‌کار مورد پژوهش محققان در این حوزه، یادگیری کیفی است. در این پایان نامه، چارچوبی کلی برای یادگیری کیفی ارائه می‌شود و خصوصیات و اجزا آن معرفی می‌گردد. این چارچوب بر اساس یادگیری کیفی و تخمین پاداش ساختگی می باشد تا از فواید هر دو روش استفاده کند. چارچوب پیشنهادی آن‌چنان است که قابل تنظیم و انطباق با الگوریتم‌های مختلف، محیط‌های گسسته و پیوسته، ناوبری و غیر ناوبری باشد. سپس از چارچوب پیشنهادی یک نمونه ساخته شده، و روی محیط های محک ارزیابی گردیده است. آزمایش‌های صورت گرفته، مؤثر بودن چارچوب پیشنهادی را در تسریع رسیدن به سیاست بهینه نشان می‌دهد.
کلید واژه ها (نمایه ها):
#یادگیری تقویتی #یادگیری کیو #یادگیری کیفی #تحلیل گراف #انتزاع

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)