پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1403
پدیدآورندگان:
میثم گوران اوریمی_Meysam Gouran Orimi [پدیدآور اصلی]، منصور فاتح[استاد راهنما]، حسین مرشدلو[استاد مشاور]
چکیده: پرسش و پاسخ تصویری (VQA) یک حوزه میان ‌رشته‌ای است که از ترکیب بینایی کامپیوتر و پردازش زبان طبیعی برای پاسخ‌دهی به سوالات مربوط به محتوای تصاویر استفاده می‌کند. این پایان‌نامه به بررسی چالش‌ها و راهکارهای موجود در این حوزه با تمرکز بر بهبود دقت و عملکرد مدل‌های پرسش و پاسخ تصویری می‌پردازد. در این پژوهش، با تحلیل و ارزیابی معماری‌های موجود VQA و معرفی یک مدل جدید، سعی در ارائه روش‌هایی بهینه برای ترکیب اطلاعات متنی و تصویری شده است. استفاده از تکنیک‌های یادگیری عمیق نظیر شبکه‌های عصبی کانولوشنال (CNN) و مدل‌های زبانی پیشرفته مانند BERT به منظور استخراج ویژگی‌های معنایی و بصری و بهبود فرآیند استدلال و پاسخ‌دهی از نوآوری‌های این تحقیق است. در نهایت الگوریتم ارائه شده یر روی مجموعه داده‌های مختلف همچون، VQA V2 آزمایش شده و نتایج، بیانگر این است که، معماری پیشنهادی علاوه بر رفع چالش‌های پیش رو، به مقدار دقت 73.3% رسیده است که این میزان دقت به نسبت روش‌های قبلی همچون LoRRA افزایش دقت خوبی را داشته است و می‌تواند به‌طور مؤثری در تعاملات انسان و ماشین و کاربردهای مختلفی همچون کمک به افراد کم‌بینا، سیستم‌های نظارتی و تحلیل‌های تصویری پزشکی مورد استفاده قرار گیرد.
کلید واژه ها (نمایه ها):
#پرسش و پاسخ تصویری #بینایی کامپیوتر #پردازش زبان طبیعی #یادگیری عمیق #شبکه‌های عصبی کانولوشنال #BERT
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)