پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1403
پدیدآورندگان:
میثم گوران اوریمی_Meysam Gouran Orimi [پدیدآور اصلی]، منصور فاتح[استاد راهنما]، حسین مرشدلو[استاد مشاور]
چکیده:
پرسش و پاسخ تصویری (VQA) یک حوزه میان رشتهای است که از ترکیب بینایی کامپیوتر و پردازش زبان طبیعی برای پاسخدهی به سوالات مربوط به محتوای تصاویر استفاده میکند. این پایاننامه به بررسی چالشها و راهکارهای موجود در این حوزه با تمرکز بر بهبود دقت و عملکرد مدلهای پرسش و پاسخ تصویری میپردازد. در این پژوهش، با تحلیل و ارزیابی معماریهای موجود VQA و معرفی یک مدل جدید، سعی در ارائه روشهایی بهینه برای ترکیب اطلاعات متنی و تصویری شده است. استفاده از تکنیکهای یادگیری عمیق نظیر شبکههای عصبی کانولوشنال (CNN) و مدلهای زبانی پیشرفته مانند BERT به منظور استخراج ویژگیهای معنایی و بصری و بهبود فرآیند استدلال و پاسخدهی از نوآوریهای این تحقیق است. در نهایت الگوریتم ارائه شده یر روی مجموعه دادههای مختلف همچون، VQA V2 آزمایش شده و نتایج، بیانگر این است که، معماری پیشنهادی علاوه بر رفع چالشهای پیش رو، به مقدار دقت 73.3% رسیده است که این میزان دقت به نسبت روشهای قبلی همچون LoRRA افزایش دقت خوبی را داشته است و میتواند بهطور مؤثری در تعاملات انسان و ماشین و کاربردهای مختلفی همچون کمک به افراد کمبینا، سیستمهای نظارتی و تحلیلهای تصویری پزشکی مورد استفاده قرار گیرد.
کلید واژه ها (نمایه ها):
#پرسش و پاسخ تصویری #بینایی کامپیوتر #پردازش زبان طبیعی #یادگیری عمیق #شبکههای عصبی کانولوشنال #BERT
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: