پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1402
پدیدآورندگان:
فاطمه اسمعیلی [پدیدآور اصلی]، فاطمه جعفری نژاد[استاد راهنما]، حمید حسن پور[استاد مشاور]
چکیده: در سال های اخیر، با توجه به افزایش منابع متنی و تصویری، و همچنین پیشرفت سریع روشهای هوش مصنوعی، عنوان-نویسی تصویر به تدریج مورد توجه بسیاری از محققان در زمینه هوش مصنوعی قرار گرفته است. وظیفه ی عنوان نویسی تصویر که از آن با عناوینی همچون شرح نویسی و یا زیرنویس تصویر هم یاد می شود، توصیف محتوای تصویر با استفاده از نمایش متنی است. در واقع با توجه به موجودیتهای مشاهده شده در تصویر و همچنین درک صحنه و ارتباط بین بخش های مختلف آن، به توصیف خودکار تصویر پرداخته و این توصیف را در قالب جمله ای متناسب با معیارهای زبان برمی گرداند. این موضوع که ترکیبی از دانش بصری کامپیوتری و پردازش زبان طبیعی میباشد، اخیرا به یکی از مهمترین مباحث در بینایی ماشین تبدیل شده است. رویکردهای مختلفی برای این کار پیشنهاد شده است که در بین آنها مدل‌های مبتنی بر یادگیری عمیق به‌عنوان پیشرفته‌ترین مدل‌ها ثابت شده‌اند. اصولاً عنوان نویسی مبتنی بر یادگیری عمیق به مدل‌های رمزگذار-رمزگشا متکی است. روش پیشنهادی ما نیز به این اصل کلی متکی است. ایده اساسی این پایان نامه، استفاده از اطلاعات مربوط به ناحیه مورد توجه (ROI) در بهبود کیفیت عناوین تولید شده است. در واقع پیشنهاد این است که با دو دیدگاه مختلف، تصاویر را توصیف کرده و سپس نتایج حاصل از این دو دیدگاه را با هم ترکیب کنیم. این معماری یک روش دو مرحله ای را در عنوان نویسی تصاویر پیشنهاد می دهد که در مرحله ی اول دو گونه ی مختلف از هر تصویر، که در واقع دو دید مختلف از هر تصویر را داراست، به دو شبکه عنوان بند با پیکربندی مشابه وارد می کنیم. هر یک از این دو شبکه یک عنوان برای تصویر پیشنهاد می دهند. در مرحله دوم، با معرفی یک اپراتور تجمیع جدید به تجمیع اطلاعات بدست آمده از دو شبکه پرداخته و یک عنوان دقیق که در بردارنده اطلاعات مهم و غیر تکراری دو عنوان قبلی است، تولید می شود. روش پیشنهادی این پایان نامه را روی مجموعه داده ی COCO و توسط معیار BLEU مورد ارزیابی قرار دادیم. نتایج بدست آمده نشان می دهد که با این روش، BLEU مقادیر بالاتری را نشان می‌دهد، که این خود حاکی از آن است که عناوین تولید شده با این روش به عناوین ایجاد شده توسط انسان نزدیکتر بوده، پس کیفیت و دقت کار بالاتر رفته است. همچنین ما روش خود را روی مدلی با معماری مبتنی بر ترنسفورمر که یکی از بروزترین و پیچیده ترین مدل های عنوان نویسی تصویر است، بکار بردیم. این روش توانست روی این مدل هم موثر واقع شود و نتایج را بهبود بخشد.
کلید واژه ها (نمایه ها):
#کلمات کلیدی: عنوان نویسی تصویر #زیرنویس تصویر #یادگیری عمیق #پردازش تصویر #رمزگذار-رمزگشا.
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)