پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1397
پدیدآورندگان:
علی قنبری سرخی [پدیدآور اصلی]، حمید حسن پور[استاد راهنما]، منصور فاتح[استاد مشاور]
چکیده: با افزایش روز افزون تصاویر دیجیتال و تبادل آن ها در شبکه اینترنت، مسئله طبقه بندی تصاویر به یکی از نیازهای اساسی دنیای دیجیتال تبدیل شده است. توصیف خودکار محتوا یکی از مشکلات اساسی دسته بندی تصاویر است که این امر سبب ارتباط بیشتر بین بینایی ماشین و پردازش تصویر شده است. الگوریتم های توصیف خودکار محتوا کاربردهای فراوانی در سیستم های تحت وب و موتور های جستجو نظیر فیلتر نمودن تصاویر نامتعارف، تشخیص موضوعی تصویر و تشخیص رفتار انسانی دارند. مسئله توصیف خودکار محتوا را می‌توان در دو دیدگاه مطالعه کرد. در دیدگاه اول مجموعه داده تصاویر، مجموعه‌ای کوچک با کاربرد منحصر به فرد مانند شناسایی تصاویر نامتعارف است. شناسایی تصاویر نامتعارف، یک مسئله توصیف با دو کلاس و پیچیدگی پایین است. در این رساله، معماری جدیدی برای شبکه عصبی عمیق به منظور تشخیص تصاویر نامتعارف پیشنهاد می‌شود. تاکید معماری پیشنهادی استخراج ویژگی‌های سطح بالا از بدن انسان در تصاویر نامتعارف است. نتایج آزمایش روش پیشنهادی بر روی دو مجموعه داده نشان دهنده بهبود عملکرد تا حدود 4% نسبت به روش‌های مطرح شده در سال های اخیر است. در دیدگاه دوم، مجموعه داده‌ها شامل تصاویری با تعداد کلاس‌های بیشتری از صحنه‌های متفاوت است. در این رساله، روشی به منظور توصیف خودکار تصاویر بر اساس استخراج نواحی معنایی سطح بالا و استفاده از این نواحی برای استخراج برچسب های اشیاء پیشنهاد می‌شود. روش ارائه شده شامل چندین مرحله می‌باشد. درمرحله نخست نواحی و برچسب اشیاء شناسایی می‌شود. در این راستا، یک معماری جدید بر پایه شبکه عمیق بهبود یافته از روش R-FCN ارائه می‌شود. در این روش از یک تابع زیان جدید که تاکنون برای شناسایی اشیاء استفاده نشده، استفاده می‌شود. با توجه به روش ارائه شده در این مرحله، زمان آموزش و آزمایش بهبود یافته است. یک گام مهم در توصیف خودکار تصاویر، استخراج موضوعات نهفته در صحنه تصویر می‌باشد. بنابراین در مرحله بعدی، موضوعات نهفته برپایه نواحی معنایی سطح‎ بالای استخراج شده به منظور استخراج مدل موضوعی به کمک روش‌های مجموعه کلمات و k-means بهبود یافته استخراج می‌شود. در ادامه با توجه به مجموعه کلمات بصری استخراج شده از نواحی کاندیدا، محل قرار گرفتن آنها و برچسب اشیاء از روش عمیق تخمین‌گر توزیع‌شده خودرگرسیو عصبی اسناد برای محاسبه موضوعات نهفته در هر تصویر استفاده می‌شود. در نهایت با ترکیبی از این ویژگی‎های سطح بالا که نشان دهنده محتوای بصری تصویر می‌باشند دسته‌بندی صحنه تصویر انجام می‌گردد. روش پیشنهادی از لحاظ زمان و صحت بر روی مجموعه‌ داده‌های Scene15، UIUC Sports و MIT-67 به ترتیب با 15، 8 و 67 دسته متفاوت مورد ارزیابی قرار گرفت. نتایج نشان دهنده بهبود عملکرد روش پیشنهادی از لحاظ صحت و زمان مرحله آزمون در این مجموعه داده‌ها می‌باشد.
کلید واژه ها (نمایه ها):
#دسته‎بندی صحنه تصویر #شبکه‎عصبی عمیق #استخراج محتوا #مدل‎سازی موضوعی

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)