پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1397
پدیدآورندگان:
علی قنبری سرخی [پدیدآور اصلی]، حمید حسن پور[استاد راهنما]، منصور فاتح[استاد مشاور]
چکیده: با افزایش روز افزون تصاویر دیجیتال و تبادل آن ها در شبکه اینترنت، مسئله طبقه بندی تصاویر به یکی از نیازهای اساسی دنیای دیجیتال تبدیل شده است. توصیف خودکار محتوا یکی از مشکلات اساسی دسته بندی تصاویر است که این امر سبب ارتباط بیشتر بین بینایی ماشین و پردازش تصویر شده است. الگوریتم های توصیف خودکار محتوا کاربردهای فراوانی در سیستم های تحت وب و موتور های جستجو نظیر فیلتر نمودن تصاویر نامتعارف، تشخیص موضوعی تصویر و تشخیص رفتار انسانی دارند.
مسئله توصیف خودکار محتوا را میتوان در دو دیدگاه مطالعه کرد. در دیدگاه اول مجموعه داده تصاویر، مجموعهای کوچک با کاربرد منحصر به فرد مانند شناسایی تصاویر نامتعارف است. شناسایی تصاویر نامتعارف، یک مسئله توصیف با دو کلاس و پیچیدگی پایین است. در این رساله، معماری جدیدی برای شبکه عصبی عمیق به منظور تشخیص تصاویر نامتعارف پیشنهاد میشود. تاکید معماری پیشنهادی استخراج ویژگیهای سطح بالا از بدن انسان در تصاویر نامتعارف است. نتایج آزمایش روش پیشنهادی بر روی دو مجموعه داده نشان دهنده بهبود عملکرد تا حدود 4% نسبت به روشهای مطرح شده در سال های اخیر است.
در دیدگاه دوم، مجموعه دادهها شامل تصاویری با تعداد کلاسهای بیشتری از صحنههای متفاوت است. در این رساله، روشی به منظور توصیف خودکار تصاویر بر اساس استخراج نواحی معنایی سطح بالا و استفاده از این نواحی برای استخراج برچسب های اشیاء پیشنهاد میشود. روش ارائه شده شامل چندین مرحله میباشد. درمرحله نخست نواحی و برچسب اشیاء شناسایی میشود. در این راستا، یک معماری جدید بر پایه شبکه عمیق بهبود یافته از روش R-FCN ارائه میشود. در این روش از یک تابع زیان جدید که تاکنون برای شناسایی اشیاء استفاده نشده، استفاده میشود. با توجه به روش ارائه شده در این مرحله، زمان آموزش و آزمایش بهبود یافته است. یک گام مهم در توصیف خودکار تصاویر، استخراج موضوعات نهفته در صحنه تصویر میباشد. بنابراین در مرحله بعدی، موضوعات نهفته برپایه نواحی معنایی سطح بالای استخراج شده به منظور استخراج مدل موضوعی به کمک روشهای مجموعه کلمات و k-means بهبود یافته استخراج میشود. در ادامه با توجه به مجموعه کلمات بصری استخراج شده از نواحی کاندیدا، محل قرار گرفتن آنها و برچسب اشیاء از روش عمیق تخمینگر توزیعشده خودرگرسیو عصبی اسناد برای محاسبه موضوعات نهفته در هر تصویر استفاده میشود. در نهایت با ترکیبی از این ویژگیهای سطح بالا که نشان دهنده محتوای بصری تصویر میباشند دستهبندی صحنه تصویر انجام میگردد. روش پیشنهادی از لحاظ زمان و صحت بر روی مجموعه دادههای Scene15، UIUC Sports و MIT-67 به ترتیب با 15، 8 و 67 دسته متفاوت مورد ارزیابی قرار گرفت. نتایج نشان دهنده بهبود عملکرد روش پیشنهادی از لحاظ صحت و زمان مرحله آزمون در این مجموعه دادهها میباشد.
کلید واژه ها (نمایه ها):
#دستهبندی صحنه تصویر #شبکهعصبی عمیق #استخراج محتوا #مدلسازی موضوعی دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: