پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1398
پدیدآورندگان:
جلیل قویدل نیچران [پدیدآور اصلی]، علیرضا احمدی فرد[استاد راهنما]، مرتضی زاهدی[استاد مشاور]
چکیده: هدف از این رساله مکانیابی متون فارسی در تصاویر صحنه طبیعی است. مکانیابی متن، عبارت است از پیدا کردن و محدودهگذاری تمامی نواحی در یک تصویر که انسان آنها را متن در نظر میگیرد. به دلیل متغیر بودن اندازه، فونت و رنگ نوشتهها و وجود بافت در پسزمینه، این مسئله پرچالش بوده و باز به شمار میرود. چالشهای اشاره شده برای زبان فارسی که الفبای آن در بیشتر موارد به هم چسبیده است بیشتر می شود؛ چسبیده بودن نویسههای الفبای فارسی، باعث ایجاد شباهت زیاد بین کلمات فارسی و شاخ و برگ درختان و موارد مشابه می شود.
در این رساله چهار روش جهت تشخیص متن فارسی و لاتین در تصاویر صحنههای طبیعی ارائه می گردد؛ هر روش جهت برطرف کردن مشکلات روش پیشین ارائه گردیده است. روش اول با نام «امضای رنگ لبهها» مفهومی به نام لبههای رنگی را معرفی کرده و با استفاده از آن به مکانیابی متون میپردازد. این روش پس از استخراج لبههای تصویر ورودی، با استفاده از الگوریتم انتقال میانگین، رنگهای اطراف لبهها را استخراج کرده و از این رنگها برای تولید نواحی کاندیدای متنی استفاده میکند. این نواحی کاندید در ادامه با معرفی چندین ویژگی جدید مبتنی بر لبه و یادگیری دیکشنری به کمک یک کلاسهبند آبشاری کلاسهبندی میشوند. در روش دوم با نام «تبدیل رنگ لبهها»، لبههای استخراج شده از تصویر بهبود داده میشوند. همچنین عملگری برای به دست آوردن رنگهای اطراف لبهها معرفی میشود که سریعتر و دقیقتر از روش پیشین است.
روش سوم، «تبدیل رنگ عمیق»، الگوریتم ایجاد نواحی کاندیدای روش دوم را بهبود داده و امکان مکانیابی متون با پسزمینه غیرهموار را فراهم میآورد. همچنین در این روش یک شبکه عصبی کانولوشنی با ساختاری جدید برای جداسازی مناطق متنی و غیرمتنی معرفی میشود. روش چهارم با نام «شبکه فرااکتشافی» از شبکه عصبی روش سوم به صورت مستقل برای مکانیابی متون استفاده میکند. خروجی این شبکه که درصد متن داخل ناحیه کاندیدا را نشان میدهد در یک الگوریتم فرااکتشافی جدید مورد استفاده قرار میگیرد. این روش با پخش کردن چندین پنجره در بخشهای مختلف تصویر و استفاده از شبکه کانولوشنی به صورت تدریجی پنجرهها را به سوی بخشهای متنی سوق میدهد. روشهای پیشنهادی با استفاده از مجموعه تصاویر فارسی «فارست» و همچنین مجموعه تصاویر شناخته شده ICDAR 2013 برای تصاویر انگلیسی با همدیگر و با چندین روش شناخته شده دیگر مورد مقایسه قرار گرفتهاند. تبدیل رنگ عمیق با مقدار f-measure برابر با 86/64 برای تصاویر انگلیسی و 91/58 برای تصاویر فارسی بهتر از روشهای دیگر عمل کرده است.
کلید واژه ها (نمایه ها):
#مکانیابی متون فارسی #تصاویر صحنه طبیعی #تبدیل رنگ لبهها #الگوریتم رشد لبه #یادگیری عمیق #روش جستجوی فرااکتشافی دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: