پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400
پدیدآورندگان:
امیر رضا فاتح [پدیدآور اصلی]، محسن رضوانی[استاد راهنما]، علیرضا تجری[استاد مشاور]
چکیده: آنالیز قالب‌بندی اسناد یکی از گام‌های کلیدی در روند تبدیل تصویر هر سند به متن قابل ویرایش است. جداسازی مناطق متنی و غیرمتنی درون تصویر یکی از تاثیرگذارترین پیش‌پردازش‌های ممکن در سیستم‌های نویسه‌خوان نوری است. از دیگر پیش‌پردازش‌های مهم در این سیستم‌ها، استخراج خطوط حاوی متن از درون مناطق متنی است. عدم تشخیص درست مناطق حاوی متن و به‌تبع آن عدم تشخیص صحیح مختصات خطوط، تمامی مراحل بعدی یک سیستم نویسه‌خوان نوری را دچار اختلال می‌کند. مشکلاتی همچون انحنای خطوط، کج بودن تصویر، وجود اعراب و نقاط زیاد در زبان فارسی و عربی، نزدیک بودن خطوط درون تصویر و وجود تصاویر چند ستونه از چالش‌های مهم در آنالیز قالب‌بندی اسناد است. در این تحقیق به تمام این چالش‌ها توجه شده است و سعی در رفع آن‌ها شده است تا روشی نوین برای آنالیز قالب‌بندی اسناد فارسی ارائه شود. روش پیشنهادی، در گام اول، مناطق متنی را از مناطق غیرمتنی جدا می‌سازد. برای این کار، از چندین روش مختلف و کارآمد مبتنی بر یادگیری عمیق بهره گرفته شده و با استفاده از سیستم رای‌گیری در میان آن‌ها، محتمل‌ترین مناطق متنی تصویر استخراج می‌شود. در گام دوم، می‌بایست خطوط حاوی متن از درون مناطق متنی استخراج شوند. در این گام، روش پیشنهادی با بکارگیری فرآیندی بر پایه اندازه قلم متن، خطوط حاوی متن استخراج می‌شود. تا کنون روش استخراج خطوط بر مبنای اندازه قلم، ارائه نشده است. روش پیشنهادی بر روی مجموعه دادگانی از تصاویر با بیش از 2000 صفحه از تصاویر اسکن شده آزمون شده است که در دو بخش تشخیص مناطق حاوی متن و استخراج خطوط به ترتیب به دقت‌های 98.04% و 99.42% رسیده است.
کلید واژه ها (نمایه ها):
#آنالیز قالب‌بندی سند #تشخیص خطوط #تقسیم‌بندی متون #تقسیم‌بندی تصاویر #اندازه قلم #رای‌گیری
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)