پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400
پدیدآورندگان:
امیر رضا فاتح [پدیدآور اصلی]، محسن رضوانی[استاد راهنما]، علیرضا تجری[استاد مشاور]
چکیده: آنالیز قالببندی اسناد یکی از گامهای کلیدی در روند تبدیل تصویر هر سند به متن قابل ویرایش است. جداسازی مناطق متنی و غیرمتنی درون تصویر یکی از تاثیرگذارترین پیشپردازشهای ممکن در سیستمهای نویسهخوان نوری است. از دیگر پیشپردازشهای مهم در این سیستمها، استخراج خطوط حاوی متن از درون مناطق متنی است. عدم تشخیص درست مناطق حاوی متن و بهتبع آن عدم تشخیص صحیح مختصات خطوط، تمامی مراحل بعدی یک سیستم نویسهخوان نوری را دچار اختلال میکند. مشکلاتی همچون انحنای خطوط، کج بودن تصویر، وجود اعراب و نقاط زیاد در زبان فارسی و عربی، نزدیک بودن خطوط درون تصویر و وجود تصاویر چند ستونه از چالشهای مهم در آنالیز قالببندی اسناد است. در این تحقیق به تمام این چالشها توجه شده است و سعی در رفع آنها شده است تا روشی نوین برای آنالیز قالببندی اسناد فارسی ارائه شود. روش پیشنهادی، در گام اول، مناطق متنی را از مناطق غیرمتنی جدا میسازد. برای این کار، از چندین روش مختلف و کارآمد مبتنی بر یادگیری عمیق بهره گرفته شده و با استفاده از سیستم رایگیری در میان آنها، محتملترین مناطق متنی تصویر استخراج میشود. در گام دوم، میبایست خطوط حاوی متن از درون مناطق متنی استخراج شوند. در این گام، روش پیشنهادی با بکارگیری فرآیندی بر پایه اندازه قلم متن، خطوط حاوی متن استخراج میشود. تا کنون روش استخراج خطوط بر مبنای اندازه قلم، ارائه نشده است. روش پیشنهادی بر روی مجموعه دادگانی از تصاویر با بیش از 2000 صفحه از تصاویر اسکن شده آزمون شده است که در دو بخش تشخیص مناطق حاوی متن و استخراج خطوط به ترتیب به دقتهای 98.04% و 99.42% رسیده است.
کلید واژه ها (نمایه ها):
#آنالیز قالببندی سند #تشخیص خطوط #تقسیمبندی متون #تقسیمبندی تصاویر #اندازه قلم #رایگیری
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: