پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1393
پدیدآورندگان:
مصطفی گلزاده حمزکانلو [پدیدآور اصلی]، حسین خسروی[استاد راهنما]
چکیده: سامانههای نویسه خوان نوری، OCR، نقش بزرگی در تحقق دولت الکترونیک و کاهش حجم بایگانیهای کاغذی و دیجیتال دارند. این سامانه ها از سه بخش اصلی پیش پردازش، شناسایی متن و پس پردازش تشکیل شده اند. طبیعی است که هر خطایی در مرحله پیش پردازش، بازگشت ناپذیر است، مثلا اگر زاویه چرخش سند اشتباه شناسایی شود، سبب خواهد شد که خطوط متن کج بشوند و فرایند شناسایی متن، به درستی صورت نگیرد. یکی از قسمتهای مهم در پیش پردازش، تحلیل پیکربندی اسناد است؛ به این معنا که مشخص کنیم کدام بخشها از تصویر سند، متن است، کدام بخشها جدول اند و چه نواحی ای شکل هستند. هر خطایی در این بخش، سبب تولید خطاهای بیشتر در فرایند OCR خواهد شد. در این پایان نامه به تحلیل ساختار اسناد فارسی چند ستونه میپردازیم. در زمینه تحلیل اسناد، سه رویکرد، متداول است، رویکرد پایین به بالا که از پیکسلها شروع می کند و با ادغام و رشد پیکسلها، به نواحی بزرگتر می رسد. رویکرد بالا به پایین مثل روش برش XY که ابتدا تصویر را با برشهایی به چند ناحیه تقسیم می کند و سپس با تکنیکهایی هر ناحیه، را به نواحی کوچکتر تجزیه می کند. ترکیب این دو روش هم با عنوان رویکرد ترکیبی شناخته می شود. ما یک رویکرد تقریبا ترکیبی که بیشتر مبتنی بر روش پایین به بالاست ارائه می دهیم. در این رویکرد از تکنیکهای آستانه گذاری وفقی، برچسب زنی مولفه ها، عملیات ریخت شناسی و تبدیل هاف استفاده شده و با یک الگوریتم مکاشفه ای و معرفی قوانین خاصی برای ترکیب نواحی کوچک بدون ادغام نواحی غیریکسان، سند را به ناحیه های متنی، جدول و شکل تقسیم می کنیم. روش معرفی شده روی اسناد متعدد چند ستونه و اسنادی که زمینهی گرافیکی یا هنری دارند، آزمایش شده و عملکرد خوبی در مقایسه با نرم افزارهای پیشرو در حوزه OCR مثل OmniPage و FineReader ارائه میدهد. که نتایج بهلحاظعددیبدینشرح است که الگوریتم ما متن های فارسی را با 72 ، شکل ها را با 75 و جدولها را92 درصد درست تشخیص می دهد. و 88 درصد اسناد فارسی را تقریبا درست ناحیه بندی میکند.
کلید واژه ها (نمایه ها):
#ناحیه بندی اسناد #تحلیل ساختار اسناد #قطعه بندی اسناد #مستطیل محیطی #مؤلفه های پیوسته دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: