پایانامه های دانشگاه صنعتی شاهرود

Q164: OCR متون چاپی فارسی به کمک یادگیری عمیق

پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1398

پدیدآورندگان:

مرضیه رحمتی [پدیدآور اصلی]، منصور فاتح[استاد راهنما]، محسن رضوانی[استاد راهنما]، علیرضا تجری[استاد مشاور]، وحید ابوالقاسمی[استاد مشاور]

چکیده: سیستم OCR یک سیستم تشخیص متن نوری است، که به دلیل توسعه تکنولوژی، به طور گسترده مورد استفاده قرار گرفته است. تمرکز اصلی سیستم های OCR موجود بر زبان های لاتین بوده است. در مطالعات اخیر، این سیستم ها، برای زبان هایی با رسم الخط شکسته استفاده شده اند که با چالش هایی روبرو هستند. در این پایان نامه، یک سیستم OCR مبتنی بر یادگیری عمیق با ساختار LSTM برای زبان فارسی ارائه شده است و برخی از پارامتر های مهم سیستم پیشنهادی مورد بررسی قرار گرفته است. سیستم OCR پیشنهادی چالش های عدم تشخیص زیر کلمه "لا" و نیم فاصله را حل می کند. همچنین، یک الگوریتم پیش پردازش برای حذف کشیدگی غیر متعارف حروف با استفاده از تکنیک های پردازش تصویر ارائه شده است. علاوه بر این، در این پایان نامه، یک مجموعه داده جدید ارائه شده است که حاوی پنج میلیون تصویر با هشت فونت رایج در زبان فارسی و 10 اندازه قلم است. دقت سیستم پیشنهادی در مقایسه با سیستم OCR موجود در تزرکت، دو درصد افزایش یافته است. نتایج آزمایشات نشان می دهد که سیستم پیشنهادی دارای دقت 99.688 درصد در سطح کلمه است.

کلید واژه ها (نمایه ها):

#سیستم OCR فارسی #یادگیری عمیق #پردازش تصویر #کشیدگی #چاپی

دانلود نسخه تمام متن (رایگان)

دانلود داده باز (JSON)
اطلاعات این صفحه به عنوان داده باز علمی منتشر شده است. استفاده، بازنشر، پردازش، تحلیل و بهره‌برداری پژوهشی، آموزشی و صنعتی از اطلاعات با ذکر منبع «دانشگاه صنعتی شاهرود» مجاز است.

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:

دانشگاه صنعتی شاهرود
Shahrood University of
Technology

دسترسی سریع

وبگاه‌ها