پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1392
پدیدآورندگان:
زینب باقری [پدیدآور اصلی]، حسین خسروی[استاد راهنما]
چکیده: در دهههای اخیر تحقیقات گستردهای در زمینهی بازشناسی الگوهای نوشتاری شامل حروف، ارقام و سایر نمادهای متداول در اسناد مکتوب، به زبانهای مختلف انجام شده است. با توجه به پیشرفتهای حاصل شده در این زمینه، فناوری بازشناسی خودکار متون تحت عنوان بازشناسی نوری حروف یا اُ.سی.آر شکل گرفته است. بازشناسی متن یکی از مهمترین بخشهای دولت الکترونیک به شمار میرود و در سالهای اخیر در کشور ما نیز تقاضا برای یک سیستم بازشناسی متن فارسی، به شدت افزایش یافته است. با توجه به آنکه حجم زیادی از اسناد کاغذی موجود، توسط اسکنرها یا دوربینها به اسناد تصویری دیجیتالی تبدیل میشوند؛ ذخیرهسازی، بازیابی و مدیریت کارآمد این اسناد تصویری، در بسیاری از برنامهها نظیر اتوماسیون اداری و کتابخانههای دیجیتالی اهمیت دارند.
به طورکلی سامانه بازشناسی متن شامل بخشهای مختلفی از قبیل دریافت تصویر، پیشپردازش، آنالیز پیکربندی، تشخیص زبان، تشخیص قلم و در نهایت تشخیص متن میباشد. تحقیقات انجام شده در بعضی از این زمینهها از قبیل پیشپردازش مستقل از زبان متن بوده و برای هر زبانی قابل استفاده است. لیکن برخی از قسمتهای دیگر مانند تشخیص قلم و تشخیص متن به زبان متن وابسته بوده و نمیتوان به طور مستقیم نتایج تحقیقات انجام شده برای سایر زبانها را برای فارسی اعمال کرد. بیشتر تحقیقات انجام شده در زمینهی بازشناسی متون فارسی روی تصاویری با درجه تفکیک زیاد، تصاویر متنی تمیز و غیرواقعی و شناسایی متن با چند قلم معروف بوده است. در تحقیقات انجام شده برای بازشناسی متون فارسی سه رویکرد عمده مبتنی بر جداسازی حروف، مبتنی بر بازشناسی شکل کلی زیرکلمات و روش ترکیبی وجود دارد.
در این پایاننامه هدف، بازشناسی متن تایپی نوشته شده با قلم Iranian sans، با حداقل اندازه 9 و درجه تفکیک 300 نقطه بر اینچ است. این قلم با توجه به دو خصوصیت زیبایی و خوانایی، بسیار مورد توجه واقع شده و روز به روز بر حجم استفاده از آن در محیط رایانه و اینترنت افزوده میشود. این قلم قابلیت جایگزینی با قلم تاهما که قلم پیشفرض سیستم عامل ویندوز است، را دارد. علیرغم خوانایی، فاصله استاندارد بین سطرها، زیبایی و سازگاری با لاتین، این قلم دارای پیچیدگی ساختاری خاصی بوده که این خود عمل بازشناسی آن را پیچیده مینماید.
در این پایاننامه ابتدا با تولید پایگاه داده مناسب، به آموزش دو طبقهبند برای حروف گسسته و پیوسته پرداخته شده و سپس با رفع مشکل همپوشانی زیرکلمات، از رویکرد مبتنی بر جداسازی برای جداسازی حروف استفاده میشود. طبقهبندهای مورد استفاده از نوع شبکه عصبی چند لایه میباشند. در نهایت، نتایج کارایی سامانهی مذکور برای پردازش چند تصویر با متن چاپی، ارائه میشود که در آن در بخش جداسازی دقت 96% و در بخش شناسایی دقت 85% حاصل شد.
کلید واژه ها (نمایه ها):
#بازشناسی متن #قلم Iranian sans #رویکرد مبتنی بر جداسازی #طبقهبند شبکه عصبی دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: