پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1392
پدیدآورندگان:
زینب باقری [پدیدآور اصلی]، حسین خسروی[استاد راهنما]
چکیده: در دهههای اخیر تحقیقات گستردهای در زمینه‌ی بازشناسی الگوهای نوشتاری شامل حروف، ارقام و سایر نمادهای متداول در اسناد مکتوب، به زبان‌های مختلف انجام شده است. با توجه به پیشرفت‌های حاصل شده در این زمینه، فناوری بازشناسی خودکار متون تحت عنوان بازشناسی نوری حروف یا اُ.سی.آر شکل گرفته است. بازشناسی متن یکی از مهم‌ترین بخش‌های دولت الکترونیک به شمار می‌رود و در سال‌های اخیر در کشور ما نیز تقاضا برای یک سیستم بازشناسی متن فارسی، به شدت افزایش یافته است. با توجه به آنکه حجم زیادی از اسناد کاغذی موجود، توسط اسکنرها یا دوربین‌ها به اسناد تصویری دیجیتالی تبدیل می‌شوند؛ ذخیرهسازی، بازیابی و مدیریت کارآمد این اسناد تصویری، در بسیاری از برنامه‌ها نظیر اتوماسیون اداری و کتابخانه‌های دیجیتالی اهمیت دارند. به طورکلی سامانه بازشناسی متن شامل بخش‌های مختلفی از قبیل دریافت تصویر، پیش‌پردازش، آنالیز پیکربندی، تشخیص زبان، تشخیص قلم و در نهایت تشخیص متن می‌باشد. تحقیقات انجام شده در بعضی از این زمینه‌ها از قبیل پیش‌پردازش مستقل از زبان متن بوده و برای هر زبانی قابل استفاده است. لیکن برخی از قسمت‌های دیگر مانند تشخیص قلم و تشخیص متن به زبان متن وابسته بوده و نمی‌توان به طور مستقیم نتایج تحقیقات انجام شده برای سایر زبان‌ها را برای فارسی اعمال کرد. بیشتر تحقیقات انجام شده در زمینه‌ی بازشناسی متون فارسی روی تصاویری با درجه تفکیک زیاد، تصاویر متنی تمیز و غیرواقعی و شناسایی متن با چند قلم معروف بوده است. در تحقیقات انجام شده برای بازشناسی متون فارسی سه رویکرد عمده مبتنی بر جداسازی حروف، مبتنی بر بازشناسی شکل کلی زیرکلمات و روش ترکیبی وجود دارد. در این پایان‌نامه‌ هدف، بازشناسی متن تایپی نوشته شده با قلم Iranian sans، با حداقل اندازه 9 و درجه تفکیک 300 نقطه بر اینچ است. این قلم با توجه به دو خصوصیت زیبایی و خوانایی، بسیار مورد توجه واقع شده و روز به روز بر حجم استفاده از آن در محیط رایانه و اینترنت افزوده می‌شود. این قلم قابلیت جایگزینی با قلم تاهما که قلم پیش‌فرض سیستم عامل ویندوز است، را دارد. علیرغم خوانایی، فاصله‌ استاندارد بین سطرها، زیبایی و سازگاری با لاتین، این قلم دارای پیچیدگی ساختاری خاصی بوده که این خود عمل بازشناسی آن را پیچیده می‌نماید. در این پایان‌نامه ابتدا با تولید پایگاه داده مناسب، به آموزش دو طبقه‌بند برای حروف گسسته و پیوسته پرداخته شده و سپس با رفع مشکل همپوشانی زیرکلمات، از رویکرد مبتنی بر جداسازی برای جداسازی حروف استفاده می‌شود. طبقه‌بندهای مورد استفاده از نوع شبکه عصبی چند لایه می‌باشند. در نهایت، نتایج کارایی سامانه‌ی مذکور برای پردازش چند تصویر با متن چاپی، ارائه می‌شود که در آن در بخش جداسازی دقت 96% و در بخش شناسایی دقت 85% حاصل شد.
کلید واژه ها (نمایه ها):
#بازشناسی متن #قلم Iranian sans #رویکرد مبتنی بر جداسازی #طبقه‌بند شبکه عصبی

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)