پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1392
پدیدآورندگان:
زهرا ایمانی [پدیدآور اصلی]، علیرضا احمدی فرد[استاد راهنما]، حسین خسروی[استاد مشاور]
چکیده: در این پایان نامه سیستمی برای بازشناسی برون خط کلمات دستنویس فارسی ارائه شده است. پیچیدگی نگارش فارسی و شکل متفاوت حروف بسته به موقعیت آن که اول کلمه، وسط کلمه، انتهای کلمه یا جدا از بخش های دیگر کلمه باشد بازشناسی کلمات در این زبان را بسیار دشوار نموده است. بطوریکه درصد بازشناسی روش های موجود کمتر از نرخ مطلوب برای تجاری شدن این سیستمها می باشد. یک سیستم بازشناسی کلمه در حالت کلی شامل مراحل پیشپردازش، استخراج ویژگی و کلاسهبندی است. در این پایان نامه سه روش جهت بازشناسی پیشنهاد شده و کارایی این روش ها در مقایسه با روش های موجود ارزیابی شده است.
به دلیل نبود یک پایگاه داده مناسب و با تعداد تصویر کافی برای ارزیابی کارایی سیستم پیشنهادی، پایگاه داده فارسا، شامل 30000 تصویر از 300 کلمه متداول دست نوشته در زبان فارسی، ایجاد شد. جهت ارزیابی روش های پیشنهادی و مقایسه با روش های موجود 198 کلاس از این پایگاه داده مورد استفاده قرار گرفت.
در روش اول تصویر کلمه به پنجرههای عمودی دارای همپوشانی تقسیم میشود و از هر پنجره هیستوگرام کدهای زنجیرهای استخراج میشود، هر پنجره یک بردار 20 عنصری را تولید مینماید. برای آموزش و ارزیابی HMM گسسته بردار ویژگیهای استخراج شده از پنجره لغزان، با استفاده از شبکه عصبی نگاشت خودسازمانده کوانتیزه میشود . برای تعداد حالتهای مخفی مدل HMMدر هر کلاس کلمه ، کمترین تعداد پنجره برای تصاویر آموزش در هر کلاس بدست میآید. تعداد حالتهای مخفی ضریبی از این مقدار کمینه است. با آزمایش ضرایب مختلف، سیستم در مقدار 8/1 به بهترین نرخ بازشناسی میرسد. برای پارامتر هموارسازی روی مقادیر مختلف آزمایش شد، سیستم در مقدار 001/0 به جواب بهتری رسید. اندازه کتاب رمز 49 تنظیم میشود. در نهایت روش پیشنهادی اول با تعیین ضرایب بیان شده در بالا به نرخ بازشناسی 57/66% در198 کلاس از پایگاه داده فارسا میرسد.
در روش پیشنهادی دوم علاوه بر هیستوگرام کدهای زنجیرهای، از ویژگی میانگین بلوکی برای کلاسهبندی استفاده میشود و ابعاد بردارهای ویژگی به 25 افزایش مییابد. نرخ بازشناسی با استفاده از همان ضرایب تنظیم شده در روش اول، 88/68% بدست میآید. که افزایش بیش از 2% را نسبت به روش اول نشان میدهد.
روش پیشنهادی سوم در واقع بکارگیری یک سیستم دو خبرهای است. با استفاده از بررسی که روی نتایج ارزیابی روش دوم انجام شد یک مفهوم جدید به نام معیار اطمینان برای کلاسهبند HMM معرفی میشود. با مشاهده هیستوگرام اختلاف دو بزرگترین احتمال در خروجی HMM برای تصاویر آزمون یک مقدار آستانه به عنوان معیار اطمینان معرفی میشود. تصاویری که شرایط معیار اطمینان را دارند با کلاسهبند HMM بازشناسی میشوند و تصاویری که این شرایط را ندارند با استفاده از کلاسهبند KNN بازشناسی میشوند. برای کلاسهبند KNNاز ویژگیهای ساختاری ، تعداد مولفههای متصل تصویر، تعداد مولفههای متصل بالای خط کرسی و تعداد مولفههای متصل پایین خط کرسی، استفاده میشود. کلاسهبند KNN با استفاده از این ویژگیها و با 11 نزدیکترین همسایه و معیار فاصله بلوک شهری به نرخ بازشناسی 69/61% دست مییابد. در این سیستم HMM برای تصاویری که معیار اطمینان را دارند به نرخ بازشناسی 85% دست مییابد. در کل نرخ بازشناسی این روش برای 198 کلاس از پایگاه داده فارسا 49/76% است. که نسبت به روش اول افزایش 7% را بدنبال دارد.
کلید واژه ها (نمایه ها):
#: بازشناسی کلمه دستنوشته فارسی #پایگاه داده فارسا #هیستوگرام کدهای زنجیرهای #نگاشت خودسازمانده #مدل مخفی مارکوف #معیار اطمینان #k نزدیک ترین همسایه دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: