پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1392
پدیدآورندگان:
حامد عرب یار محمدی [پدیدآور اصلی]، علیرضا احمدی فرد[استاد راهنما]، حسین خسروی[استاد مشاور]
چکیده: برای بازشناسی زیرکلمات فارسی سه رویکرد مبتنی بر جداسازی به حروف، مبتنی بر شکل کلی زیرکلمه و ترکیبی از این دو وجود دارد. در بسیاری از سازمانها، تصاویر نامهها با درجـه تفکـیک 150 نقطه بر اینچ و کمتر ذخیره میشوند. متنی با این درجه تفکـیک برای خواندن توسط کاربر انسانی مناسب است اما برای بازشناسی توسط سیستم شناسایی نوری کلمات این درجه تفکیک بسیار کم به نظر میرسد. حتی سیستمهای شناسایی نوری کلمات لاتین هم غالبا برای 300 نقطه بر اینچ، توسعه یافتهاند. در درجـهی تفکـیک پایین، جـداسازی به سخـتی امکان پذیر است و باید از روشهایی مانند شکل کلی استفاده نمود. در این پایان نامه به بررسی و بازشناسی زیرکلمات فارسی با درجـه تفکـیک 96 نقطه بر اینچ میپردازیم که برای این منظور از شکل کلی زیرکلمات برای بازشناسی آنها بهره بردهایم.
سیستمی که در اینجا برای بازشناسی زیرکلمات فارسی ارائه شده مبتنی بر یک روش سه مرحلهای است. در مرحله نخست به کمک خوشه بندی، دامنهی جستجوی تصاویر زیرکلمات موجود در فرهنگ لغت کاهش داده شده که این کار نه تنـها سرعت سیستم را بالا میبرد بلکه دقت را نیز افزایش میدهد، در مرحله دوم بازشناسی، با استفاده از یک طبقهبند، 4 خوشهی نزدیک به زیرکلمهی آزمون ورودی تشخیص داده میشود و پس از آن با جستجو در میان آن خوشههای هدف، 10 نزدیکترین زیرکلمات موجود در فرهنگ لغت، به زیرکلمهی آزمون را مییابیم، این روند برای تمام زیرکلمات یک کلمه تکرار شده سپس در مرحلهی سوم با استفاده از روشِ رخدادهای محتمل برای توالی زیرکلمات، کلمهی آزمون تشخیص داده میشود.
دقت این الگوریتم بازشناسی بسیار مناسب تخمین زده میشود و قابلیت بازشناسی 01/98 % در کلماتی که از بیش از یک زیرکلمه تشکیل شدهاند را داراست و کلماتی که صرفاً، تک زیرکلمهای اند را با دقت 53/82 % بازشناسی میکند.
کلید واژه ها (نمایه ها):
#بازشناسی زیرکلمه #شکل کلی زیرکلمه #تصاویر کم کیفیت #کاهش فرهنگ لغت #بلوک میانگین #k میانگین #k نزدیکترین همسایه #الگوریتم POSS. دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: