پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1394
پدیدآورندگان:
بهاره اسدی [پدیدآور اصلی]، علیرضا احمدی فرد[استاد راهنما]، مجید ایرانپور[استاد مشاور]
چکیده: جستجوی کلمهی کلیدی، روشی برای استخراج اطلاعات متنی در اسناد تصویری است. در این روش کلمهی پرسشی مورد نظر کاربر در اسناد تصویری، جستجو شده و مکان نمونههای آن کلمه در داخل اسناد مشخص میشود. بیشتر تحقیقات انجام شده در این زمینه بر روی متون زبان لاتین ارائه شده است. تحقیقات انجام شده در زبان فارسی و عربی بسیار کم می باشد که اکثر این تحقیقات هم بر روی اسناد چاپی هستند. در این پایان نامه الگوریتمی برای جستجوی کلمات در تصویر دستنوشته فارسی ارائه می دهیم که شامل دو مرحله است.
در مرحله ی اول ابتدا لازم است خطوط متن از یکدیگر جدا شده سپس تصاویر کلمات داخل متن استخراج شوند. برای انجام این مرحله مولفههای متصل موجود در متن استخراج شده سپس مولفهی متصل که شروع کننده هر خط است مشخص میشود. سپس با اعمال روش نزدیکترین همسایه، تمام مولفههای متصل هر خط بصورت یک زنجیره و به همان ترتیبی که در متن قرار دارند بدست می آیند. در نتیجه بعد از این مرحله میتوان هر خط را با مولفههای متصلش به طور مستقل از مابقی خطوط نمایش داد. نتیجه این مرحله جداسازی خطوط از یکدیگر میباشد. در مرحلهی بعدی با در نظر گرفتن این قانون که اکثر حروف اضافه و کلمات فارسی از ترکیب یک تا هفت مولفه متصل تشکیل شدهاند، استخراج کلمات متن انجام میشود. برای هر کدام از این تصاویرکلمات استخراج شده، مختصات مکانی آنها در متن نیز ذخیره می شود.
در نتیجه انجام مرحله ی اول مجموعه ای از کلمات کاندید، ایجاد شده که در مرحله ی دوم هدف یافتن نمونه های کلمات پرسشی در این مجموعه و مشخص کردن مکان آنها در متن می باشد. کلمات پرسشی ورودی به صورت تصویر و رشته ی متنی هستند. در این مرحله برای جستجو ی کلمه ی پرسشی، از مشخصه ها با در نظر گرفتن الفبای فارسی استفاده شده است که به کار گیری این نوع مشخصه باعث می شود که شباهت بین کلمات مستقل از شیوه نگارش حفظ شود.
از مجموعه ای شامل 55 کلمه پرسشی و پایگاه دادهای شامل 100 سند دست نوشته فارسی برای ارزیابی روش استفاده شده است. متوسط دقت و فراخوانی به ترتیب برای پرسش با تصویر 45/75% و 42/80% و برای پرسش با رشتهی متنی 28/80% و 92/78% میباشد.
کلید واژه ها (نمایه ها):
#جستجوی کلمه ی کلیدی #اسناد دست نوشته ی فارسی #مشخصه #تعبیه برچسب #جداسازی خطوط متن #مولفه های متصل دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: