پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1395
پدیدآورندگان:
مجید ایرانپور مبارکه [پدیدآور اصلی]، علیرضا احمدی فرد[استاد راهنما]، حمید حسن پور[استاد مشاور]
چکیده: جستجوی کلمه، روشی برای اندیس گذاری، جستجو و بازیابی کلمات در اسناد تصویری است. در این مسئله هدف مشخص کردن موقعیت رخدادهای کلمه پرسشی موردنظر کاربر در اسناد تصویری است. این زمینه تحقیقاتی در زمره چالش های مهم در حوزه آنالیز اسناد تصویری است که در سالهای اخیر مورد توجه محققان قرار گرفته است. کارهای متنوعی در این حوزه بر روی اسناد لاتین انجام شده، اما در مورد زبان های فارسی و عربی کارهای محدودی انجام شده است که اکثراً در زمینه اسناد چاپی می باشد. هدف از این رساله ارائه یک سیستم کامل جهت جستجوی کلمات پرسشی دلخواه از اسناد تصویری فارسی است که وابسته به شیوه نگارش نویسنده نبوده و در اسناد دارای چند نویسنده نیز به خوبی کار میکند. علاوه بر این سیستم مذکور توانایی دریافت کلمه پرسشی بهصورت متنی و تصویری را نیز دارا میباشد.
ازآنجاییکه تعداد کلاس ها (کلمات زبان) در این مسئله بسیار زیاد است و از طرف دیگر تنوع درون کلاسی ناشی از شیوههای نگارش متفاوت نیز وجود دارد، نیاز به استفاده از رده بندی مبتنی بر خصیصه احساس می-شود. رده بندی مبتنی بر خصیصه با تبادل بین کلاسی، توانایی شناسایی کلاس های دیده نشده را دارد. در این روش، متن (برچسب کلاس کلمات) و تصویر در یک زیر فضای برداری مشترک تعبیه می شوند. این زیر فضا بر اساس چارچوب کاری که از رده بندی مبتنی بر خصیصه، تعبیه برچسب و رگرسیون زیرفضای مشترک ایجاد شده است، کار می کند. در این زیرفضای ایجادشده، متن و تصویر یک کلمه یکسان، در زیرفضای مشترک آموزش داده شده، نزدیک به هم قرار می گیرند و مسئله جستجوی کلمات تبدیل به یک مسئله ساده نزدیکترین همسایه می گردد.
در گام اول، این روش جهت جستجو و بازشناسی کلمات دست نویس مجزا و اسناد قطعهبندی شده بهکاررفته است. سپس بر اساس ساختار نوشتار زبان فارسی خصیصه های متناسب پیشنهاد شده است. دو روش بازنمایی جهت خصیصه ها زبان فارسی معرفیشده که یکی بر اساس شکل متفاوت حروف در موقعیت های مختلف و دیگری بر اساس دسته بندی حروف مبتنی بر اشتراک بدنه ها، نقاط و سرکش ها در حروف فارسی پیشنهاد شده است. بهمنظور ارزیابی روش های پیشنهادی از مجموعه داده های فارسی که شامل کلمات مجزای دست-نویس هستند، فارسا و ایرانشهر، استفاده شده است. میانگین دقت متوسط خصیصه های پیشنهادی در جستجوی کلمه برای این مجموعه داده ها به ترتیب 95.67 و 96.25 درصد و دقت بازشناسی کلمات دست-نویس به ترتیب 96.15 و 97.55 درصد بهدستآمده است.
در گام دوم، جستجوی سند در سطح خط انجام شد. با استفاده از روشی پیشنهادی که مبتنی بر خوشه بندی سلسله مراتبی میباشد، خطوط هر سند استخراج می شود و سپس پنجره گذاری روی خطوط استخراجشده صورت می پذیرد. برای فائق آمدن بر مشکلات پنجره گذاری، یک روش پنجره گذاری مبتنی بر اجزاء متصل پیشنهاد شده است. در این روش اندازه پنجره اهمیتی ندارد بلکه تعداد جزء متصلی که پنجره آن را در برمیگیرد مهم است. این پنجره ها بهعنوان کلمات مستقل در نظر گرفته شده و بر اساس روش ارائهشده مبتنی بر زیرفضای مشترک برای کلمات قطعهبندی شده، بازیابی می شوند. بهمنظور ارزیابی روش پیشنهادی از مجموعه داده متون دست نویس فارسی (FHT)، که مجموعهای از اسناد دست نویس فارسی است، استفاده شده است و در مورد کلمه پرسشی متنی و تصویری، میانگین دقت متوسط بهدستآمده به ترتیب برابر 81.02 و 78.14 درصد می باشد.
ازآنجاییکه همیشه قطعهبندی کار پرخطا و زمان بری است، روش های مستقل از قطعهبندی از جایگاه ویژه ای برخوردارند. ازاینرو در ادامه روشی جهت جستجوی کلمات مستقل از قطعهبندی پیشنهاد شده است که بهصورت دومرحلهای کار می کند. در مرحله اول اجزاء متصل در کلمه پرسشی در سند جستجو میشود. سپس بر اساس اولویت اجزاء متصل بازیابی شده از سند و فاصله بین آنها، نواحی کاندید برای کلمه مورد جستجو تعیین می شوند. جهت اطمینان نواحی کاندید گسترش داده می شوند. در مرحله بعد، رتبه بندی این نواحی کاندید بر اساس کلمه پرسشی ورودی انجام می پذیرد. این رتبه بندی با استفاده از سیستم پنجره گذاری استفاده شده در سطح خط صورت می پذیرد. جهت ارزیابی روش پیشنهادی در این مرحله نیز از مجموعه داده FHT استفاده شده است و نتایج تجربی بهدستآمده برای کلمات پرسشی تصویری و متنی به ترتیب 75.07 و 80.28 درصد می باشد.
نکته حائز اهمیت در ارزیابی روش های پیشنهادی مبتنی بر قطعهبندی خط و مستقل از قطعهبندی این است که آموزش مدل با استفاده از مجموعه داده فارسا و ایرانشهر ( کلمات مجزا) انجام شده است و مرحله آزمون با مجموعه دادهFHT انجام پذیرفته است. این کار توانایی روش پیشنهادی در مقاوم بودن نسبت به تغییرات شیوه نگارش را نشان می دهد. علاوه بر این هیچکدام از کلاس های کلمات مورد جستجو در مرحله آموزش مورد استفاده قرار نگرفته است، بنابراین روش پیشنهادی توانایی جستجوی هر کلمه دلخواه را به کاربر می-دهد.
کلید واژه ها (نمایه ها):
#جستجوی کلمه در اسناد تصویری #اسناد دست نویس فارسی #تعبیه برچسب #رده بندی مبتنی بر خصیصه #اجزاء متصل دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: