Skip navigation

Q93 : جستجوی کلمه در اسناد تصویری فارسی مبتنی بر خصیصه ها
پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1395
پدیدآورندگان:
مجید ایرانپور مبارکه [پدیدآور اصلی]، علیرضا احمدی فرد[استاد راهنما]، حمید حسن پور[استاد مشاور]
چکیده: جستجوی کلمه‌، روشی برای اندیس گذاری، جستجو و بازیابی کلمات در اسناد تصویری است. در این مسئله هدف مشخص کردن موقعیت رخدادهای کلمه پرسشی موردنظر کاربر در اسناد تصویری است. این زمینه تحقیقاتی در زمره چالش های مهم در حوزه آنالیز اسناد تصویری است که در سال‌های اخیر مورد توجه محققان قرار گرفته است. کارهای متنوعی در این حوزه بر روی اسناد لاتین انجام شده، اما در مورد زبان های فارسی و عربی کارهای محدودی انجام شده است که اکثراً در زمینه اسناد چاپی می باشد. هدف از این رساله ارائه یک سیستم کامل جهت جستجوی کلمات پرسشی دلخواه از اسناد تصویری فارسی است که وابسته به شیوه نگارش نویسنده نبوده و در اسناد دارای چند نویسنده نیز به خوبی کار می‌کند. علاوه بر این سیستم مذکور توانایی دریافت کلمه پرسشی به‌صورت متنی و تصویری را نیز دارا می‌باشد. ازآنجایی‌که تعداد کلاس ها (کلمات زبان) در این مسئله بسیار زیاد است و از طرف دیگر تنوع درون کلاسی ناشی از شیوه‌های نگارش متفاوت نیز وجود دارد، نیاز به استفاده از رده بندی مبتنی بر خصیصه احساس می-شود. رده بندی مبتنی بر خصیصه با تبادل بین کلاسی، توانایی شناسایی کلاس های دیده نشده را دارد. در این روش، متن (برچسب کلاس کلمات) و تصویر در یک زیر فضای برداری مشترک تعبیه می شوند. این زیر فضا بر اساس چارچوب کاری که از رده بندی مبتنی بر خصیصه، تعبیه برچسب و رگرسیون زیرفضای مشترک ایجاد شده است، کار می کند. در این زیرفضای ایجادشده، متن و تصویر یک کلمه یکسان، در زیرفضای مشترک آموزش داده شده، نزدیک به هم قرار می گیرند و مسئله جستجوی کلمات تبدیل به یک مسئله ساده نزدیک‌ترین همسایه می گردد. در گام اول، این روش جهت جستجو و بازشناسی کلمات دست نویس مجزا و اسناد قطعه‌بندی شده به‌کاررفته است. سپس بر اساس ساختار نوشتار زبان فارسی خصیصه های متناسب پیشنهاد شده است. دو روش بازنمایی جهت خصیصه ها زبان فارسی معرفی‌شده که یکی بر اساس شکل متفاوت حروف در موقعیت های مختلف و دیگری بر اساس دسته بندی حروف مبتنی بر اشتراک بدنه ها، نقاط و سرکش ها در حروف فارسی پیشنهاد شده است. به‌منظور ارزیابی روش های پیشنهادی از مجموعه داده های فارسی که شامل کلمات مجزای دست-نویس هستند، فارسا و ایرانشهر، استفاده شده است. میانگین دقت متوسط خصیصه های پیشنهادی در جستجوی کلمه برای این مجموعه داده ها به ترتیب 95.67 و 96.25 درصد و دقت بازشناسی کلمات دست-نویس به ترتیب 96.15 و 97.55 درصد به‌دست‌آمده است. در گام دوم، جستجوی سند در سطح خط انجام شد. با استفاده از روشی پیشنهادی که مبتنی بر خوشه بندی سلسله مراتبی می‌باشد، خطوط هر سند استخراج می شود و سپس پنجره گذاری روی خطوط استخراج‌شده صورت می پذیرد. برای فائق آمدن بر مشکلات پنجره گذاری، یک روش پنجره گذاری مبتنی بر اجزاء متصل پیشنهاد شده است. در این روش اندازه پنجره اهمیتی ندارد بلکه تعداد جزء متصلی که پنجره آن را در برمی‌گیرد مهم است. این پنجره ها به‌عنوان کلمات مستقل در نظر گرفته شده و بر اساس روش ارائه‌شده مبتنی بر زیرفضای مشترک برای کلمات قطعه‌بندی شده، بازیابی می شوند. به‌منظور ارزیابی روش پیشنهادی از مجموعه داده متون دست نویس فارسی (FHT)، که مجموعه‌ای از اسناد دست نویس فارسی است، استفاده شده است و در مورد کلمه پرسشی متنی و تصویری، میانگین دقت متوسط به‌دست‌آمده به ترتیب برابر 81.02 و 78.14 درصد می باشد. ازآنجایی‌که همیشه قطعه‌بندی کار پرخطا و زمان بری است، روش های مستقل از قطعه‌بندی از جایگاه ویژه ای برخوردارند. ازاین‌رو در ادامه روشی جهت جستجوی کلمات مستقل از قطعه‌بندی پیشنهاد شده است که به‌صورت دومرحله‌ای کار می کند. در مرحله اول اجزاء متصل در کلمه پرسشی در سند جستجو می‌شود. سپس بر اساس اولویت اجزاء متصل بازیابی شده از سند و فاصله بین آن‌ها، نواحی کاندید برای کلمه مورد جستجو تعیین می شوند. جهت اطمینان نواحی کاندید گسترش داده می شوند. در مرحله بعد، رتبه بندی این نواحی کاندید بر اساس کلمه پرسشی ورودی انجام می پذیرد. این رتبه بندی با استفاده از سیستم پنجره گذاری استفاده شده در سطح خط صورت می پذیرد. جهت ارزیابی روش پیشنهادی در این مرحله نیز از مجموعه داده FHT استفاده شده است و نتایج تجربی به‌دست‌آمده برای کلمات پرسشی تصویری و متنی به ترتیب 75.07 و 80.28 درصد می باشد. نکته حائز اهمیت در ارزیابی روش های پیشنهادی مبتنی بر قطعه‌بندی خط و مستقل از قطعه‌بندی این است که آموزش مدل با استفاده از مجموعه داده فارسا و ایرانشهر ( کلمات مجزا) انجام شده است و مرحله آزمون با مجموعه دادهFHT انجام پذیرفته است. این کار توانایی روش پیشنهادی در مقاوم بودن نسبت به تغییرات شیوه نگارش را نشان می دهد. علاوه بر این هیچ‌کدام از کلاس های کلمات مورد جستجو در مرحله آموزش مورد استفاده قرار نگرفته است، بنابراین روش پیشنهادی توانایی جستجوی هر کلمه دلخواه را به کاربر می-دهد.
کلید واژه ها (نمایه ها):
#جستجوی کلمه در اسناد تصویری #اسناد دست نویس فارسی #تعبیه برچسب #رده بندی مبتنی بر خصیصه #اجزاء متصل
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: 166
پایان نامه های مرتبط (بر اساس کلیدواژه ها)