پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1398
پدیدآورندگان:
محمد عبدالهی [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، هدی مشایخی[استاد مشاور]
چکیده: ارزیابی انسجام متن از حوزه‌های پژوهشی مهم در پردازش زبان طبیعی بوده و به یکی از موضوعات مورد علاقه اما چالش برانگیز در تمامی رویکردهای پردازش متن تبدیل شده است. به طور کلی انسجام متن در دو بخش محلی و عمومی مورد ارزیابی و سنجش قرار می‌گیرد. انسجام محلی به معنای ارتباط مفهومی بین جملات متوالی با توجه به پیوستگی واژگانی آنان و انسجام عمومی به پیوستگی موضوعی سرتاسر متن و پاراگراف‌های آن خواهد بود. انسجام اغلب متن‌ها در اثر اعمال الگوریتم‌های پردازشی مانند خلاصه‌سازی، تولید متن، ساده سازی و غیره کاهش می‌یابد. از این رو تمام سیستم‌های ماشینی تمایل داشته تا پس از اعمال رویکرد پردازشی خود انسجام خروجی خود را سنجیده تا در صورت نامطلوب بودن، الگوریتم پردازشی خود را بهبود دهند. اغلب راه حل‌های ارائه شده درگیر با مفاهیم معنایی واژگان و الگوهای زبان‌شناسی بوده و بزرگترین چالش آنان محدودیت به یک حوزه خاص، نداشتن قابلیت گسترش به سایر زبان‌ها، الگوریتم‌های پیچیده و ارزیابی انسجام محلی فقط در محدوده چند جمله متوالی بوده است. این روش‌ها با محدود کردن خود به همرخدادی واژگان در بخش کوچکی از متن اغلب آنان در سنجش انسجام عمومی بویژه در متون بلند از دقت بالایی برخوردار نبوده‌اند. تا به حال تعداد کمی از رویکردهای ارائه شده اقدام به ارزیابی همزمان انسجام محلی و عمومی کرده‌ و در متن‌های بلند دقت خوبی نداشته‌اند. این رساله با استفاده از رویکردهای آماری، بکارگیری دانش پنهان واژه‌های موجود به ارزیابی انسجام جملات در کل متن پرداخته است. مدل پیشنهادی با ارتقای انسجام محلی از سطح جملات متوالی به سطح پاراگراف و انسجام عمومی به سطح وابستگی موضوعی پاراگراف‌های متوالی ارزیابی دقیق‌تری را پیشنهاد داده است. رویکرد پیشنهادی با استفاده از بردارهای واژگانی word2vec، تبدیل واژه‌ها به بردار عددی و ایجاد ماتریس‌های فاصله گذر جملات، مدلی ساده و کارا با نام مدل ارزیابی انسجام مبتنی بر تعبیه کلمه ارائه داده است. مهمترین ویژگی‌های مدل ارائه شده توانایی ارزیابی همزمان انسجام محلی و عمومی در متن‌های بزرگ و با تعداد جملات زیاد، عدم وابستگی به موضوع متن و مفهوم واژه‌ها و قابلیت گسترش و اعمال بر روی سایر زبان‌ها هستند. مدل پیشنهادی در متن‌های کوتاه از دقت کمتری در مقایسه با روش‌های موجود برخوردار بوده اما برتری آن در مواجهه با متن‌های بلند و با تعداد جملات بیشتر نمایان می‌شود. این بهینه‌سازی در متن‌های با بیش از دویست و پنجاه جمله ۲.4 درصد افزایش یافته که در مجموع برای متون بین صد و پنجاه تا سیصد جمله برتری ۱.۹۵ درصدی را نشان می‌دهد. با وجود دقت کمتر مدل در مقایسه با سایر روش‌های پیشین در متن‌های کوتاه باز هم میانگین دقت آن در کل متن‌های مورد ارزیابی (کوتاه، متوسط، بلند) ۰.۴۱ درصد بهبود را نمایش می‌دهد.
کلید واژه ها (نمایه ها):
#انسجام متن #انسجام محلی #انسجام عمومی #فضای بردار واژه #مدل‌های زبانی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)