پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1398
پدیدآورندگان:
محمد عبدالهی [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، هدی مشایخی[استاد مشاور]
چکیده: ارزیابی انسجام متن از حوزههای پژوهشی مهم در پردازش زبان طبیعی بوده و به یکی از موضوعات مورد علاقه اما چالش برانگیز در تمامی رویکردهای پردازش متن تبدیل شده است. به طور کلی انسجام متن در دو بخش محلی و عمومی مورد ارزیابی و سنجش قرار میگیرد. انسجام محلی به معنای ارتباط مفهومی بین جملات متوالی با توجه به پیوستگی واژگانی آنان و انسجام عمومی به پیوستگی موضوعی سرتاسر متن و پاراگرافهای آن خواهد بود. انسجام اغلب متنها در اثر اعمال الگوریتمهای پردازشی مانند خلاصهسازی، تولید متن، ساده سازی و غیره کاهش مییابد. از این رو تمام سیستمهای ماشینی تمایل داشته تا پس از اعمال رویکرد پردازشی خود انسجام خروجی خود را سنجیده تا در صورت نامطلوب بودن، الگوریتم پردازشی خود را بهبود دهند.
اغلب راه حلهای ارائه شده درگیر با مفاهیم معنایی واژگان و الگوهای زبانشناسی بوده و بزرگترین چالش آنان محدودیت به یک حوزه خاص، نداشتن قابلیت گسترش به سایر زبانها، الگوریتمهای پیچیده و ارزیابی انسجام محلی فقط در محدوده چند جمله متوالی بوده است. این روشها با محدود کردن خود به همرخدادی واژگان در بخش کوچکی از متن اغلب آنان در سنجش انسجام عمومی بویژه در متون بلند از دقت بالایی برخوردار نبودهاند. تا به حال تعداد کمی از رویکردهای ارائه شده اقدام به ارزیابی همزمان انسجام محلی و عمومی کرده و در متنهای بلند دقت خوبی نداشتهاند.
این رساله با استفاده از رویکردهای آماری، بکارگیری دانش پنهان واژههای موجود به ارزیابی انسجام جملات در کل متن پرداخته است. مدل پیشنهادی با ارتقای انسجام محلی از سطح جملات متوالی به سطح پاراگراف و انسجام عمومی به سطح وابستگی موضوعی پاراگرافهای متوالی ارزیابی دقیقتری را پیشنهاد داده است. رویکرد پیشنهادی با استفاده از بردارهای واژگانی word2vec، تبدیل واژهها به بردار عددی و ایجاد ماتریسهای فاصله گذر جملات، مدلی ساده و کارا با نام مدل ارزیابی انسجام مبتنی بر تعبیه کلمه ارائه داده است. مهمترین ویژگیهای مدل ارائه شده توانایی ارزیابی همزمان انسجام محلی و عمومی در متنهای بزرگ و با تعداد جملات زیاد، عدم وابستگی به موضوع متن و مفهوم واژهها و قابلیت گسترش و اعمال بر روی سایر زبانها هستند. مدل پیشنهادی در متنهای کوتاه از دقت کمتری در مقایسه با روشهای موجود برخوردار بوده اما برتری آن در مواجهه با متنهای بلند و با تعداد جملات بیشتر نمایان میشود. این بهینهسازی در متنهای با بیش از دویست و پنجاه جمله ۲.4 درصد افزایش یافته که در مجموع برای متون بین صد و پنجاه تا سیصد جمله برتری ۱.۹۵ درصدی را نشان میدهد. با وجود دقت کمتر مدل در مقایسه با سایر روشهای پیشین در متنهای کوتاه باز هم میانگین دقت آن در کل متنهای مورد ارزیابی (کوتاه، متوسط، بلند) ۰.۴۱ درصد بهبود را نمایش میدهد.
کلید واژه ها (نمایه ها):
#انسجام متن #انسجام محلی #انسجام عمومی #فضای بردار واژه #مدلهای زبانی دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: