پایانامه های دانشگاه صنعتی شاهرود

Q180: بهبود ارزیابی شباهت متن با استفاده از روش‌های آماری و معیارهای مبتنی بر شبکه واژگان

پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400

پدیدآورندگان:

رضا جوادزاده [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]

چکیده: هرروزه، حجم بالایی از اطلاعات متنی در فضای اینترنت منتشر می‌شود. علاوه بر این، کتاب‌های بسیاری از فرهنگ‌های مختلف، به صورت دیجیتالی عرضه شده است و در کتابخانه‌های دیجیتال نگهداری می‌شود. مقدار وسیعی از این داده‌ها به صورت زبان طبیعی تولید می‌شوند. این باعث می‌شود که اهمیت استخراج اطلاعات مهم از حجم بالای داده‌ها پررنگ‌تر شود. محاسبه شباهت زوج‌جمله و دقت این ارزیابی، مسئله مهمی با کاربردهای فراوان است. جستجوی معنایی، خلاصه‌سازی استخراجی، ارزیابی احساسات، رده‌بندی اسناد و تشخیص سرقت ادبی همه می‌توانند به عنوان مسئله شباهت زوج‌جمله مدل شوند. ارزیابی شباهت به محاسبه شباهت عبارت‌های بین دو جمله می‌پردازد. موضوع پژوهش پیش رو، ارزیابی شباهت بین دو جمله است در نتیجه به صورت پیش‌فرض، طول بین دو جمله محدود به کمتر از دو خط در نظر گرفته می‌شود. در مسئله شباهت زوج‌جمله، دو جمله به مدل طراحی شده ارسال می‌شود و سیستم باید عددی بین صفر و یک تولید کند (صفر یعنی دو جمله اصلاً شبیه نیستند و یک یعنی دو جمله به صورت تام شباهت معنایی دارند). هدف ما طراحی روشی مبتنی بر رگرسیون است به صورتی که بیشترین همبستگی را با نمره‌های تخصیص داده‌شده توسط داوران انسانی داشته باشد. در روش پیشنهادی تبدیل موجک، ابتدا توصیف‌گر روی داده‌های آموزش بهینه‌سازی می‌شود، سپس روی توصیف جمله تبدیل موجک گرفته شده است؛ در ادامه، «شباهت کاسینوسی کانال‌های متناظر بین دو جمله» به عنوان «ویژگی‌های پیش‌بینی ارتباط زوج‌جمله» در نظر گرفته می‌شود. نتایج نشان‌دهنده بهبود عملکرد نسبت به روش RoBERTa-baxse می‌باشد و همچنین مقدار همبستگی نسبت به تمامی روش‌های baxse که مدل‌های پایه هستند، بهبود یافته است. روش SimCSE از رویکرد ما عملکرد بهتری دارد اما در مقایسه، مدل توصیف‌گر مورد استفاده ما کوچکتر از مدل روش SimCSE است و در نتیجه زمان آموزش و آزمون در آن کمتر می‌باشد.

کلید واژه ها (نمایه ها):

#شباهت متن #هم‌وقوعی واژه‌ها #پیچیدگی متن #تطابق رشته‌ها #شباهت واژه‌ها #رگرسیون

دانلود نسخه تمام متن (رایگان)

دانلود داده باز (JSON)
اطلاعات این صفحه به عنوان داده باز علمی منتشر شده است. استفاده، بازنشر، پردازش، تحلیل و بهره‌برداری پژوهشی، آموزشی و صنعتی از اطلاعات با ذکر منبع «دانشگاه صنعتی شاهرود» مجاز است.

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:

پایان نامه های مرتبط (بر اساس کلیدواژه ها)

دانشگاه صنعتی شاهرود
Shahrood University of
Technology

دسترسی سریع

وبگاه‌ها