پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400
پدیدآورندگان:
رضا جوادزاده [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده: هرروزه، حجم بالایی از اطلاعات متنی در فضای اینترنت منتشر میشود. علاوه بر این، کتابهای بسیاری از فرهنگهای مختلف، به صورت دیجیتالی عرضه شده است و در کتابخانههای دیجیتال نگهداری میشود. مقدار وسیعی از این دادهها به صورت زبان طبیعی تولید میشوند. این باعث میشود که اهمیت استخراج اطلاعات مهم از حجم بالای دادهها پررنگتر شود. محاسبه شباهت زوججمله و دقت این ارزیابی، مسئله مهمی با کاربردهای فراوان است. جستجوی معنایی، خلاصهسازی استخراجی، ارزیابی احساسات، ردهبندی اسناد و تشخیص سرقت ادبی همه میتوانند به عنوان مسئله شباهت زوججمله مدل شوند. ارزیابی شباهت به محاسبه شباهت عبارتهای بین دو جمله میپردازد. موضوع پژوهش پیش رو، ارزیابی شباهت بین دو جمله است در نتیجه به صورت پیشفرض، طول بین دو جمله محدود به کمتر از دو خط در نظر گرفته میشود. در مسئله شباهت زوججمله، دو جمله به مدل طراحی شده ارسال میشود و سیستم باید عددی بین صفر و یک تولید کند (صفر یعنی دو جمله اصلاً شبیه نیستند و یک یعنی دو جمله به صورت تام شباهت معنایی دارند). هدف ما طراحی روشی مبتنی بر رگرسیون است به صورتی که بیشترین همبستگی را با نمرههای تخصیص دادهشده توسط داوران انسانی داشته باشد.
در روش پیشنهادی تبدیل موجک، ابتدا توصیفگر روی دادههای آموزش بهینهسازی میشود، سپس روی توصیف جمله تبدیل موجک گرفته شده است؛ در ادامه، «شباهت کاسینوسی کانالهای متناظر بین دو جمله» به عنوان «ویژگیهای پیشبینی ارتباط زوججمله» در نظر گرفته میشود. نتایج نشاندهنده بهبود عملکرد نسبت به روش RoBERTa-baxse میباشد و همچنین مقدار همبستگی نسبت به تمامی روشهای baxse که مدلهای پایه هستند، بهبود یافته است. روش SimCSE از رویکرد ما عملکرد بهتری دارد اما در مقایسه، مدل توصیفگر مورد استفاده ما کوچکتر از مدل روش SimCSE است و در نتیجه زمان آموزش و آزمون در آن کمتر میباشد.
کلید واژه ها (نمایه ها):
#شباهت متن #هموقوعی واژهها #پیچیدگی متن #تطابق رشتهها #شباهت واژهها #رگرسیون
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: