پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1401
پدیدآورندگان:
علی اصغر یونس ابادی [پدیدآور اصلی]، فاطمه جعفری نژاد[استاد راهنما]، محسن رضوانی[استاد راهنما]
چکیده: خلاصه سازی به منظور کاهش اندازه سند ضمن حفظ معنی، یکی از زمینه های پردازش زبان طبیعی است. این موضوعی است که در عصر اطلاعات امروزی از اهمیت بالایی برخوردار است. با توجه به حجم بالای مستندات متنی برای دستیابی به اطلاعات مورد نظر و فهم مطالب کاری سخت و زمانبر شده است. از این رو اهمیت خلاصه‌سازی متون در کاربردهایی مانند تحقیقات پزشکی، بیولوژی، اخبار، غیره با استقبال محققین روبرو شده است. در حال حاضر خلاصه‌سازی خودکار متن در یک تقسیم بندی کلی به دو دسته تک سنده و چند سندی تقسیم بندی می شود و از دو روش خلاصه‌سازی گزینشی (استخراجی) و خلاصه‌سازی انتزاعی استفاده می شود. در روش خلاصه‌سازی گزینشی قسمت های مختلفی از متن که مهم است انتخاب شده و با یک چیدمان مناسب کنار یکدیگر قرار میگیرد و به عنوان خلاصه تلقی میشود. اما در روش دوم یعنی خلاصه‌سازی انتزاعی، استخراج مفهوم اصلی متن، بدون اینکه لزوما از جملات متن اصلی استفاده شود صورت میپذیرد. رویکردهای پیشرفته برای خلاصه‌سازی انتزاعی مبتنی بر داده‌ها هستند و بر در دسترس بودن مجموعه‌های بزرگی از مقالات جفت شده با خلاصه‌ها تکیه می‌کنند. در این پایان نامه، ما کارآیی روشهای یادگیری عمیق را برای خلاصه‌سازی متن انتزاعی بررسی می‌کنیم. بدین ترتیب فشرده‌سازی بهینه سند اصلی صورت پذیرفته و در عین حال مفاهیم کلیدی در سند اصلی حفظ می شود. با توجه به انتخاب موضوع که نیازمند به داده های زیاد و سخت افرار قدرتمند هستیم برای برطرف کردن این موضوع از شبکه های پیش‌آموخته شده انتقالی استفاده کردیم تا بتوانیم خلاصه ای مطلوب و با دقت بالا برای علاقه مندان و عموم مردم ارائه دهیم. در معماری این کار از مدل هایی مانند PEGASUS، T5 و BART استفاده شده است که هرکدام با بیش از 750 گیگ اطلاعات متنی تمیز شده که از صفحات اینترنتی دریافت شده، آموزش دیده است. ما توانستیم این مدل ها را برای کاربرد خلاصه‌سازی متن انتزاعی به صورت ایده آل تنظیم کنیم. نهایت با یادگیری جمعی این 3 مدل و تنظیم پارامتر ها در هر مدل معماری نهایی بهینه بدست امد. در مرحله ارزیابی دقت دادگان تست یا معیار ROUGE1 با مدل یادگیری جمعی که در آن از مدل های BART، T5 و PEGASUS استفاده شده است به عدد 43.3 و مدل یادگیری جمعی دوم که از مدل PEGASUS استفاده شده است به عدد 44.5 رسیدیم. این اعداد در مقابل معیار rouge1 41.2 بدست امده برای مدل پگاسوس به تنهایی، حاکی از کارایی استفاده از روشهای یادگیری جمعی در این تسک از پردازش زبان طبیعی است.
کلید واژه ها (نمایه ها):
#کلمات کلیدی : پردازش زبان طبیعی #خلاصه ساز انتزاعی #یادگیری انتقالی #یادگیری عمیق
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)