پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1401
پدیدآورندگان:
علی اصغر یونس ابادی [پدیدآور اصلی]، فاطمه جعفری نژاد[استاد راهنما]، محسن رضوانی[استاد راهنما]
چکیده:
خلاصه سازی به منظور کاهش اندازه سند ضمن حفظ معنی، یکی از زمینه های پردازش زبان طبیعی است. این موضوعی است که در عصر اطلاعات امروزی از اهمیت بالایی برخوردار است. با توجه به حجم بالای مستندات متنی برای دستیابی به اطلاعات مورد نظر و فهم مطالب کاری سخت و زمانبر شده است. از این رو اهمیت خلاصهسازی متون در کاربردهایی مانند تحقیقات پزشکی، بیولوژی، اخبار، غیره با استقبال محققین روبرو شده است. در حال حاضر خلاصهسازی خودکار متن در یک تقسیم بندی کلی به دو دسته تک سنده و چند سندی تقسیم بندی می شود و از دو روش خلاصهسازی گزینشی (استخراجی) و خلاصهسازی انتزاعی استفاده می شود. در روش خلاصهسازی گزینشی قسمت های مختلفی از متن که مهم است انتخاب شده و با یک چیدمان مناسب کنار یکدیگر قرار میگیرد و به عنوان خلاصه تلقی میشود. اما در روش دوم یعنی خلاصهسازی انتزاعی، استخراج مفهوم اصلی متن، بدون اینکه لزوما از جملات متن اصلی استفاده شود صورت میپذیرد. رویکردهای پیشرفته برای خلاصهسازی انتزاعی مبتنی بر دادهها هستند و بر در دسترس بودن مجموعههای بزرگی از مقالات جفت شده با خلاصهها تکیه میکنند. در این پایان نامه، ما کارآیی روشهای یادگیری عمیق را برای خلاصهسازی متن انتزاعی بررسی میکنیم. بدین ترتیب فشردهسازی بهینه سند اصلی صورت پذیرفته و در عین حال مفاهیم کلیدی در سند اصلی حفظ می شود. با توجه به انتخاب موضوع که نیازمند به داده های زیاد و سخت افرار قدرتمند هستیم برای برطرف کردن این موضوع از شبکه های پیشآموخته شده انتقالی استفاده کردیم تا بتوانیم خلاصه ای مطلوب و با دقت بالا برای علاقه مندان و عموم مردم ارائه دهیم. در معماری این کار از مدل هایی مانند PEGASUS، T5 و BART استفاده شده است که هرکدام با بیش از 750 گیگ اطلاعات متنی تمیز شده که از صفحات اینترنتی دریافت شده، آموزش دیده است. ما توانستیم این مدل ها را برای کاربرد خلاصهسازی متن انتزاعی به صورت ایده آل تنظیم کنیم. نهایت با یادگیری جمعی این 3 مدل و تنظیم پارامتر ها در هر مدل معماری نهایی بهینه بدست امد. در مرحله ارزیابی دقت دادگان تست یا معیار ROUGE1 با مدل یادگیری جمعی که در آن از مدل های BART، T5 و PEGASUS استفاده شده است به عدد 43.3 و مدل یادگیری جمعی دوم که از مدل PEGASUS استفاده شده است به عدد 44.5 رسیدیم. این اعداد در مقابل معیار rouge1 41.2 بدست امده برای مدل پگاسوس به تنهایی، حاکی از کارایی استفاده از روشهای یادگیری جمعی در این تسک از پردازش زبان طبیعی است.
کلید واژه ها (نمایه ها):
#کلمات کلیدی : پردازش زبان طبیعی #خلاصه ساز انتزاعی #یادگیری انتقالی #یادگیری عمیق
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: