پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400
پدیدآورندگان:
عرفان جلیلی جلال [پدیدآور اصلی]، مرضیه رحیمی[استاد راهنما]، مرتضی زاهدی[استاد مشاور]
چکیده: عنوان‌سازی خودکار یکی از چالش‌های پردازش زبان‌های طبیعی است که در زیرمجموعه خلاصه‌ساز‌ی کوتاه قرار می‌گیرد و می‌تواند در کاربردهایی همچون پیشنهاد عنوان برای متون خبری و یا ایمیل کارآمد باشد. در این راستا ماشین سعی می‌کند که خلاصه‌ای بسیار فشرده و کوتاه از اطلاعات متن ورودی را در قالب عنوان به کاربر منتقل کند. برای ساخت عنوان، خلاصه‌سازی چکیده‌ای رویکرد مناسبتری در مقابل رویکرد استخراجی است. در رویکرد چکیده‌ای، برخلاف رویکرد استخراجی که جملات خلاصه را عینا از متن ورودی کپی می‌کند، مدل باید کلمات را به صورت معناداری در کنار هم قرار دهد تا خلاصه‌ای (یا در اینجا به صورت دقیق‌تر عنوانی را) برای متن ورودی تولید کند؛ به همین دلیل است که برای پیاده‌سازی رویکرد‌های چکیده‌ای نیاز به دادگان عظیم و مدل‌های پیچیده‌ای‌ داریم تا زبان مقصد را درک کرده و عمل خلاصه‌سازی را به صورتی کارا انجام دهد. بنابراین گردآوری دادگان کافی و انتخاب مدل مناسب از چالشهای پیش رو هستند. کار‌های ارائه‌شده برای عنوان‌سازهای چکیده‌ای عموما در زبان انگلیسی و دیگر زبان‌های رایج هستند و با استفاده از دادگان عظیم و مدل‌های بازگشتی پیچیده پیاده‌سازی شده‌اند. از آنجایی که زبان فارسی یک زبان با منابع محدود به حساب می‌آید، در پیاده‌سازی یک عنوان‌ساز فارسی به روش چکیده‌ای، چالش‌های مذکور جدی‌تر به نظر می‌ر‌سند. ما در این پایان‌نامه برای فایق آمدن بر مشکل محدودیت دادگان، از شبکه‌‌ها پیش‌آموزش‌داده‌شده انتقالی استفاده کردیم تا با تعداد دادگان محدود‌تری عنوان‌ساز فارسی مناسب با دقت بالا به مردم فارسی زبان بصورت آزاد ارائه دهیم. برای اینکار ابتدا تعداد دادگانی مناسب برای اینکار متشکل از حدود ۷۰ هزار جفت چکیده و عنوان متناظر از ژورنال‌های معتبر فارسی زبان با تنوع موضوعی بالا جمع‌آوری کردیم. سپس از مدل زبانی mT5 استفاده کردیم، مدل قبلا با تعداد زیادی متن با حدود ۱۰۰ زبان از جمله فارسی به عنوان یک مدل زبانی آموزش داده شده است که انتظار می‌رود در این مرحله‌ ساختار زبان را دریافت کرده باشد. سپس در ادامه این مدل را برای کاربرد عنوان‌ساز فارسی با دادگان جمع‌آوری‌شده تنظیم کردیم. در این مرحله دقت دادگان تست با معیار ROUGE-1 به مقدار ۴۵ رسید. در ادامه برای بهبود خروجی‌ها و دقت‌ مدل دو معماری پیشنهاد شد. در اولین معماری از یک نویززدا در ادامه‌ی شبکه عنوان‌ساز ارائه شده در مرحله قبلی، اضافه شد تا عنوان‌ها بهبود پیدا کنند. در مدل مذکور، نویززدا همان شبکه mT5 است که این بار عناوین تولیدشده را به عنوان ورودی دریافت کرده و یاد می‌گیرد که عناوین مناسب‌تری را با توجه به عناوین هدف تولید نماید. همچنین در معماری دوم مشابه مدل‌های آنسمبل انتخابی، از چند مدل mT5 استفاده شد تا با استفاده از یک معیار مناسب، از بین عنوان‌های تولید شده بهترین عنوان انتخاب گردد. با این معماری‌های پیشنهادی، دقت‌ را به حدود ۴۶ با معیار ROUGE-1 افزایش دادیم که در مقایسه کارهای مشابه دقت درخور توجهی است.
کلید واژه ها (نمایه ها):
#یادگیری‌ انتقالی #پردازش زبان‌های طبیعی #خلاصه‌ساز فارسی #عنوان‌ساز فارسی #یادگیری عمیق
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)