پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400
پدیدآورندگان:
عرفان جلیلی جلال [پدیدآور اصلی]، مرضیه رحیمی[استاد راهنما]، مرتضی زاهدی[استاد مشاور]
چکیده: عنوانسازی خودکار یکی از چالشهای پردازش زبانهای طبیعی است که در زیرمجموعه خلاصهسازی کوتاه قرار میگیرد و میتواند در کاربردهایی همچون پیشنهاد عنوان برای متون خبری و یا ایمیل کارآمد باشد. در این راستا ماشین سعی میکند که خلاصهای بسیار فشرده و کوتاه از اطلاعات متن ورودی را در قالب عنوان به کاربر منتقل کند. برای ساخت عنوان، خلاصهسازی چکیدهای رویکرد مناسبتری در مقابل رویکرد استخراجی است. در رویکرد چکیدهای، برخلاف رویکرد استخراجی که جملات خلاصه را عینا از متن ورودی کپی میکند، مدل باید کلمات را به صورت معناداری در کنار هم قرار دهد تا خلاصهای (یا در اینجا به صورت دقیقتر عنوانی را) برای متن ورودی تولید کند؛ به همین دلیل است که برای پیادهسازی رویکردهای چکیدهای نیاز به دادگان عظیم و مدلهای پیچیدهای داریم تا زبان مقصد را درک کرده و عمل خلاصهسازی را به صورتی کارا انجام دهد. بنابراین گردآوری دادگان کافی و انتخاب مدل مناسب از چالشهای پیش رو هستند. کارهای ارائهشده برای عنوانسازهای چکیدهای عموما در زبان انگلیسی و دیگر زبانهای رایج هستند و با استفاده از دادگان عظیم و مدلهای بازگشتی پیچیده پیادهسازی شدهاند. از آنجایی که زبان فارسی یک زبان با منابع محدود به حساب میآید، در پیادهسازی یک عنوانساز فارسی به روش چکیدهای، چالشهای مذکور جدیتر به نظر میرسند. ما در این پایاننامه برای فایق آمدن بر مشکل محدودیت دادگان، از شبکهها پیشآموزشدادهشده انتقالی استفاده کردیم تا با تعداد دادگان محدودتری عنوانساز فارسی مناسب با دقت بالا به مردم فارسی زبان بصورت آزاد ارائه دهیم. برای اینکار ابتدا تعداد دادگانی مناسب برای اینکار متشکل از حدود ۷۰ هزار جفت چکیده و عنوان متناظر از ژورنالهای معتبر فارسی زبان با تنوع موضوعی بالا جمعآوری کردیم. سپس از مدل زبانی mT5 استفاده کردیم، مدل قبلا با تعداد زیادی متن با حدود ۱۰۰ زبان از جمله فارسی به عنوان یک مدل زبانی آموزش داده شده است که انتظار میرود در این مرحله ساختار زبان را دریافت کرده باشد. سپس در ادامه این مدل را برای کاربرد عنوانساز فارسی با دادگان جمعآوریشده تنظیم کردیم. در این مرحله دقت دادگان تست با معیار ROUGE-1 به مقدار ۴۵ رسید. در ادامه برای بهبود خروجیها و دقت مدل دو معماری پیشنهاد شد. در اولین معماری از یک نویززدا در ادامهی شبکه عنوانساز ارائه شده در مرحله قبلی، اضافه شد تا عنوانها بهبود پیدا کنند. در مدل مذکور، نویززدا همان شبکه mT5 است که این بار عناوین تولیدشده را به عنوان ورودی دریافت کرده و یاد میگیرد که عناوین مناسبتری را با توجه به عناوین هدف تولید نماید. همچنین در معماری دوم مشابه مدلهای آنسمبل انتخابی، از چند مدل mT5 استفاده شد تا با استفاده از یک معیار مناسب، از بین عنوانهای تولید شده بهترین عنوان انتخاب گردد. با این معماریهای پیشنهادی، دقت را به حدود ۴۶ با معیار ROUGE-1 افزایش دادیم که در مقایسه کارهای مشابه دقت درخور توجهی است.
کلید واژه ها (نمایه ها):
#یادگیری انتقالی #پردازش زبانهای طبیعی #خلاصهساز فارسی #عنوانساز فارسی #یادگیری عمیق
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: