پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1404
پدیدآورندگان:
محمد مهدی مقصودی [پدیدآور اصلی]، مرضیه رحیمی[استاد راهنما]
چکیده: چکیده
در سالهای اخیر، تحلیل محتوای متنی و طبقهبندی خودکار جملات در شبکههای اجتماعی به یکی از موضوعات مهم در حوزه پردازش زبان طبیعی تبدیل شده است. یکی از چالشهای اساسی در این حوزه، وجود دادههای نامتعادل است که منجر به کاهش دقت مدلها، بهویژه در شناسایی کلاسهای نادر میشود. در این پژوهش، یک مدل سبک و بهینه مبتنی بر معماری دیستیلبِرت برای طبقهبندی توییتها در سه کلاس «گفتار نفرتآمیز»، «زبان توهینآمیز» و «خنثی» ارائه شده است. برای بهبود عملکرد مدل، تکنیکهای پیشپردازشی شامل حذف ردیفهای نامعتبر و نمونههای تکراری به کار گرفته شده و از استراتژی حساس به هزینه برای مقابله با عدم تعادل کلاسها استفاده شده است. مدل بر روی یک مجموعهداده واقعی شامل نزدیک به ۲۰ هزار توییت آموزش دیده و در ارزیابی نهایی، دقت کلی ۹۳٪ و میانگینF-1 برابر با ۰.۷۹ را کسب کرده است. نتایج بهدستآمده نشان میدهند که مدل پیشنهادی، علیرغم سادگی و حجم پایین، توان رقابت با مدلهای سنگینتر مانند بِرت را دارد و برای کاربردهای عملی در محیطهای دارای محدودیت منابع، گزینهای مناسب محسوب میشود.
کلید واژه ها (نمایه ها):
#کلمات کلیدی: پردازش زبان طبیعی #گفتار نفرتآمیز #زبان توهینآمیز #عدم تعادل #دیستیلبِرت #F-1 #بِرت
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: