پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1404
پدیدآورندگان:
محمد مهدی مقصودی [پدیدآور اصلی]، مرضیه رحیمی[استاد راهنما]
چکیده: چکیده در سال‌های اخیر، تحلیل محتوای متنی و طبقه‌بندی خودکار جملات در شبکه‌های اجتماعی به یکی از موضوعات مهم در حوزه پردازش زبان طبیعی تبدیل شده است. یکی از چالش‌های اساسی در این حوزه، وجود داده‌های نامتعادل است که منجر به کاهش دقت مدل‌ها، به‌ویژه در شناسایی کلاس‌های نادر می‌شود. در این پژوهش، یک مدل سبک و بهینه مبتنی بر معماری دیستیلبِرت برای طبقه‌بندی توییت‌ها در سه کلاس «گفتار نفرت‌آمیز»، «زبان توهین‌آمیز» و «خنثی» ارائه شده است. برای بهبود عملکرد مدل، تکنیک‌های پیش‌پردازشی شامل حذف ردیف‌های نامعتبر و نمونه‌های تکراری به کار گرفته شده و از استراتژی حساس به هزینه برای مقابله با عدم تعادل کلاس‌ها استفاده شده است. مدل بر روی یک مجموعه‌داده واقعی شامل نزدیک به ۲۰ هزار توییت آموزش دیده و در ارزیابی نهایی، دقت کلی ۹۳٪ و میانگینF-1 برابر با ۰.۷۹ را کسب کرده است. نتایج به‌دست‌آمده نشان می‌دهند که مدل پیشنهادی، علی‌رغم سادگی و حجم پایین، توان رقابت با مدل‌های سنگین‌تر مانند بِرت را دارد و برای کاربردهای عملی در محیط‌های دارای محدودیت منابع، گزینه‌ای مناسب محسوب می‌شود.
کلید واژه ها (نمایه ها):
#کلمات کلیدی: پردازش زبان طبیعی #گفتار نفرت‌آمیز #زبان توهین‌آمیز #عدم تعادل #دیستیلبِرت #F-1 #بِرت
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)