پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1401
پدیدآورندگان:
محمد حسن پور [پدیدآور اصلی]، مرضیه رحیمی[استاد راهنما]
چکیده: پیشرفت های اخیر در حوزه پردازش زبان طبیعی بر پایه معماری انتقال دهنده، زمینه ساز آموزش غیرنظارتی مدل-های زبانی بسیار قدرتمندی برای تولید متن شده است، و متون تولید شده توسط این مدل ها از متون نوشته شده توسط انسان ها به سختی قابل تمایز هستند. این مدل ها با دریافت متن تولید شده خود به عنوان ورودی، یک توزیع احتمالی بر روی همه کلمات موجود در دایره لغت خود محاسبه می کنند که نشانگر احتمال حضور هر یک از کلمات در ادامه دنباله تولید شده است. از این توزیع، یکی از کلمات با یک روش نمونه برداری انتخاب می-شود. مدل های تولید متن می توانند در راستای پیشبرد اهداف خرابکارانه به کار گرفته شوند، و یکی از راه های مقابله با این امر، آموزش مدلی تفکیک کننده است که بتواند متون نوشته شده به وسیله انسان ها را از متون نوشته شده به وسیله هوش مصنوعی تشخیص دهد. در این رساله ما برای بهبود دقت تشخیص متون ماشینی از متون انسانی، به جای مدل برت که در کارهای گذشته به کار گرفته شد، از مدل الکترا استفاده کردیم. از آنجایی که روش نمونه برداری به کار رفته برای تولید متن ماشینی تاثیر بسزایی روی کیفیت متن تولید شده و عملکرد مدل تشخیص دهنده دارد، عملکرد مدل های برت و الکترا را بر روی متون ماشینی تولید شده به وسیله دو روش نمونه برداری تصادفی و کا-بهترین به صورت جداگانه ارزیابی می کنیم. نتایج ما نشان می دهند که روش پیشنهادی با استفاده از مدل الکترا، دقت تشخیص متن ماشینی از متن انسانی را بر روی داده های ماشینی تولید شده با نمونه برداری تصادفی و کا-بهترین در مجموعه داده gpt2-output-dataset به ترتیب ۴٪ و ۱٪ بهبود می دهد. همچنین مقایسه نتایج با مدل برت نشان می دهد که اگر چه در الکترا میزان پوشش بر روی متون انسانی و به تبع آن صحت روی متون ماشینی افزایش می یابد، اما صحت روی متون انسانی چنان بهبود نمی یابد. این نشان از این دارد که بهبود معماری سبب ایجاد شناخت بهتری از متون انسانی شده است، اما میزان شناخت مدل از متون ماشینی را بهبود نداده است. از این می توان نتیجه گرفت که برای بهبود شناخت متون ماشینی، باید در مرحله پیش آموزش مدل های زبانی از متون ماشینی نیز در کنار متون انسانی برای آموزش آن ها استفاده کرد.  
کلید واژه ها (نمایه ها):
#کلمات کلیدی: پردازش متن #یادگیری عمیق #مدل BERT #مدل Electra #شبکه انتقال‌دهنده #مکانیزم توجه #نمونه‌برداری
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)