پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1403
پدیدآورندگان:
براتعلی اختریان [پدیدآور اصلی]، محسن رضوانی[استاد راهنما]
چکیده:
ماهیت پنهان و دسترسی محدود وبتاریک، موجب گسترش فعالیتهای مجرمانه بسیاری از جمله تهدیدات سایبری، فروش اسلحه، فروش مواد مخدر و فروش ابزارهای غیرقانونی شده است. ظهور مدلهای زبانی بزرگ این امید را ایجاد نموده که بتوان بادقت مناسبی به تحلیل مطالب موجود در وب تاریک پرداخت. در همین راستا استفاده از دادههای انبوه سایبری موجود در وبتاریک برای جلوگیری از تهدیدات سایبری و آموزش مدلهای زبانی بسیار مفید و مؤثر خواهد بود. تکنولوژی مدلهای زبانی بزرگ برای آموزش بهتر و رسیدن بهدقت کافی، به داده زیاد و باکیفیت بالا نیاز دارند و این چالشی است که محققان حوزه امنیت سایبری باتوجهبه آلوده بودن دادههای موجود در وبتاریک روبرو هستند. اغلب تحقیقات در این زمینه، متمرکز بر روی تمام مشخصههای مجموعهداده وبتاریک و دادههای باکیفیت پایین صورت پذیرفته که نتوانستهاند دقت بالایی را کسب کنند. در این پایاننامه یک مدل زبانی جدید بر پایه مدل زبانی BERT که بر روی داده استخراج شده از وبتاریک آموزشدیده است، ارائه کردیم. مدل پیشنهادی یک مدل متنی مبتنی بر ترانسفورماتور است که از رمزگذار دوطرفه از ترانسفورماتورها برای رویکرد یادگیری استفاده میکند و آن را بر روی یک مجموعهداده باکیفیت بالا، بدون داده تکراری، عاری از کلمات نامعلوم، تماماً به زبان انگلیسی و به طور مشخص بر روی دادههای هک و امنیت ارزیابی کردیم. در نهایت با تحلیل مقادیر ارزیابیشده مدل پیشنهادی با مدلهای قبلی، مشخص شد که مدل پیشنهادی به علت تزریق دادههای باکیفیت نسبت به مدلهای قبلی، توانسته دقت بهتری در دستهبندی دادهها داشته باشد.
کلید واژه ها (نمایه ها):
#وب تاریک #مدلهای زبانی بزرگ #ترانسفورماتور #BERT
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: