پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1403
پدیدآورندگان:
آذین اکرامی فرد_Azin Ekrami [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده:
بستر اینترنت منبعی غنی از اطلاعات متنی است که با استخراج هدفمند داده از صفحات آن میتوان به مجموعهداده های عظیم و مناسبی برای رصد اخبار، بررسی بازار با هدف ارزیابی رقبا، تولید مدلهای زبانی، استخراج دانش دست یافت. با این حال، ساختار صفحات وب کنونی بسیار متنوع و پیچیده است و با توسعه تکنولوژیهای طراحی رابط کاربری، این پیچیدگی افزایش یافتهاست. همچنین، این صفحات عمدتا شامل اطلاعات غیرمرتبط و گاه غیرمفید است، که منجر به تولید نویز در دادهها میشود. ایجاد ابزاری برای استخراج محتوای مفید و یا حذف محتوای غیرمفید، میتواند راهحل مناسبی برای مقابله با این مشکل باشد. تنوع ساختاری صفحات وب باعث میشود تا فرایند استخراج متن به کاری پیچیده از دیدگاه ماشینی و طاقتفرسا از دیدگاه انسانی تبدیل شود. بنابراین طراحی ابزاری هوشمند که به طور کارآمد متن مفید را از صفحات وب استخراج کند، میتواند بسیار کاربردی باشد. روشهای موجود یا براساس قانون، محتوای اصلی را استخراج میکنند، که با تغییر تکنولوژی طراحی صفحات این روشها با کاهش عملکرد مواجه میشوند و نیاز به بروزرسانی دائمی دارند، و یا براساس مدلهای یادگیری ماشین میباشند. این روشها نیز به دلیل محدود بودن مجموعهداده آموزشی به چند دامنه خاص و یا پیچیده بودن مدل طراحی شده، در طیف وسیعی از صفحات، عملکرد مناسبی ندارد. در این پژوهش، سعی شدهاست با استفاده از ویژگیهای ساختاری، معنایی و محتواییِ عناصر مختلف صفحه، مدلی هوشمند جهت استخراج متن مفید طراحیشود. در همین راستا، چندین آزمایش به منظور رسیدن به مدل بهینه طراحی و اجرا گردید. روش پیشنهادی صفحات را بلاکبندی می کند و سپس با استخراج ویژگیهای مختلف، نسبت به پیشبینی برچسب نهایی با استفاده از یک شبکه عصبی عمیق اقدام میکند. به منظور آموزش مدل پیشنهادی، یک مجموعهداده از صفحات وب جمعآوری شدهاست و محتوای مفید این صفحات به کمک چند داوطلب به صورت دستی مشخص گردید. مزیت این مدل، تنوع بالای مجموعهداده آموزشی و بهبود الگوریتم بلاکبندی است که از ادغام متنهای مفید و غیرمفید و از تولید بلاکهای متعدد برای یک صفحه وب جلوگیری میکند. مطابق نتایج بدستآمده، در مقایسه با سایر روشها، روش پیشنهادی به طور میانگین بین 3 تا 11 درصد نسبت سایر مدلها عملکرد بهتری دارد.
کلید واژه ها (نمایه ها):
#استخراج محتوای صفحات وب #خزش صفحات وب #حذف محتوای غیرمفید #پردازش متن #دادهکاوی #شبکه عصبی عمیق #بلوک بندی صفحه وب
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: