پایانامه های دانشگاه صنعتی شاهرود

Q270: استخراج خودکار محتوای صفحه وب بر مبنای ویژگی‌های ساختاری و معنایی

پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1403

پدیدآورندگان:

آذین اکرامی فرد_Azin Ekrami [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]

چکیده: بستر اینترنت منبعی غنی‌ از اطلاعات متنی است که با استخراج هدفمند داده از صفحات آن می‌توان به مجموعه‌داده های عظیم و مناسبی برای رصد اخبار، بررسی بازار با هدف ارزیابی رقبا، تولید مدل‌های زبانی، استخراج دانش دست یافت. با این حال، ساختار صفحات وب کنونی بسیار متنوع و پیچیده است و با توسعه تکنولوژی‌های طراحی رابط کاربری، این پیچیدگی افزایش یافته‌است. همچنین، این صفحات عمدتا شامل اطلاعات غیرمرتبط و گاه غیرمفید است، که منجر به تولید نویز در داده‌ها می‌شود. ایجاد ابزاری برای استخراج محتوای مفید و یا حذف محتوای غیرمفید، می‌تواند راه‌حل مناسبی برای مقابله با این مشکل باشد. تنوع ساختاری صفحات وب باعث می‌شود تا فرایند استخراج متن به کاری پیچیده از دیدگاه ماشینی و طاقت‌فرسا از دیدگاه انسانی تبدیل شود. بنابراین طراحی ابزاری هوشمند که به طور کارآمد متن مفید را از صفحات وب استخراج کند، می‌تواند بسیار کاربردی باشد. روش‌های موجود یا براساس قانون، محتوای اصلی را استخراج می‌کنند، که با تغییر تکنولوژی طراحی صفحات این روش‌ها با کاهش عملکرد مواجه می‌شوند و نیاز به بروزرسانی دائمی دارند، و یا براساس مدل‌های یادگیری ماشین می‌باشند. این روش‌ها نیز به دلیل محدود بودن مجموعه‌داده آموزشی به چند دامنه خاص و یا پیچیده بودن مدل طراحی شده، در طیف وسیعی از صفحات، عملکرد مناسبی ندارد. در این پژوهش، سعی شده‌است با استفاده از ویژگی‌های ساختاری، معنایی و محتواییِ عناصر مختلف صفحه، مدلی هوشمند جهت استخراج متن مفید طراحی‌شود. در همین راستا، چندین آزمایش به منظور رسیدن به مدل بهینه طراحی و اجرا گردید. روش پیشنهادی صفحات را بلاک‌بندی می کند و سپس با استخراج ویژگی‌های مختلف، نسبت به پیش‌بینی برچسب نهایی با استفاده از یک شبکه عصبی عمیق اقدام می‌کند. به منظور آموزش مدل پیشنهادی، یک مجموعه‌داده از صفحات وب جمع‌آوری شده‌است و محتوای مفید این صفحات به کمک چند داوطلب به صورت دستی مشخص گردید. مزیت این مدل، تنوع بالای مجموعه‌داده آموزشی و بهبود الگوریتم بلاک‌بندی است که از ادغام متن‌های مفید و غیرمفید و از تولید بلاک‌های متعدد برای یک صفحه وب جلوگیری می‌کند. مطابق نتایج بدست‌آمده، در مقایسه با سایر روش‌ها، روش پیشنهادی به طور میانگین بین 3 تا 11 درصد نسبت سایر مدل‌ها عملکرد بهتری دارد.

کلید واژه ها (نمایه ها):

#استخراج محتوای صفحات وب #خزش صفحات وب #حذف محتوای غیرمفید #پردازش متن #داده‌کاوی #شبکه عصبی عمیق #بلوک بندی صفحه وب

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:

پایان نامه های مرتبط (بر اساس کلیدواژه ها)

دانشگاه صنعتی شاهرود
Shahrood University of
Technology

دسترسی سریع

وبگاه‌ها