پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1399
پدیدآورندگان:
فائزه اصدقی [پدیدآور اصلی]، سید علی سلیمانی ایوری[استاد راهنما]
چکیده: موتورهای جستجو بعنوان ابزاری برای دستیابی کارآمد به اطلاعات موجود در وب، نقش انکارناپذیری در دنیای امروز دارند. حضور در میان نتایج موتورهای جستجو و بالاخص حضور در میان چند نتیجه اول از مهمترین اهدافی است که اغلب مدیران وب برای صفحاتشان در نظر میگیرند. در این میان "وبهرز"ها با هدف فریب موتورهای جستجو و افزایش غیرواقعی رتبه وبسایتها توسعه یافتهاند. روشهای مختلفی برای تشخیص "وبهرز"ها ارائه شدهاند، اما تغییر مداوم و روزآمد شدن تکنیکهای فریب الگوریتمهای رتبهبندی، از مهمترین چالشهای پیش روی این روشها به شمار میروند. از طرف دیگر نامتوازن بودن دادهها و کم بودن تعداد صفحات هرز نسبت به صفحات غیرهرز نیز کار پایش و تشخیص خودکار "وبهرز"ها را دشوار میسازد.
در این رساله ضمن ارائه و معرفی ویژگیهایی با قابلیت جعلپذیری پایینتر، مدلی جهت تشخیص کارآمد "وبهرز"ها پیشنهاد شدهاست. در این مدل ابتدا به منظور کاهش ابعاد داده و افزایش سرعت تشخیص، الگوریتم انتخاب ویژگی به نام Smart-BT توسعه یافته و برای مجموعه دادههای نامتوازن خاص منظوره شدهاست. سپس تعدادی ویژگی جدید جهت افزایش نرخ تشخیص وبهرز شامل تعیین میزان پیوستگی با استفاده از نرخ حضور ضمایر اشاره در متن قابل رویت صفحه، نحوه توزیع موضوعات در صفحه، میانگین نرخ پیوستگی نویسههای الفبایی در توکنهای مسیر و نرخ استفاده از برخی برچسبهای HTML مثل iftame، div، lixnk و a معرفی شدهاند. در نهایت با استفاده از مفهوم یابندهها و سلولهای حافظه در سیستم ایمنی مصنوعی، روشی برای تشخیص صفحات هرز ارائه شدهاست. نتایج حاصل از مدل پیشنهادی در تشخیص صفحات وبهرز بر روی مجموعه داده WEBSPAM-UK، نشاندهنده دقت بالانس شده به میزان 87/0 با استفاده از 48 ویژگی است که نسبت به بهترین نتیجه گزارش شده تا کنون 16% افزایش دقت و 65% کاهش تعداد ویژگی داشته است.
کلید واژه ها (نمایه ها):
#موتور جستجو #وبهرز #ویژگی مبتنی بر پیوند #ویژگی مبتنی بر محتوا #انتخاب ویژگی #انسجام متنی #مدلسازی موضوعی #سیستم ایمنی مصنوعی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: