Skip navigation

Q45 : دسته بندی اسناد وب با استفاده از گراف نمایه سازی اسناد
پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1392
پدیدآورندگان:
نرجس رمضانی اومالی [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، حمید حسن پور[استاد مشاور]
چکیده: با رشد روزافزون اطلاعات در وب، اغلب پروژه های تحقیقاتی در این حوزه با هدف سازماندهی اطلاعات شکل می گیرند، به گونه ای که کاربر نهایی بتواند راحت تر و با سرعت بیشتر به اطلاعاتی با دقت بالا و کارایی بهینه دست یابد. دسته بندی اسناد ابزاری مهم در بسیاری از امور مربوط به بازیابی اطلاعات است. اغلب تکنیک های خوشه بندی اسناد مانند مدل فضای برداری برپایه ی تحلیل کلمات منفرد، در مجموعه داده موجود در سند هستند. کلمات منفرد به تنهایی فاقد اطلاعات کافی بوده و باعث بروز خطا در دسته بندی می شود. جهت دستیابی به خوشه بندی دقیق تر استفاده از ویژگی هایی حاوی اطلاعات بیشتر مانند عبارات و وزن آن عبارات در اسناد می تواند بسیار مفید باشد. روش های دیگری چون درخت پسوندی اگرچه از عبارات جهت دسته بندی استفاده می کنند ولی با افزایش تعداد اسناد به دلیل افزونگی بالا فاقد کارایی لازم هستند. در این میان مدل جدید نمایه سازی سند براساس عبارت با عنوان Document Index Graph یک روش دسته بندی مبتنی بر گراف است که در سال 2004 مطرح شده است. این مدل به دلیل استفاده از عبارات نسبت به مدل های مبتنی بر کلمات منفرد بسیار کاراتر است. در این روش به صورت موثر انطباق عبارات جهت بررسی شباهت بین اسناد انجام می شود. این مدل به دلیل استفاده از ساختار گراف فاقد افزونگی بوده و در دسته بندی از هر تعداد سند پشتیبانی می کند. همچنین به دلیل ساختار افزایشی الگوریتم دسته بندی، قابلیت به کارگیری به صورت آنلاین در وب را نیز دارد. استفاده از این مدل، نتایج دسته بندی اسناد وب را در مقایسه با روش های سنتی تاحد چشم گیری بهبود می بخشد. این پایان نامه به بررسی روش های مختلف دسته بندی اسناد و نقاط قوت و ضعف هرکدام پرداخته و با تمرکز بر روش دسته بندی مبتنی بر گراف به بررسی این روش و مزایای آن نسبت به روش های قبلی می پردازد، در ادامه با توجه به این که این سیستم قابلیت استفاده در موتور جستجو را جهت دسته بندی اسناد بازیابی شده دارد، با نگاهی دیگر از زاویه موتور جستجو به بررسی عملکرد این سیستم پرداخته و سعی در بهبود کارایی این سیستم در قالب موتور جستجو داریم. اسناد بازیابی شده توسط موتور جستجو غالباً براساس میزان بازدید کاربران در لیست نتایج مرتب شده و در اختیار کاربر قرار می گیرند، با به کارگیری سیستم معرفی شده و اضافه کردن وزن هایی به نودها و یال های گراف می توان وزن عبارت مورد جستجو را در اسناد مختلف محاسبه و آن ها را براساس وزن عبارت مورد جستجو مرتب کرد، این کار سبب می شود کاربر با دقت و سرعت بیشتر به اطلاعات مورد نظر خود دست یابد. برای اضافه کردن وزن با اصلاح ساختار گراف به ازای هر سند وزن نودها را با شمارش و وزن یال ها را با استفاده از یک شبکه عصبی پرسپترون محاسبه کرده و عملکرد سیستم را به عنوان بخشی از یک موتور جستجو بهبود می دهیم.
کلید واژه ها (نمایه ها):
#دسته بندی اسناد #نمایه سازی مبتنی بر عبارت #گراف نمایه سازی اسناد #گراف فازی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: 113
پایان نامه های مرتبط (بر اساس کلیدواژه ها)