پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1391
پدیدآورندگان:
ملیکا یعقوبی [پدیدآور اصلی]، حمید حسن پور[استاد راهنما]، مرتضی زاهدی[استاد مشاور]
چکیده: رشد روز افزون و گسترش چشمگیر تعداد وب سایت ها و حجم بالای داده های موجود در اینترنت، یکی از چالش هایی است که دهکده جهانی وب با وجود مزایای بیشمارش برای انسان به همراه آورده است. از طرف دیگر، امروزه نیاز و تمایل برای کسب دقیق و به موقع اطلاعات پیرامون حوادث جاری، به منزله برنامه ریزی جهت گذران زندگی، چه در سطح شخصی و چه در سطح سازمانی و سیاسی از اهمیت بسیار بالایی برخوردار است. سرعت بالای گسترش اخبار در اینترنت و عدم امکان کنترل آنها پس از انتشار، افزایش چشمگیر منابع خبری و حجم بالای اخبار منتشر شده در موضوعات و فیلدهای مختلف، امکان پیگیری مداوم اخبار به صورت دستی را غیر ممکن نموده است. این حجم بالا نه تنها در بدست آوردن اطلاعات مورد نیاز به کاربران کمک نمی کند، بلکه باعث سردرگمی و ابهام بیشتر آن ها نیز می گردد، تا آنجا که نیاز به سیستمی برای مدیریت و در نهایت متمایز ساختن اسناد خبری از یکدیگر و دسته بندی آن ها در گروه های متشابه در این بستر به چشم می خورد. در این پروژه برای رفع این معضل، از تلفیق روش های وب کاوی و دسته بندی داده های متنی برای مدیریت بهینه اسناد خبری بهره گرفته شده است. قسمتی از متن اسناد خبری در ابتدا به کمک یک خدمتگزار وب از سایت های خبری مورد تایید و مشخص برداشته شده و پس از آموزش سیستم، پیش پردازش های مورد نیاز بر روی اسناد قابل تست صورت گرفته، هر سند خبری به دسته های مربوطه و انتخابی کاربر ارجاع داده شده و نتیجه به صورت لیستی از اخبار دسته بندی شده نمایش داده می شود. از دو عامل پویایی اسناد خبری و ناهمگونی های موجود در زبان فارسی می توان به عنوان اساسی ترین چالش های موجود در روند کار نام برد. تا کنون بیشترین تمرکز در مبحث دسته بندی اسناد بر روی استفاده از معیارهای شباهت متفاوت و مقایسه عملکرد آنها بر روی ویژگی های انتخابی بوده است. همچنین در اکثر موارد از فرکانس تکرار لغات در متن و ارتباط آنها با مجموعه اسناد تحت آزمایش و در چند مورد نیز از تعداد اسناد درون گروهی به عنوان ویژگی انحصاری متن استفاده شده است. در حالی که در این پروژه، بیشترین تاکید بر روی آماده سازی و نرمال سازی داده های قابل پردازش، ادغام دیکشنری های کمکی به منزله افزایش اهمیت کلمات کلیدی در گروه ها و در نهایت توجه به فرکانس تکرار لغات هر سند -به صورت مستقل از دیگر اسناد- در گروه های مختلف صورت گرفته شده است. همچنین به منزله انتساب سند حد آستانه ای برای تعیین حداقل میزان شباهت در نظر گرفته شده ، که تعلق سند به بیش از یک گروه را ممکن می سازد. نتیجه بدست آمده حاکی از موفقیت روش پیشنهادی بر روی داده های خبری موجود در وب می باشد.
کلید واژه ها (نمایه ها):
#رشد روز افزون و گسترش چشمگیر تعداد وب سایت ها و حجم بالای داده های موجود در اینترنت #یکی از چالش هایی است که دهکده جهانی وب با وجود مزایای بیشمارش برای انسان به همراه آورده است. از طرف دیگر #امروزه نیاز و تمایل برای کسب دقیق و به موقع اطلاعات پیرامون حوادث جاری #به منزله برنامه ریزی جهت گذران زندگی #چه در سطح شخصی و چه در سطح سازمانی و سیاسی از اهمیت بسیار بالایی برخوردار است

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)