پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1401
پدیدآورندگان:
عاطفه محمدزاده مقدم_ Atefeh Mohammadzadeh Moghadam [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]
چکیده:
جریان داده یک توالی یا دنباله نامحدود و مرتب است که از منابع اطلاعاتی مختلف با سرعت زیاد و حجم بالا تولید می شوند. جریان داده ها از جنبه های مختلف با داده های ذخیره شده سنتی متفاوت هستند. در بیشتر موارد، بعضی برچسب های کلاس واقعی برای همه نمونه های جریان در دسترس نیستند و هیچ اطلاعات قبلی در مورد تعداد کلاس ها وجود ندارد. بنابراین، خوشه بندی نیمه نظارت شده یکی از روش های مناسب داده کاوی و تجزیه و تحلیل داده ها برای جریان داده ها است. امروزه مجموعه داده ها برای حافظه های اصلی بسیار بزرگ بوده و نیاز به ذخیره سازی در حافظه های جانبی دارند. بنابراین استفاده از روش های دسترسی تصادفی مطابق آنچه که در روش های سنتی داده کاوی به کار می رفت، بسیار هزینه بر است. الگوریتم های متداول داده کاوی نیاز به چندین گذر روی داده ها و دسترسی به داده های قدیمی دارند، که به دلیل محدودیت حافظه کارایی لازم را ندارند و از سوی دیگر، جهت پردازش حجم عظیم جریان های داده بسیار کند و غیرعملی هستند. در مطالعات روی فاز آنلاین، دو ساختار داده اصلی برای ذخیره اطلاعات خلاصه دادهها وجود دارد که شامل شبکه و ریزخوشه است که در روش ما از ساختار ریزخوشه استفاده شده است.
در روش پیشنهادی پایان نامه، یک الگوریتم بهبود یافته سریع برای خوشه بندی جریان داده ها ارائه شد که از ریزخوشههای آنلاین برای خلاصه کردن دادههای جریان به شکل فشرده استفاده می کند. ما از یک مدل یادگیری مبتنی بر ریزخوشههای آنلاین استفاده می کنیم که بهطور خودکار قابلیت اطمینان یا اهمیت این ریزخوشهها را در طول زمان از طریق یک روش خطا محور یاد میگیرد و بهطور پویا ریزخوشههایی را انتخاب میکند. علاوه بر این به پیش بینی داده های برچسب دار و بدون برچسب به صورت تصادفی پرداخته شد. از آنجایی که از مشکلات روش خوشهبندی k-mean به انتخاب نقاط اولیه وابسته است ما با استفاده از الگوریتمk-means++ به انتخاب نقاط اولیه مناسب پرداختیم. همچنین مدل یادگیری ما به تشخیص کلاس جدید، از مجموعه داده پرداخته است. به این صورت که مدل با تعیین و ورود داده های آموزش، یاد می گیرد و سپس با داده های تست آزمایش می شود. نتایج نشان می دهد که روش پیشنهادی نسبت به سایر روش ها کارایی بهتری داشته است.
کلید واژه ها (نمایه ها):
#جریان داده #خوشه بندی #داد ه های برچسب دار #ریزخوشه ها
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: