پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1404
پدیدآورندگان:
کسری خالقی [پدیدآور اصلی]، هدی مشایخی [استاد راهنما]، مریم خدابخش [استاد مشاور]
چکیده: چکیده
خوشهبندی سنتی نیازمند پردازش کامل دادهها از ابتدا است و با ورود دادههای جدید، کل مجموعه باید مجدد پردازش شود. این فرآیند برای دادههای پیوسته مانند شبکههای اجتماعی ناکارآمد و پرهزینه است. خوشهبندی افزایشی با پردازش دادههای جدید، بدون نیاز به پردازش مجدد کل دادهها، مصرف منابع را کاهش داده و امکان پردازش در زمان بلادرنگ را فراهم میکند. این روش برای کاربردهایی با دادههای پیوسته یا مقیاس بزرگ مناسب است. بااینحال، محدودیتهایی مانند حساسیت به ترتیب ورود دادهها، کاهش دقت در صورت انتخاب نمایندههای نامناسب و نیاز به تنظیم دقیق پارامترها دارد که اجرای موفق آن را به طراحی و تنظیمات دقیق وابسته میکند. با توجه به این چالشها، روش پیشنهادی از ترکیب مدل تعبیه کلمات و مدلسازی موضوعی برای سنجش اهمیت کلمات استفاده کرده است. این ترکیب، علاوه بر توجه به معنای کلمات در متن، جایگاه و اهمیت آنها را نیز در بخشی از جریان داده در نظر میگیرد. نتیجه این فرآیند، باعث ایجاد نماینده با کیفیت برای متن شده و نیاز به دادههای گذشته را از بین میبرد. روش پیشنهادی به روی مجموعه دادههای فارسی و انگلیسی مورد ارزیابی قرار گرفته است. نتایج ارزیابی نشان میدهد که روش پیشنهادی در مقایسه با روشهای موجود، بهبود قابلتوجهی در معیارهای ارزیابی دارد. برای مجموعه داده فارسی Tasnim در معیارهای ارزیابی همگنی و کاملبودن و NMI به ترتیب 17%، 21%، 18% و برای مجموعه داده Fars news به ترتیب 15%، 26%، 12% بهبود داشته است. در مجموعه داده انگلیسی برای معیار همگنی، این روش نسبت به EStream در مجموعه دادههای SO-T، News-Trends و Trends-T به ترتیب 1.3%، 2.4% و 3.4% بهتر عمل کرده و در مقایسه با MStream، بهبود آن به ترتیب 61.3%، 6.4% و 17.9% بوده است. در کامل بودن، روش پیشنهادی نسبت به EStream در مجموعه دادههای SO-T، News-Trends و Trends-T به ترتیب 12.4%، 12.9% و 35.7% بهبود نشان داده و در مقایسه با MStream، به ترتیب 12.6%، 1.8% و 38.8% بهتر عمل کرده است. در NMI، روش پیشنهادی نسبت به EStream در مجموعههای SO-T، News-Trends و Trends-T به ترتیب 6.4%، 5.9% و 20.6% بهبود داشته و در مقایسه با MStream، بهبود آن به ترتیب 60.6%، 3.8% و 11.8% بوده است.
کلید واژه ها (نمایه ها):
#کلمات کلیدی: خوشهبندی افزایشی #خلاصهسازی متن #جریان داده #خوشهبندی جریانداده #مدلسازی معنایی #مدلسازی موضوعی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: