پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1404
پدیدآورندگان:
کسری خالقی [پدیدآور اصلی]، هدی مشایخی [استاد راهنما]، مریم خدابخش [استاد مشاور]
چکیده: چکیده خوشه‌بندی سنتی نیازمند پردازش کامل داده‌ها از ابتدا است و با ورود داده‌های جدید، کل مجموعه باید مجدد پردازش شود. این فرآیند برای داده‌های پیوسته مانند شبکه‌های اجتماعی ناکارآمد و پرهزینه است. خوشه‌بندی افزایشی با پردازش داده‌های جدید، بدون نیاز به پردازش مجدد کل داده‌ها، مصرف منابع را کاهش داده و امکان پردازش در زمان بلادرنگ را فراهم می‌کند. این روش برای کاربردهایی با داده‌های پیوسته یا مقیاس بزرگ مناسب است. بااین‌حال، محدودیت‌هایی مانند حساسیت به ترتیب ورود داده‌ها، کاهش دقت در صورت انتخاب نماینده‌های نامناسب و نیاز به تنظیم دقیق پارامترها دارد که اجرای موفق آن را به طراحی و تنظیمات دقیق وابسته می‌کند. با توجه به این چالش‌ها، روش پیشنهادی از ترکیب مدل تعبیه کلمات و مدل‌سازی موضوعی برای سنجش اهمیت کلمات استفاده کرده است. این ترکیب، علاوه بر توجه به معنای کلمات در متن، جایگاه و اهمیت آن‌ها را نیز در بخشی از جریان داده در نظر می‌گیرد. نتیجه این فرآیند، باعث ایجاد نماینده با کیفیت برای متن شده و نیاز به داده‌های گذشته را از بین می‌برد. روش پیشنهادی به روی مجموعه داده‌های فارسی و انگلیسی مورد ارزیابی قرار گرفته است. نتایج ارزیابی نشان می‌دهد که روش پیشنهادی در مقایسه با روش‌های موجود، بهبود قابل‌توجهی در معیارهای ارزیابی دارد. برای مجموعه داده فارسی Tasnim در معیارهای ارزیابی همگنی و کامل‌بودن و NMI به ترتیب 17%، 21%، 18% و برای مجموعه داده Fars news به ترتیب 15%، 26%، 12% بهبود داشته است. در مجموعه داده انگلیسی برای معیار همگنی، این روش نسبت به EStream در مجموعه داده‌های SO-T، News-Trends و Trends-T به ترتیب 1.3%، 2.4% و 3.4% بهتر عمل کرده و در مقایسه با MStream، بهبود آن به ترتیب 61.3%، 6.4% و 17.9% بوده است. در کامل بودن، روش پیشنهادی نسبت به EStream در مجموعه داده‌های SO-T، News-Trends و Trends-T به ترتیب 12.4%، 12.9% و 35.7% بهبود نشان داده و در مقایسه با MStream، به ترتیب 12.6%، 1.8% و 38.8% بهتر عمل کرده است. در NMI، روش پیشنهادی نسبت به EStream در مجموعه‌های SO-T، News-Trends و Trends-T به ترتیب 6.4%، 5.9% و 20.6% بهبود داشته و در مقایسه با MStream، بهبود آن به ترتیب 60.6%، 3.8% و 11.8% بوده است.
کلید واژه ها (نمایه ها):
#کلمات کلیدی: خوشه‌بندی افزایشی #خلاصه‌سازی متن #جریان داده #خوشه‌بندی جریان‌داده #مدل‌سازی معنایی #مدل‌سازی موضوعی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)