پایانامه های دانشگاه صنعتی شاهرود

Q247: خوشه‌بندی پویای متون با استفاده از تعبیه کلمات

پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1402

پدیدآورندگان:

محبوبه سلیمانیان‌ [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]

چکیده: با پیشرفت گستردهِ ی تکنولوژی و افزایش وابستگی ها به برنامه های نرم افزاری، با حجم عظیمی از داده‌های متنی روبرو هستیم که با سرعتی زیاد و بدون توقف توسط برنامه‌های مختلف در قالب متون الکترونیکی تولید می‌شوند. داده هایی که برای سازمان دهی مفید می بایست در تعدادی گروه معنادار قرار گیرند. خوشه‌بندی پویا روشی است که به تغییرات زمانی در داده‌ها واکنش نشان می‌دهد و از الزامات آن قابلیت تطبیق با تغییرات زمانی، تشخیص الگوهای جدید و به‌روزرسانی خوشه‌ها با گذشت زمان می‌باشد. استفاده از این روش با چالش هایی مانند مدیریت تغییرات زمانی در داده، به‌روزرسانی خوشه‌ها، شناسایی الگوهای جدید و حفظ کارایی و دقت خوشه‌بندی روبرو می‌باشد. برای این منظور در این رساله، یک رویکرد خوشه بندی مفهومی جریان داده متنی پیشنهاد شده که به صورت پویا مفاهیم در حال تکامل را می‌آموزد تا با خلاصه سازی و حفظ ساختار آماری داده ها، تغییر مفهوم و تکامل را مدل نموده و منجر به تحلیل پویای متون گردد. در ادامه با توجه به ماهیت ذاتی متون که بر اساس آن کلمات می-توانند در بیش از یک مفهوم مورد استفاده قرار بگیرند، مدل سازی مفاهیم فازی به صورت افزایشی پیشنهاد گردیده است. این مدل می تواند در گذر زمان با توجه به ارزش و اهمیت مفاهیم با تحولات موجود تطبیق یافته و به طور پویا به تغییرات در داده‌ها و توزیع خوشه‌ها واکنش نشان دهد. فرآیندهای پیشنهادی، با استفاده از یک ساختار دو مرحله ای برخط و برون خط، با کمک اطلاعات فشرده حاصل از هر مفهوم و عدم نیاز به تعیین تعداد خوشه ها ارائه گردیده اند تا بتوانیم بدون نیاز به خوشه بندی تمامی اسناد از ابتدای شروع فرآیند، به نمایش مبتنی بر مفهوم اسناد دست یابیم. در این رویکرد با توجه به ویژگی افزایشی جریان داده متنی استخراج تعبیه کلمات افزایشی مورد استفاده قرار گرفته است. روش‌ پیشنهادی اول بر روی مجموعه دادگان متنی R52، 20N، T89 مورد آزمون قرار گرفت. نتایج حاکی از بهبود عملکرد در بررسی معیار NMI به میزان 29% و 2% در دو مجموعه داده اول در مقایسه های صورت گرفته با روش های اخیر مثل +FGSDMM و FPCA/packing می باشد. سپس روش‌ پیشنهادی دوم بر روی مجموعه دادگان News-T و Tweet-T مورد آزمون قرار گرفت و بهبود عملکرد در بررسی معیار NMI به میزان 5% و 3% در مقایسه با روش های اخیر مثل DCSS، MStream و OSDM مشاهده گردید. در ادامه با آزمون روش پیشنهادی دوم بر مجموعه داده هایR52 و20N بهبود 5% و 31% در بررسی معیار NMI نسبت به استفاده از روش پیشنهادی اول حاصل گردید که حاکی از ارائه مدلی مناسب برای خوشه بندی افزایشی مبتنی بر مفهوم در جریان داده متنی است.

کلید واژه ها (نمایه ها):

#خوشه‌بندی متن #خوشه‌بندی پویا #خوشه‌بندی افزایشی #تعبیه کلمات #استخراج مفاهیم #نمایش مبتنی بر مفهوم #خوشه بندی فازی

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:

پایان نامه های مرتبط (بر اساس کلیدواژه ها)

دانشگاه صنعتی شاهرود
Shahrood University of
Technology

دسترسی سریع

وبگاه‌ها