پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع دکتری > سال 1402
پدیدآورندگان:
محبوبه سلیمانیان [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده:
با پیشرفت گستردهِ ی تکنولوژی و افزایش وابستگی ها به برنامه های نرم افزاری، با حجم عظیمی از دادههای متنی روبرو هستیم که با سرعتی زیاد و بدون توقف توسط برنامههای مختلف در قالب متون الکترونیکی تولید میشوند. داده هایی که برای سازمان دهی مفید می بایست در تعدادی گروه معنادار قرار گیرند. خوشهبندی پویا روشی است که به تغییرات زمانی در دادهها واکنش نشان میدهد و از الزامات آن قابلیت تطبیق با تغییرات زمانی، تشخیص الگوهای جدید و بهروزرسانی خوشهها با گذشت زمان میباشد. استفاده از این روش با چالش هایی مانند مدیریت تغییرات زمانی در داده، بهروزرسانی خوشهها، شناسایی الگوهای جدید و حفظ کارایی و دقت خوشهبندی روبرو میباشد.
برای این منظور در این رساله، یک رویکرد خوشه بندی مفهومی جریان داده متنی پیشنهاد شده که به صورت پویا مفاهیم در حال تکامل را میآموزد تا با خلاصه سازی و حفظ ساختار آماری داده ها، تغییر مفهوم و تکامل را مدل نموده و منجر به تحلیل پویای متون گردد. در ادامه با توجه به ماهیت ذاتی متون که بر اساس آن کلمات می-توانند در بیش از یک مفهوم مورد استفاده قرار بگیرند، مدل سازی مفاهیم فازی به صورت افزایشی پیشنهاد گردیده است. این مدل می تواند در گذر زمان با توجه به ارزش و اهمیت مفاهیم با تحولات موجود تطبیق یافته و به طور پویا به تغییرات در دادهها و توزیع خوشهها واکنش نشان دهد. فرآیندهای پیشنهادی، با استفاده از یک ساختار دو مرحله ای برخط و برون خط، با کمک اطلاعات فشرده حاصل از هر مفهوم و عدم نیاز به تعیین تعداد خوشه ها ارائه گردیده اند تا بتوانیم بدون نیاز به خوشه بندی تمامی اسناد از ابتدای شروع فرآیند، به نمایش مبتنی بر مفهوم اسناد دست یابیم. در این رویکرد با توجه به ویژگی افزایشی جریان داده متنی استخراج تعبیه کلمات افزایشی مورد استفاده قرار گرفته است. روش پیشنهادی اول بر روی مجموعه دادگان متنی R52، 20N، T89 مورد آزمون قرار گرفت. نتایج حاکی از بهبود عملکرد در بررسی معیار NMI به میزان 29% و 2% در دو مجموعه داده اول در مقایسه های صورت گرفته با روش های اخیر مثل +FGSDMM و FPCA/packing می باشد. سپس روش پیشنهادی دوم بر روی مجموعه دادگان News-T و Tweet-T مورد آزمون قرار گرفت و بهبود عملکرد در بررسی معیار NMI به میزان 5% و 3% در مقایسه با روش های اخیر مثل DCSS، MStream و OSDM مشاهده گردید. در ادامه با آزمون روش پیشنهادی دوم بر مجموعه داده هایR52 و20N بهبود 5% و 31% در بررسی معیار NMI نسبت به استفاده از روش پیشنهادی اول حاصل گردید که حاکی از ارائه مدلی مناسب برای خوشه بندی افزایشی مبتنی بر مفهوم در جریان داده متنی است.
کلید واژه ها (نمایه ها):
#خوشهبندی متن #خوشهبندی پویا #خوشهبندی افزایشی #تعبیه کلمات #استخراج مفاهیم #نمایش مبتنی بر مفهوم #خوشه بندی فازی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: