پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1400
پدیدآورندگان:
سید مجتبی سجادی [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، حمید حسن پور[استاد مشاور]
چکیده: خوشه بندی متن، در کاربرد های متنوعی از تحلیل متن مورد استفاده قرار می گیرد. در عملیات خوشه-بندی، روشی که برای بازنمایی متن استفاده می شود، تاثیر بسزایی در نتایج خواهد داشت. برخی روش-های متداول بازنمایی اسناد مبتنی بر کیسه ی کلمات، به تعداد تکرار لغات وابسته می باشند و بردارهای سندی با طول زیاد و تُنُک تولید می کنند. علاوه بر این، روش های مبتنی بر تعبیه کلمات و شبکه ی عصبی، مانند Doc2Vec از تفسیرپذیری پایین رنج می برند که با روی کار آمدن روش های مبتنی بر مفهوم، این نواقص تا حد زیادی برطرف شده است. با این وجود روش های موجود خوشه بندی نیمه نظارتی اسناد، از نمایش مفهومی اسناد استفاده نمی کنند. در این تحقیق، یک روش خوشه بندی نیمه نظارتی مبتنی بر مفهوم ارائه می گردد که از هر دو نوع داده ی برچسب دار و بدون بر چسب به منظور ایجاد خوشه-بندی با کیفیت تر استفاده می کند. اسناد بر اساس مفاهیمِ استخراج شده از مجموعه کلمات تعبیه شده نمایش داده می شوند. این نحوه ی بازنمایی، علاوه بر حفظ اطلاعات مجاورتی اسناد، از تفسیرپذیری بالایی نیز برخوردار است. سپس فرآیند خوشه بندی نیمه نظارتی، ساختار کلی خوشه ها را با استفاده از داده های بدون برچسب و جایگاه دقیق مراکز خوشه را با بهره گیری از داده های برچسبدار تعیین می کند. ما همچنین نظریه ی مفاهیم نیمه نظارتی و روش جدید خوشه بندی اسناد را بر اساس وزن چنین مفاهیمی پیشنهاد می دهیم. نتایج این روش از طریق خوشه بندی نیمه نظارتی اسناد مورد ارزیابی قرار گرفته است. آزمایشات بر روی دو مجموعه دادگان متنی رویترز و 20-NewsGroup نشان می دهد که روش پیشنهادی در جنبه ی کیفیت خوشه بندی حداقل 10 درصد و در دقت طبقه بندی متن، حداقل پنج درصد در مقایسه با سایر روش های موجود بهتر عمل می کند.
کلید واژه ها (نمایه ها):
#خوشه بندی نیمه نظارتی #خوشه بندی اسناد #تعبیه کلمات #نمایش مبتنی بر مفهوم #داده ی برچسب دار #طبقه بندی متن
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: