پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1402
پدیدآورندگان:
نجمه غلامی [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده:
با افزایش روزانه حجم دادههای متنی، استفاده از مدلها و روشهای مناسب برای بهبود فرایند استخراج دانش اهمیت ویژهای در متنکاوی و پردازش زبان طبیعی پیدا کرده است. برچسبگذاری خوشهها برای کشف ساختارهای معنایی پنهان کلمات و دادههای متنی استفاده شده است. برچسبگذاری خودکار یک فرایند الگوریتمی، برای تولید/انتخاب عبارات، جملات، و یا کلماتی است که یک خوشه را به بهترین شکل توصیف کنند. درواقع وظیفه برچسبگذاری خودکار خوشه، تولید یک برچسب مختصر است که مفهوم یک خوشه را خلاصه کند، هدف آن تولید برچسبی با مفهوم ساده و روان برای کاربران نهایی است. برچسبگذاری خودکار برای کاربرانی که هدفشان تجزیهوتحلیل و درک مجموعههای اسناد و همچنین برای موتورهای جستجو که هدف آنها پیداکردن ارتباط بین گروههای کلمات و موضوعات است، مزایایی به همراه دارد. در حالی که، تحقیق و پژوهشهای صورت گرفته تا به امروز برچسبهایی تک سطحی برای خوشهها ایجاد میکنند. که برچسبهایی با مفهوم کلیاند و جزئیات را پوشش نمیدهند. هدف این تحقیق بهدست آوردن برچسبهای چندسطحی برای خوشههای متنی است که مفهوم کامل خوشه را به کاربر نشان دهد و در عین حال، برچسبهای سطوح بالاتر کلیات و برچسبهای سطوح پایینتر جزئیات خوشه را نمایش دهند. با توجه به این هدف، روشی پیشنهاد شده است که از چهار مرحلة، پیشپردازش متن، خوشهبندی اسناد، برچسبگذاری سطح یک، و برچسبگذاری سطح دوم تشکیل شده است. در این روش برای انتخاب برچسب از روشی مبتنی بر امتیاز استفاده شده است. این امتیاز برای مدلسازی ارتباط کلمات بر اساس ویژگیهای آماری آنها در داخل و خارج از خوشهها طراحی شده است. درنهایت با استفاده از معیار ارزیابی WMRR 30 دریافت شد که روش برچسبگذاری خودکار پیشنهادی بهبود 0.089 نسبت به روشHLDA و بهبود 0.029 نسبت به روشLDA داشته است.
کلید واژه ها (نمایه ها):
#تحلیل متن #توضیح خوشه #برچسبگذاری چندسطحی #برچسبگذاری خوشه #خوشهبندی متن
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: