پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1402
پدیدآورندگان:
نجمه غلامی [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده: با افزایش روزانه حجم داده‌های متنی، استفاده از مدل‌ها و روش‌های مناسب برای بهبود فرایند استخراج دانش اهمیت ویژهای در متن‌کاوی و پردازش زبان طبیعی پیدا کرده است. برچسبگذاری خوشه‏ها برای کشف ساختارهای معنایی پنهان کلمات و داده‌های متنی استفاده شده است. برچسب‌گذاری خودکار یک فرایند الگوریتمی، برای تولید/انتخاب عبارات، جملات، و یا کلماتی است که یک خوشه را به بهترین شکل توصیف کنند. درواقع وظیفه برچسب‌گذاری خودکار خوشه، تولید یک برچسب مختصر است که مفهوم یک خوشه را خلاصه ‌کند، هدف آن تولید برچسبی با مفهوم ساده و روان برای کاربران نهایی است. برچسب‌گذاری خودکار برای کاربرانی که هدفشان تجزیه‌وتحلیل و درک مجموعه‌های اسناد و همچنین برای موتورهای جستجو که هدف آن‌ها پیداکردن ارتباط بین گروه‌های کلمات و موضوعات است، مزایایی به همراه دارد. در حالی‌ که، تحقیق و پژوهش‏های صورت گرفته تا به امروز برچسب‏هایی تک سطحی برای خوشه‌ها ایجاد می‏کنند. که برچسب‏هایی با مفهوم کلی‏اند و جزئیات را پوشش نمی‏دهند. هدف این تحقیق به‌دست ‌آوردن برچسب‌های چندسطحی برای خوشه‌های متنی است که مفهوم کامل خوشه را به کاربر نشان دهد و در عین حال، برچسب‌های سطوح بالاتر کلیات و برچسب‌های سطوح پایین‌تر جزئیات خوشه را نمایش دهند. با توجه به این هدف، روشی پیشنهاد شده است که از چهار مرحلة، پیش‌پردازش متن، خوشه‌بندی اسناد، برچسب‌گذاری سطح یک، و برچسب‌گذاری سطح دوم تشکیل شده است. در این روش برای انتخاب برچسب از روشی مبتنی بر امتیاز استفاده شده است. این امتیاز برای مدل‌سازی ارتباط کلمات بر اساس ویژگی‌های آماری آن‌ها در داخل و خارج از خوشه‌ها طراحی شده است. درنهایت با استفاده از معیار ارزیابی WMRR 30 دریافت شد که روش برچسب‌گذاری خودکار پیشنهادی بهبود 0.089 نسبت به روشHLDA و بهبود 0.029 نسبت به روشLDA داشته است.
کلید واژه ها (نمایه ها):
#تحلیل متن #توضیح خوشه #برچسب‌گذاری چندسطحی #برچسب‌گذاری خوشه #خوشه‌بندی متن
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)