پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1393
پدیدآورندگان:
آرزو ارجمندزاده [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده: زبان فارسی شامل کلماتی است که از چند بخش تشکیل شده‌اند و رسم‌الخط استاندارد این کلمات چندبخشی به این‌صورت هستند که باید میان تمام اجزاء آن نیم‌فاصله باشد تا به صورت یک جزء واحد شناسایی شوند. پیروی از این رسم‌الخط استاندارد فارسی در خوانا بودن متن فارسی نقش بسزایی دارد و خواننده می‌تواند درک درستی از مفهوم متن داشته باشد. علاوه برآن، در پردازش زبان طبیعی و ازجمله ترجمه ماشینی، مشخص‌بودن محدوده کلمات در کارایی سیستم تاثیر بسزایی دارد. در این پایان‌نامه روش آماری جدیدی طبق اصول ترجمه ماشینی آماری برای ویرایش متن فارسی ارائه‌شده است. در این روش با کمک ترجمه ماشینی آماری فاصله بین کلمات چندبخشی با نیم‌فاصله جایگزین شده‌اند. اطلاعات زبان‌شناختی از پیکره موازی استخراج شده و سپس از این اطلاعات برای شناسایی و ویرایش کلمات چندبخشی استفاده شده است. در این روش برای آموزش به یک پیکره موازی با ساختار متن ویرایش‌نشده در یک سمت و متن ویرایش‌شده در سمت دیگر نیاز است، که در این پایان‌نامه ایجاد شده‌است. نتایج حاصل نشان‌دهنده کارایی روش در شناسایی صحیح بیشتر کلمات چندبخشی و اصلاح فاصله میان اجزاء کلمات چندبخشی با نیم‌فاصله است
کلید واژه ها (نمایه ها):
#کلمات چندبخشی فارسی #قوانین فاصله‌گذاری متن فارسی #ترجمه ماشینی آماری #پیکره موازی فارسی #ترکیب کلمات چندبخشی فارسی

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)