پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1393
پدیدآورندگان:
آرزو ارجمندزاده [پدیدآور اصلی]، مرتضی زاهدی[استاد راهنما]، مرضیه رحیمی[استاد مشاور]
چکیده: زبان فارسی شامل کلماتی است که از چند بخش تشکیل شدهاند و رسمالخط استاندارد این کلمات چندبخشی به اینصورت هستند که باید میان تمام اجزاء آن نیمفاصله باشد تا به صورت یک جزء واحد شناسایی شوند. پیروی از این رسمالخط استاندارد فارسی در خوانا بودن متن فارسی نقش بسزایی دارد و خواننده میتواند درک درستی از مفهوم متن داشته باشد. علاوه برآن، در پردازش زبان طبیعی و ازجمله ترجمه ماشینی، مشخصبودن محدوده کلمات در کارایی سیستم تاثیر بسزایی دارد.
در این پایاننامه روش آماری جدیدی طبق اصول ترجمه ماشینی آماری برای ویرایش متن فارسی ارائهشده است. در این روش با کمک ترجمه ماشینی آماری فاصله بین کلمات چندبخشی با نیمفاصله جایگزین شدهاند. اطلاعات زبانشناختی از پیکره موازی استخراج شده و سپس از این اطلاعات برای شناسایی و ویرایش کلمات چندبخشی استفاده شده است. در این روش برای آموزش به یک پیکره موازی با ساختار متن ویرایشنشده در یک سمت و متن ویرایششده در سمت دیگر نیاز است، که در این پایاننامه ایجاد شدهاست.
نتایج حاصل نشاندهنده کارایی روش در شناسایی صحیح بیشتر کلمات چندبخشی و اصلاح فاصله میان اجزاء کلمات چندبخشی با نیمفاصله است
کلید واژه ها (نمایه ها):
#کلمات چندبخشی فارسی #قوانین فاصلهگذاری متن فارسی #ترجمه ماشینی آماری #پیکره موازی فارسی #ترکیب کلمات چندبخشی فارسی دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: