پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1394
پدیدآورندگان:
محبوبه سلیمانیان [پدیدآور اصلی]، علی اکبر پویان[استاد راهنما]، هدی مشایخی[استاد مشاور]
چکیده: رشد روز افزون اطلاعات دیجیتالی در سال های اخیر، موجب افزایش توجهات به فشرده سازی متون شده است. اطلاعاتی از نوع متن که همه روزه شاهد ارسال و دریافت آن هستیم. نیاز به کاهش میزان داده ها و صرفه جویی در فضای ذخیره سازی، فشرده سازی را به امری مهم تبدیل نموده است. با افزایش روز افزون متون غیرانگلیسی و غیرلاتین، نیاز به رشد الگوریتم های فشرده سازی در زبان های دیگر نیز احساس می شود. این پایان نامه تلاشی در راستای ارائه تکنیکی جهت فشرده سازی متون فارسی است. در این پژوهش هدف استفاده از قواعد و تکنیک های مدلسازی زبان می باشد. قواعدی که در الگوریتم های فشرده سازی معروف و پرکاربردی مانند زیپ مورد توجه قرار نگرفته است. در این تکنیک ما با استفاده از مدل آماری N-gram، احتمال قرار گرفتن دنباله ای از کلمات و کاراکترهای زبان را، بعد از دیگری با در نظر گرفتن پارامترهای تعداد تکرار و طول عبارت بررسی می کنیم. جهت ارزیابی و انتخاب مدلی با میزان کارایی بیشتر از معیار سرگشتگی که مستقل از سیستم و متناسب با احتمال های نسبت داده شده به عبارات (دنباله ای از کلمات و کاراکترها) می باشد، استفاده شده است. نتایج بدست آمده میزان فشرده سازی 82% متن ورودی را با استفاده از الگوریتم پیشنهادی و در نظر گرفتن اطلاعات زبانی، در فایل فشرده بدست آمده از الگوریتم فشرده سازی زیپ نشان می دهد. در فصل های آتی مراحل مختلف تحلیل بر اساس مدل زبانی، مراحل ارزیابی و نتایج بدست آمده تشریح خواهد شد.
کلید واژه ها (نمایه ها):
#فشرده سازی #کدینگ اطلاعات #متون فارسی #مدل زبانی

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)