پایانامه های دانشگاه صنعتی شاهرود

TK408: استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1392

پدیدآورندگان:

نسرین یادگار خسرویه [پدیدآور اصلی]، حسین مروی[استاد راهنما]، علیرضا احمدی فرد[استاد مشاور]

چکیده: در این پایان نامه روشی برای شناسایی مصوت های فارسی در کلمات تک سیلابی ارائه می شود. برای این منظور پس از جداسازی فریم های تصویر و انتخاب فریم هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه ای پیرامون لب ها، ویژگی های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی ها را کاهش داده و سایز ویژگی ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگی های استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 1/4 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

کلید واژه ها (نمایه ها):

#لب خوانی #شناسایی مصوت #ویژگی های زمانی- فرکانسی #کاهش ابعاد ویژگی #شبکه های عصبی

دانلود نسخه تمام متن (رایگان)

محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:

دانشگاه صنعتی شاهرود
Shahrood University of
Technology

دسترسی سریع

وبگاه‌ها