پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع دکتری > سال 1399
پدیدآورندگان:
محسن صادقی [پدیدآور اصلی]، حسین مروی[استاد راهنما]، علیرضا احمدی فرد[استاد مشاور]، Maaruf Ali [استاد مشاور]
چکیده: گفتار منبع اصلی برای ارتباط بین انسان ها به منظور نشان دادن ایده ها، احساس و تفکرشان به یکدیگر است. تکنولوژی بازشناسی گفتار این امکان را برای کامپیوتر فراهم کرده است که بتواند فرمان های گفتاری انسان را دریافت و آن ها را تفسیر کرده و واکنش مناسب را نشان دهد. به دلیل وجود نویز در محیط های واقعی با چالش عدم انطباق و شرایط نابرابر در دو حالت آزمون و آموزش شبکه برای کاربردهای واقعی مواجه هستیم. مقاومت در برابر نویز یک موضوع وسیع در تحقیقات سیستم های ASR می باشد که چندین دهه قدمت تحقیق و پژوهش دارد و پژوهشگران زیادی در این زمینه فعالیت نموده اند.
در این رساله، ابتدا به منظور بررسی مقاومت فورمنت های فریم های واکدار گفتار در محیط های نویزی با منابع مختلف، میزان جابه جایی فورمنت های فریم های واکدار نویزی نسبت به فریم های واکدار تمیز، اندازه گیری شده است. نشان داده شد که نویز سفید در تمامی سطوح سیگنال به نویز بررسی شده دارای بیشترین تاثیر روی فورمنت های واکدار سیگنال گفتار است. در ادامه الگوریتمی به منظور استخراج ویژگی مقاوم برای بازشناسی گفتار ارائه گردید. این ساختار پیشنهادی مبتنی بر تبدیل فوریه ی کسری و تابع ریشه است و FrRC نام گذاری شد. برای ارزیابی تئوری این روش پیشنهادی، یک رابطه ی ریاضی بین ویژگی های FrRC گفتار بدون نویز، نویز و گفتار نویزی بدست آورده شد و این رابطه با رابطه ی ریاضی مربوط به روش استخراج ویژگی MFCC در حالات مختلف مقایسه گردید. نتایج پیاده سازی سیستم بازشناسی گفتار مبتنی بر روش استخراج ویژگی FrRC حاکی از افزایش صحت بازشناسی نسبت به سایر روش های متداول استخراج ویژگی است. افزایش 24/6 و 25/3 درصدی صحت بازشناسی به ترتیب در مقایسه با روش های LPC و MFCC در محیط نویزی با نویز Babble با سطح سیگنال به نویز 10-دسیبل گواه این ادعاست.
به منظور افزایش صحت بازشناسی گفتار در محیط های نویزی، الگوریتم دیگری که مبتنی بر تبدیل فوریه ی کسری و روش PNCC است، با نام AFPNCC معرفی، تحلیل و سپس پیاده سازی گردید. در الگوریتم پیشنهادی AFPNCC، براساس نوع و شدت نویز، ضریب آلفا تبدیل فوریه ی کسری موجود در الگوریتم، توسط بهینه ساز تکامل تفاضلی که در بدنه ساختار الگوریتم پیشنهادی قرار دارد، استخراج می شود. نتایج پیاده سازی این الگوریتم بهبود صحت بازشناسی گفتار هم در محیط نویزی و هم بدون نویز را نشان می دهد. نتایج عددی حاصل از شبیه سازی سیستم بازشناس گفتار مبتنی بر الگوریتم استخراج ویژگی AFPNCC نیز نشان دهنده ی افزایش 16 درصدی صحت بازشناسی نسبت به الگوریتم PNCC در محیط نویزی با نویز Pink و سطح سیگنال به نویز 5- دسیبل است.
کلید واژه ها (نمایه ها):
#بازشناسی مقاوم گفتار #استخراج ویژگی مقاوم #ویژگی های کپسترال #تبدیل فوریه کسری #بهینه ساز تکامل تفاضلی
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: