پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1391
پدیدآورندگان:
عاطفه دهقانیان [پدیدآور اصلی]، حسین مروی[استاد راهنما]، سید علی سلیمانی ایوری[استاد مشاور]
چکیده: تخمین سن بر اساس ویژگی های گفتار انسان، یک موضوع قابل توجه در سیستم های شناسایی گفتار اتوماتیک می باشد. مطالعاتی در زمینه ی تخمین سن گوینده صورت گرفته است ولی نیاز به کار های نوین بیشتری، خصوصا برای گوینده های فارسی زبان، می باشد. در تخمین سن، مانند سایر سیستم های پردازش گفتار، با دو چالش مهم مواجه هستیم: یافتن یک روش مناسب برای استخراج ویژگی و انتخاب یک روش قابل اطمینان برای کلاسه بندی.
هدف اصلی از این تحقیق استفاده از ویژگی Root Mel Ferequency Cepstral Coefficients جهت بخش استخراج ویژگی در یک سیستم تخمین سن و یافتن بهترین مقدار برای داشتن درصد خطای کمتر می باشد؛ و همچنین مقایسه ی عملکرد این ویژگی با سایر ویژگی های متداول نظیر MFCC معمول، PLP و LPC نیز مورد بررسی قرار گرفته است .
برای استخراج ویژگی، کل سیگنال صوت را به کوچک ترین جزء آن، یعنی واج ها، تفکیک می کنیم و عملیات استخراج ویژگی و رده بندی را بر سیگنال مربوط به واج ها انجام می دهیم.
از کلاسه بند به روش های تفکیک پذیری خطی و فواصل Mahalanobis استفاده شده است.
نتیجه آزمایشات انجام شده بر پایگاه داده ی FARSDAT به خطای کمترین 28.69 % بازای ریشه ی 0.006 در استفاده از روش RootMFCC و تاثیر مثبت تفکیک سیگنال صوتی به واج های تشکیل دهنده ی آن، در کاهش خطا می باشد.
کلید واژه ها (نمایه ها):
#تخمین سن #گفتار #واج #استخراج ویژگی RootMel #FARSDAT دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: