پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق و رباتیک > مقطع کارشناسی ارشد > سال 1398
پدیدآورندگان:
میترا جهانیان [پدیدآور اصلی]، حسین مروی[استاد راهنما]، سید مسعود میررضایی[استاد مشاور]
چکیده: امروزه در دنیای ارتباطات پردازش داده با سرعت و دقت بالا از اهمیت بسزایی برخوردار است. پردازش دادگان گفتاری نیز به دلیل کاربرد وسیع در تمامی جهات زندگی بشر سهم بسزایی را ایفا می‌کند. نمایه سازی گوینده یعنی تشخیص دهیم چه کسی چه زمانی صحبت می‌کند. هدفِ طراحی سیستم‌های نمایه سازی گوینده این است که تغییر در گوینده در فایل صوتی تشخیص داده شود و گفتار هر گوینده به‌درستی برچسب‌گذاری و دسته‌بندی شود. این فرآیند امروزه بانام Speaker Diarization شناخته‌شده است. در این پایان‌نامه، سیستمی طراحی کردیم که با استفاده از ویژگی‌های آکوستیکی MFCC و مشتقات مرتبه اول و دوم آن به همراه ویژگی‌های انرژی و نرخ عبور از صفر ویژگی‌های گفتار و غیر گفتار را استخراج کند سپس با استفاده از فریم‌های قطعاً سکوت و قطعاً آهنگ به مدل‌سازی این دو می‌پردازد و در یک فرایند دوبخشی شامل حذف سکوت و حذف آهنگ به جداسازی گفتار از غیر گفتار و آهنگ موجود در فایل صوتی می‌پردازد. در ادامه با استفاده از بردارهای i در فضای برداریِ ویژگی‌ها به کاهش بُعد می‌پردازیم. در ادامه برای تشخیص تغییر در گوینده معیار فاصله را به‌کاربرده و با خوشه‌بندی توسط برنامه‌ریزی خطی عدد صحیح ( ILP) گفتار هر گوینده را جدا و برچسب‌گذاری و خوشه‌بندی می‌کنیم. به بهینه‌سازی پارامترها پرداختیم. پایگاه داده‌ی مورداستفاده AMI corpus می‌باشد. نتایج خوبی در خطای بازشناسی گوینده (DER) گزارش داده شد.
کلید واژه ها (نمایه ها):
#نمایه سازی گوینده #پردازش گفتار #برنامه عدد صحیح خطی #بردارهای i
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)