پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1398
پدیدآورندگان:
میترا جهانیان [پدیدآور اصلی]، حسین مروی[استاد راهنما]، سید مسعود میررضایی[استاد مشاور]
چکیده: امروزه در دنیای ارتباطات پردازش داده با سرعت و دقت بالا از اهمیت بسزایی برخوردار است. پردازش دادگان گفتاری نیز به دلیل کاربرد وسیع در تمامی جهات زندگی بشر سهم بسزایی را ایفا میکند. نمایه سازی گوینده یعنی تشخیص دهیم چه کسی چه زمانی صحبت میکند. هدفِ طراحی سیستمهای نمایه سازی گوینده این است که تغییر در گوینده در فایل صوتی تشخیص داده شود و گفتار هر گوینده بهدرستی برچسبگذاری و دستهبندی شود. این فرآیند امروزه بانام Speaker Diarization شناختهشده است. در این پایاننامه، سیستمی طراحی کردیم که با استفاده از ویژگیهای آکوستیکی MFCC و مشتقات مرتبه اول و دوم آن به همراه ویژگیهای انرژی و نرخ عبور از صفر ویژگیهای گفتار و غیر گفتار را استخراج کند سپس با استفاده از فریمهای قطعاً سکوت و قطعاً آهنگ به مدلسازی این دو میپردازد و در یک فرایند دوبخشی شامل حذف سکوت و حذف آهنگ به جداسازی گفتار از غیر گفتار و آهنگ موجود در فایل صوتی میپردازد. در ادامه با استفاده از بردارهای i در فضای برداریِ ویژگیها به کاهش بُعد میپردازیم. در ادامه برای تشخیص تغییر در گوینده معیار فاصله را بهکاربرده و با خوشهبندی توسط برنامهریزی خطی عدد صحیح ( ILP) گفتار هر گوینده را جدا و برچسبگذاری و خوشهبندی میکنیم. به بهینهسازی پارامترها پرداختیم. پایگاه دادهی مورداستفاده AMI corpus میباشد. نتایج خوبی در خطای بازشناسی گوینده (DER) گزارش داده شد.
کلید واژه ها (نمایه ها):
#نمایه سازی گوینده #پردازش گفتار #برنامه عدد صحیح خطی #بردارهای i دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: