پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع دکتری > سال 1402
پدیدآورندگان:
آرش شیلاندری [پدیدآور اصلی]، حسین مروی[استاد راهنما]، حسین خسروی[استاد مشاور]
چکیده: تشخیص احساسات از گفتار، برای درک دقیق معانی جملات و همچنین ایجاد واکنش مناسب به گوینده، از سوی ماشین امری ضروری است. هنگامی‌که داده‌های آموزشی در پایگاه‌داده متنوع نیستند و تعداد و تنوع آن‌ها در هر کلاس آموزشی محدود است، آموزش یک شبکه عصبی عمیق جهت تشخیص احساس از گفتار بیش از حد چالش‌برانگیز است؛ لذا نیاز به یک شبکه افزایش داده جهت افزایش داده‌های موجود در پایگاه‌داده احساس می‌شود. تبدیل احساسات دریافتی از سیگنال گفتار، مثلاً تبدیل احساس خنثی به شادی و دیگر کلاس‌‌های احساسی جهت متعادل نمودن پایگاه‌داده و کاربردهای متنوع دیگر چالش دیگری است که روشی جهت انجام آن پیشنهاد گردیده است. همچنین، انتخاب مؤثر ویژگی‌های افزوده شده می‌تواند زمان محاسبات را کاهش داده و نشان‌داده‌شده است که دقت سیستم تشخیص احساس را بهبود می‌بخشد. آزمایش‌ها بر روی چهار پایگاه‌داده متداول EMO-DB، eNTERFACE05، SAVEE و IEMOCAP و برای پنج احساس در بستر پایتون انجام گردیده است. جهت افزایش داده‌ها، شبکه افزایش داده‌های مبتنی بر شبکه‌های مولد متخاصمی سازگار با چرخه پیشنهاد گردیده است. به‌جای استفاده از خطای متداول آنتروپی متقابل برای آموزش شبکه مولد متخاصمی از واگرایی واسراستین برای تولید نمونه‌های مصنوعی باکیفیت بالا استفاده شده است و مشکل کوچک‌شدن بیش از حد گرادیان و متعاقباً متوقف‌شدن ادامه روند آموزش شبکه تا حد زیادی کاهش داده شد. تبدیل احساسات دریافتی از سیگنال گفتار، مثلاً تبدیل احساس خنثی به شادی و دیگر کلاس‌‌های احساسی، با استفاده از طیف زمان فرکانس سیگنال به کمک یک شبکه مولد متخاصمی سازگار با چرخه انجام شد. از یک مدل PatchGAN برای شبکه متمایزکننده و از یک شبکه ResNet برای شبکه مولد استفاده شده است. جهت بهینه‌سازی شبکه مولد متخاصمی سازگار با چرخه بعد از اجرای چندین پیکربندی، تعداد بلوک‌‌های شبکه ResNet در شبکه مولد به‌دست‌آمده است. جهت انتخاب ویژگی از دو شبکه انتخاب ویژگی ترکیبی معیار فیشر و الگوریتم جداساز خطی طی دو مرحله استفاده گردیده است. نتایج به‌دست‌آمده با تحقیقات اخیر انجام شده مقایسه و روش پیشنهادی توانست به صحت ۸۶٫۳۲ درصد در پایگاه‌داده برلین دست یابد. در نتیجه، رویکرد ارائه شده در مقابل روش‌های سنتی تولید بردارهای ویژگی مصنوعی از فضاهای کم بعد قرار دارد. در عوض، از شبکه مولد متخاصمی سازگار با چرخه برای انتقال داده‌های بدون برچسب به احساسات هدف استفاده می کند که اثربخشی ترکیب داده‌های مصنوعی و طبیعی را برای بهبود کارایی شبکه های طبقه‌بندی‌کننده در شبکه های عصبی نشان می‌دهد. روش ترکیبی پیشنهادی شامل معیار فیشر و الگوریتم جداکننده خطی به نتایج برتری دست می‌یابد که بر پتانسیل داده‌های مصنوعی برای افزایش تشخیص احساسات از سیگنال‌های گفتاری تأکید می‌کند.
کلید واژه ها (نمایه ها):
#افزایش داده #تبدیل احساس #شبکه‌‌های مولد متخاصمی #واگرایی واسراستین #انتخاب ویژگی.
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)