پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع دکتری > سال 1402
پدیدآورندگان:
آرش شیلاندری [پدیدآور اصلی]، حسین مروی[استاد راهنما]، حسین خسروی[استاد مشاور]
چکیده:
تشخیص احساسات از گفتار، برای درک دقیق معانی جملات و همچنین ایجاد واکنش مناسب به گوینده، از سوی ماشین امری ضروری است. هنگامیکه دادههای آموزشی در پایگاهداده متنوع نیستند و تعداد و تنوع آنها در هر کلاس آموزشی محدود است، آموزش یک شبکه عصبی عمیق جهت تشخیص احساس از گفتار بیش از حد چالشبرانگیز است؛ لذا نیاز به یک شبکه افزایش داده جهت افزایش دادههای موجود در پایگاهداده احساس میشود. تبدیل احساسات دریافتی از سیگنال گفتار، مثلاً تبدیل احساس خنثی به شادی و دیگر کلاسهای احساسی جهت متعادل نمودن پایگاهداده و کاربردهای متنوع دیگر چالش دیگری است که روشی جهت انجام آن پیشنهاد گردیده است. همچنین، انتخاب مؤثر ویژگیهای افزوده شده میتواند زمان محاسبات را کاهش داده و نشاندادهشده است که دقت سیستم تشخیص احساس را بهبود میبخشد. آزمایشها بر روی چهار پایگاهداده متداول EMO-DB، eNTERFACE05، SAVEE و IEMOCAP و برای پنج احساس در بستر پایتون انجام گردیده است.
جهت افزایش دادهها، شبکه افزایش دادههای مبتنی بر شبکههای مولد متخاصمی سازگار با چرخه پیشنهاد گردیده است. بهجای استفاده از خطای متداول آنتروپی متقابل برای آموزش شبکه مولد متخاصمی از واگرایی واسراستین برای تولید نمونههای مصنوعی باکیفیت بالا استفاده شده است و مشکل کوچکشدن بیش از حد گرادیان و متعاقباً متوقفشدن ادامه روند آموزش شبکه تا حد زیادی کاهش داده شد. تبدیل احساسات دریافتی از سیگنال گفتار، مثلاً تبدیل احساس خنثی به شادی و دیگر کلاسهای احساسی، با استفاده از طیف زمان فرکانس سیگنال به کمک یک شبکه مولد متخاصمی سازگار با چرخه انجام شد. از یک مدل PatchGAN برای شبکه متمایزکننده و از یک شبکه ResNet برای شبکه مولد استفاده شده است. جهت بهینهسازی شبکه مولد متخاصمی سازگار با چرخه بعد از اجرای چندین پیکربندی، تعداد بلوکهای شبکه ResNet در شبکه مولد بهدستآمده است. جهت انتخاب ویژگی از دو شبکه انتخاب ویژگی ترکیبی معیار فیشر و الگوریتم جداساز خطی طی دو مرحله استفاده گردیده است. نتایج بهدستآمده با تحقیقات اخیر انجام شده مقایسه و روش پیشنهادی توانست به صحت ۸۶٫۳۲ درصد در پایگاهداده برلین دست یابد.
در نتیجه، رویکرد ارائه شده در مقابل روشهای سنتی تولید بردارهای ویژگی مصنوعی از فضاهای کم بعد قرار دارد. در عوض، از شبکه مولد متخاصمی سازگار با چرخه برای انتقال دادههای بدون برچسب به احساسات هدف استفاده می کند که اثربخشی ترکیب دادههای مصنوعی و طبیعی را برای بهبود کارایی شبکه های طبقهبندیکننده در شبکه های عصبی نشان میدهد. روش ترکیبی پیشنهادی شامل معیار فیشر و الگوریتم جداکننده خطی به نتایج برتری دست مییابد که بر پتانسیل دادههای مصنوعی برای افزایش تشخیص احساسات از سیگنالهای گفتاری تأکید میکند.
کلید واژه ها (نمایه ها):
#افزایش داده #تبدیل احساس #شبکههای مولد متخاصمی #واگرایی واسراستین #انتخاب ویژگی.
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: