پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی برق > مقطع کارشناسی ارشد > سال 1403
پدیدآورندگان:
نگین وحیدی پیله سوار [پدیدآور اصلی]، سیدمسعود میررضایی [استاد راهنما]
چکیده: چکیده
این پایاننامه به مبحث تبدیل صدای یک فرد به فرد دیگر با استفاده از مدلسازی دنبالهبهدنباله مبتنی بر مکانیابی نسبی در سیستم تبدیل صدای یکبهچند گوینده پرداخته است. این فناوری در زمینههای مختلفی همچون شخصیسازی تعاملات صوتی، دوبله و تولید محتوا، دستیارهای صوتی، و همچنین در کاربردهایی که به تولید صدایی طبیعی و شبیه به صدای گوینده هدف نیاز دارند، قابل استفاده است. روش استفادهشده بر پایه مدلسازی دنبالهبهدنباله مکان محور طراحی شده تا بتواند همبستگیهای زمانی بیشتری بین صدای منبع و هدف برقرار کند. بهمنظور بهبود عملکرد سیستم، تغییرات متعددی در بخشهای مختلف شبکه اعمال شده است. در ابتدا، تغییراتی در شبکه Bottle-neck Feature Prenet با استفاده از روش ترنسفورمر و رمزگذار ایجاد شده است. سپس، شبکه Pitch Encoder با استفاده از روشهای کانولوشن، واحد باقی مانده و کانولوشنهای زمانی تغییرات در آن اعمال شده است. و همچنین در مرحله آموزش در مدل رمزگشا MOL attention بهینهسازی وزنها با استفاده از Xavier و He Initialization، اعمال شده که سبب بهبود در عملکرد مدل شده است. در مرحله پسپردازش، شبکه Postnet با استفاده از لایههای کانولوشن یکبعدی و کانولوشنهای تفکیکشده
عمقی و کانولوشنهای گیت دار استفاده شده است.
آزمایشهای انجامشده نشان میدهند که این تغییرات باعث ارتقای کیفیت، افزایش شباهت صدای تبدیلشده به گوینده هدف و کاهش نویزهای اضافی شده است. بهطور کلی، این تغییرات موجب بهبود ۱۰ درصدی در امتیاز MOS شدهاند و همچنین نتایج F0 rmse، MCD، CER ، WER نشان می دهد که روش +BNE-seq2seqmol نسبت به روش BNE-seq2seqmol بهبود یافته است .نتایج نهایی بیانگر دستیابی به خروجی صوتی باصحت بالا و کیفیت قابلقبول است که نشان میدهد این رویکرد میتواند در حوزههای مختلف به کار گرفته شود و دستاوردهای ارزشمندی را به همراه داشته باشد.
کلید واژه ها (نمایه ها):
#.کلمات کلیدی: واحد باقیمانده #ترانسفورمر #رمزگذار موقعیتی #کانولوشن زمانی.
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: