Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2021-05-17
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
39+7
Series
Abstract
This thesis demonstrates the state-of-the-art technologies in text-to-speech synthesis for the Finnish language. In the experiments, text-to-speech systems were built using the spectrogram prediction network Tactoron 2 and various vocoder approaches. In this work, two state-of-the-art neural vocoders, WaveNet and Waveglow, were selected for comparison, and the Griffin-Lim algorithm provided a strong baseline. The different text-to-speech systems were evaluated and compared to ground truth data using a Mean Opinion Score test with a five-point scale. Additional experiments were conducted to investigate how much speech data from a new speaker is needed when adapting a pre-trained Tacotron-WaveNet text-to-speech system with warm-starting. In the experiments, the best performing vocoder was WaveNet. Together with Tacotron 2, the model synthesized speech that was rated as good as natural speech in listening tests. The experiments also showed that 10 minutes of speech from a new speaker was enough to build a text-to-speech system using warm-starting when a base model was first built using multiple speakers.Tässä diplomityössä sovelletaan uusimpia teknologioita tekstistä puheeksi -synteesissä suomen kielelle. Työssä rakennettiin tekstistä puheeksi -järjestelmiä käyttäen melspektrogrammeja ennustavaa neuroverkkoa Tacotron 2:ta ja useita eri vokoodereita. Kokeisiin valittiin vertailtavaksi kaksi neurovokooderia, WaveNet ja WaveGlow, sekä Griffin-Lim algoritmi. Kokeissa verrattiin malleja keskenään sekä oikeaan puheeseen käyttäen viiden asteen MOS kuuntelutestiä. Kokeissa selvitettiin myös, kuinka paljon Tacotron-WaveNet malli tarvitsee dataa uudelle puhujalle, kun ensin rakennetaan pohjamalli useampaa puhujaa käyttäen. Kokeissa Tacotron 2:n kanssa parhaiten suoriutunut vokooderi oli WaveNet. Malli syntetisoi puhetta, joka kuuntelutesteissä arvioitiin lähes yhtä hyväksi kuin oikea puhe. Kokeet osoittivat myös, että 10 minuuttia on tarpeeksi puhetta uudelta puhujalta, kun adaptoidaan usealla puhujalla rakennettu pohjamalli yhdelle puhujalle.Description
Supervisor
Kurimo, MikkoThesis advisor
Grósz, TamásKeywords
text-to-speech synthesis, neural nets, Tacotron 2, WaveNet