Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2021-05-17

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

39+7

Series

Abstract

This thesis demonstrates the state-of-the-art technologies in text-to-speech synthesis for the Finnish language. In the experiments, text-to-speech systems were built using the spectrogram prediction network Tactoron 2 and various vocoder approaches. In this work, two state-of-the-art neural vocoders, WaveNet and Waveglow, were selected for comparison, and the Griffin-Lim algorithm provided a strong baseline. The different text-to-speech systems were evaluated and compared to ground truth data using a Mean Opinion Score test with a five-point scale. Additional experiments were conducted to investigate how much speech data from a new speaker is needed when adapting a pre-trained Tacotron-WaveNet text-to-speech system with warm-starting. In the experiments, the best performing vocoder was WaveNet. Together with Tacotron 2, the model synthesized speech that was rated as good as natural speech in listening tests. The experiments also showed that 10 minutes of speech from a new speaker was enough to build a text-to-speech system using warm-starting when a base model was first built using multiple speakers.

Tässä diplomityössä sovelletaan uusimpia teknologioita tekstistä puheeksi -synteesissä suomen kielelle. Työssä rakennettiin tekstistä puheeksi -järjestelmiä käyttäen melspektrogrammeja ennustavaa neuroverkkoa Tacotron 2:ta ja useita eri vokoodereita. Kokeisiin valittiin vertailtavaksi kaksi neurovokooderia, WaveNet ja WaveGlow, sekä Griffin-Lim algoritmi. Kokeissa verrattiin malleja keskenään sekä oikeaan puheeseen käyttäen viiden asteen MOS kuuntelutestiä. Kokeissa selvitettiin myös, kuinka paljon Tacotron-WaveNet malli tarvitsee dataa uudelle puhujalle, kun ensin rakennetaan pohjamalli useampaa puhujaa käyttäen. Kokeissa Tacotron 2:n kanssa parhaiten suoriutunut vokooderi oli WaveNet. Malli syntetisoi puhetta, joka kuuntelutesteissä arvioitiin lähes yhtä hyväksi kuin oikea puhe. Kokeet osoittivat myös, että 10 minuuttia on tarpeeksi puhetta uudelta puhujalta, kun adaptoidaan usealla puhujalla rakennettu pohjamalli yhdelle puhujalle.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Grósz, Tamás

Keywords

text-to-speech synthesis, neural nets, Tacotron 2, WaveNet

Other note

Citation