Learning neural discrete representations for speech

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-05-16

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence (Macadamia)

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

6+31

Series

Abstract

Current state-of-the-art models in text-to-speech domain do not generate raw waveform directly. The models use variations of Mel frequency representations when generating speech which is then translated into raw waveform with a separately trained audio vocoder. This thesis studied two hypotheses. First, we studied if we can learn neural discrete representation from raw waveform speech using Vector Quantized Variational AutoEncoders. In results, we show that the model learns neural discrete representations that can be used for speech compression with high speech quality. We report perceptual evaluation speech score (PESQ) of 2.8 with our model which indicates comparable or higher speech quality to recent neural vocoders in literature. We also present speech samples of our proposed model. Second, we studied if we can use autoregressive Transformers in generating speech in raw waveform directly from text using the previously learnt discrete speech representations which we train using the LJSpeech labeled text-to-speech dataset. Our experiments show promising results but the model does not generalise to all samples. In further research, we suggest conducting the same experiment with a larger dataset.

Nykyiset tekstistä puheeksi mallit eivät syntetisoi puhetta suoraan käyttäen raakaa äänen aaltomuotoa. Mallit hyödyntävät eri muotoja Mel frequency kuvauksesta uuden puhesignaalien syntetisoinnissa, mitkä muunnetaan raakaan aaltomuotoon erikseen koulutettavan vokooderin avulla. Tässä työssä esitellään, miten VQ-VAE neuroverkkoarkkitehtuuria voidaan käyttää suoraan puheen generoimiseksi raa’assa aaltomuodossa. Diplomityö koostui kahdesta hypoteesista. Ensiksi tutkimme, voiko VQ-VAE neuroverkkomalli oppia kuvaamaan puhetta diskreettien vektorien muodossa. Tuloksissa näytämme, että malli oppii löytämään puheesta relevantit diskreetit vektorimuodot, joiden avulla puhe voidaan kompressoida säilyttäen erinomaisen äänen laadun. Testeissä mallilla generoitu äänen laatu sai 2.8 PESQ tuloksen, joka indikoi vertailukelpoista tai parempaa äänen laatua verrattuna kirjallisuuden neuroverkkopohjaisiin vokoodereihin. Julkaisemme myös ääninäytteitä vertailua varten. Toiseksi tutkimme, voidaanko autoregressiivistä Transformers-mallia opettamaan tuottamaan puhetta aikaisemmin opittujen puheen diskreettien vektorimuotojen avulla käyttäen mallin opettamiseksi LJSPeech-tekstistä puheeksi datasetin avulla. Kokeilumme osoittavat lupaavia tuloksia, mutta malli ei yleisty kaikkiin tekstinäytteisiin tarpeeksi hyvin. Ehdotamme jatkotutkimukseksi saman kokeilun toistamista isommalla datasetillä, joka voi auttaa mallia yleistämään paremmin.

Description

Supervisor

Ilin, Alexander

Thesis advisor

Juvela, Lauri

Keywords

text-to-speech, VQ-VAE, transformer, speech compression

Other note

Citation