Neural waveform generation for source-filter vocoding in speech synthesis

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2020-06-05
Date
2020
Major/Subject
Mcode
Degree programme
Language
en
Pages
94 + app. 88
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 85/2020
Abstract
Speech synthesis, or artificial generation of speech from any given text, has been one of the fundamental problems in speech communication technology. While early research on synthesis was driven by curiosity about the human voice production, modern speech synthesis has found many applications in screen readers, assistive devices and human-computer speech interfaces, to name a few. With the recent advances in statistical model based synthesis using neural networks, speech synthesis has reached an unprecedented level of naturalness and flexibility that will make possible many exciting future applications. A major contributor to the recent improvements has been the introduction of neural network waveform synthesis models, which take the role of a vocoder in a traditional speech synthesis system. However, a gap remains both in understanding and computational efficiency of the algorithms between the recent raw waveform neural vocoders and the classical model-based signal processing vocoders. A central motivation of the present dissertation has been to combine the emerging generative neural network models with classical speech signal processing concepts for efficient, high-quality synthesis that retains a degree of interpretability. Specifically, this dissertation focuses on neural network modeling of the excitation signal related to the source-filter model of human voice production. Since the present signal processing techniques for modeling the spectral envelope of the vocal tract are highly developed, the spectral envelope can be parameterized and used directly as a part of neural vocoding schemes. The remaining task is then to develop neural network models for the residual excitation signal. This dissertation presents an improved framework for representing residual excitation waveform in a pitch synchronous format, and applies generative adversarial networks for synthesizing these waveforms without a parametric aperiodicity model. Furthermore, it proposes an autoregressive WaveNet based excitation model, which only explicitly uses a spectral envelope model during synthesis. Finally, the two approaches are combined into a parallel-inference-capable source-filter synthesizer, which is trainable in an end-to-end fashion.

Puhesynteesi, keinotekoisen puheen luominen tekstistä, on eräs puhekommunikaatioteknologian perustavista ongelmista. Puhesynteesin tutkimus on kehittynyt varhaisista vaiheistaan ihmisen puheentuoton mallinnuksen kautta nykymuotoonsa, jossa synteesiä voidaan soveltaa lukuisiin käyttötarkoituksiin. Näitä sovelluksia ovat muun muassa, näytönlukijat, puhekyvyttömien apuvälineet ja kasvavassa määrin tekoälyn synteettinen puhe koneen ja ihmisen välisessä vuorovaikutuksessa. Viime vuosina tilastollinen mallipohjainen synteesi on kehittynyt huomattavasti syvien hermoverkkojen ansiosta ja synteesin luonnollisuus vastaakin jo lähes ihmispuhetta. Tärkeä tekijä tässä kehityksessä ovat hermoverkkoihin perustuvat aaltomuotoja syntetisoivat mallit, jotka ottavat perinteisen puhesynteesijärjestelmän vokooderin roolin. Laadullisesta kehityksestä huolimatta viimeaikaisten "neurovokooderien" ja perinteisten signaalinkäsittelyyn perustuvien mallien välillä on aukko sekä ymmärryksessämme että uusien algoritmien laskennallisessa tehokkuudessa. Tämän väitöskirjan keskeinen motivaatio on ollut yhdistää viimeisimpiä generatiivisia hermoverkkomalleja klassisiin signaalinkäsittelyn metodeihin, ja luoda algoritmisesti ymmärrettävää, korkealaatuista ja tehokasta puhesynteesiä. Erityisesti tämä väitöskirja keskittyy mallintamaan puheentuoton lähde-suodinmallin herätesignaalia käyttäen syviä hermoverkkoja. Koska olemassa olevat signaalinkäsittelytekniikat kykenevät varsin hyvin mallintamaan puheen spektriverhokäyrää ja ääntöväylän resonansseja parametrisesti, jää tehtäväksi olennaisesti tuottaa äänilähdettä vastaava jäännösheräte hermoverkkomallilla. Tämä väitöskirja kehittää uuden esitystavan jaksollisten aaltomuotojen mallintamiseksi ja soveltaa generatiivisia kilpailevia hermoverkkoja (eng. generative adversarial networks) näiden aaltomuotojen synteesiin. Lisäksi väitöskirja esittää WaveNet-pohjaisen herätemallin, joka yhdistetään eksplisiittisen suodinmalliin synteesissä. Lopuksi nämä kaksi mallityyppiä yhdistetään lähde-suodin hermoverkkosyntetisaattoriksi, joka kykenee hyödyntämään tehokasta rinnakkaislaskentaa ja voidaan kouluttaa integroituna osana syvää hermoverkkoa.
Description
The public defense on 5th June 2020 at 12:00 will be organized via remote technology. Link: https://aalto.zoom.us/j/65354653468 Zoom Quick Guide: https://www.aalto.fi/en/services/zoom-quick-guide
Supervising professor
Alku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
speech synthesis, deep learning, generative models, GAN, puhesynteesi, syväoppivat hermoverkot, generatiiviset mallit
Other note
Parts
  • [Publication 1]: Tuomo Raitio, Lauri Juvela, Antti Suni, Martti Vainio, Paavo Alku. Phase perception of the glottal excitation and its relevance in statistical parametric speech synthesis. Speech Communication, Volume 81, pages 104–119, July 2016.
    DOI: 10.1016/j.specom.2016.01.007 View at publisher
  • [Publication 2]: Lauri Juvela, Bajibabu Bollepalli, Manu Airaksinen, Paavo Alku. High-pitched excitation generation for glottal vocoding in statistical parametric speech synthesis using a deep neural network. In Proceedings of IEEE International conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, pages 5120–5124, May 2016.
    DOI: 10.1109/ICASSP.2016.7472653 View at publisher
  • [Publication 3]: Manu Airaksinen, Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku. A Comparison Between STRAIGHT, Glottal, and Sinusoidal Vocoding in Statistical Parametric Speech Synthesis. IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume 26, issue 9, pages 1658–1670, Sept. 2018.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201810245526
    DOI: 10.1109/TASLP.2018.2835720 View at publisher
  • [Publication 4]: Lauri Juvela, Bajibabu Bollepalli, Vassilis Tsiaras, Paavo Alku. GlotNet – A Raw Waveform Model for the Glottal Excitation in Statistical Parametric Speech Synthesis. IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume 27, Issue 6, Pages 1019– 1030, June 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201904022526
    DOI: 10.1109/TASLP.2019.2906484 View at publisher
  • [Publication 5]: Bajibabu Bollepalli, Lauri Juvela, Paavo Alku. Generative Adversarial Network-Based Glottal Waveform Model for Statistical Parametric Speech Synthesis. In Proceedings of Interspeech, Stockholm, Pages. 3394–3398, August 2017.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201711217689
    DOI: 10.21437/Interspeech.2017-1288 View at publisher
  • [Publication 6]: Lauri Juvela, Bajibabu Bollepalli, Xin Wang, Hirokazu Kameoka, Manu Airaksinen, Junichi Yamagishi, Paavo Alku. Speech Waveform Synthesis from MFCC Sequences with Generative Adversarial Networks. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Calgary, Pages 5679–5683, April 2018
  • [Publication 7]: Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku. Waveform Generation for Text-to-speech Synthesis Using Pitch- synchronous Multi-scale Generative Adversarial Networks. In Pro- ceedings of IEEE International conference on Acoustics, Speech and Signal Processing (ICASSP), Brighton, Pages 6915–6919, May 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033336
    DOI: 10.1109/ICASSP.2019.8683271 View at publisher
  • [Publication 8]: Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, Paavo Alku. GELP: GAN-Excited Linear Prediction for Speech Synthesis from Mel-spectrogram. In Proceedings of Interspeech, Graz, Pages. 694–698, Sept. 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-202001021194
    DOI: 10.21437/Interspeech.2019-2008 View at publisher
Citation