Voice source modelling techniques for statistical parametric speech synthesis

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2015-06-05
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2015
Major/Subject
Mcode
Degree programme
Language
en
Pages
182 + app. 105
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 40/2015
Abstract
Speech is the most natural way of human communication, and thus designing a machine that imitates human speech has long fascinated people. Only rather recently, due to digitisation of speech and increase in computing power, this goal has become feasible. Although speech synthesis is used today in various applications from human-computer interaction to assistive technologies, the performance of modern speech synthesisers is far from the abilities of human speakers. The ultimate goal of text-to-speech (TTS) synthesis is to read any text and convert it to intelligible and natural sounding speech with the desired contextual and speaker characteristics. Meeting all of these goals at once makes this task extremely difficult. Moreover, the quality of the speech signal cannot be compromised since humans are very sensitive in perceiving even the slightest artefacts in a speech signal. This thesis aims to improve both the naturalness and expressivity of speech synthesis by developing speech processing algorithms that utilise information from the speech production mechanism. One of the key algorithms in this work is glottal inverse filtering (GIF), which is used for estimating the voice source signal from recorded speech. The voice source is known to be the origin of several essential acoustic cues used in spoken communication, such as the fundamental frequency, but it is also related to acoustic cues underlying voice quality, speaking style, and speaker identity, all of which contribute to the naturalness and expressivity of speech. Accurate modelling of the voice source is often overlooked in conventional speech processing algorithms, and this work aims to improve especially this shortcoming. In this thesis, two new GIF methods are first proposed that can be used for improved estimation of the voice source signal. Secondly, several novel voice source parameterization and modelling methods are developed that can be used in statistical parametric speech synthesis (SPSS) to improve naturalness and expressivity. Thirdly, using GIF and the voice source modelling methods in the context of SPSS, expressive voices are created that aim to cover various human speaking styles used in everyday spoken communication. Finally, the created synthetic voices are assessed using extensive subjective evaluation in different listening conditions. The results of the evaluation show that the naturalness and expressivity of synthetic speech can be enhanced using the techniques proposed in this thesis, and that the voices are perceived to be more suitable in various realistic contexts. Thus, the methods presented in this thesis provide a large potential to enhance the naturalness, expressivity, and suitability of speech synthesis in various applications.

Puhe on ihmisten luonnollisin tapa kommunikoida, ja siksi puhetta tuottavan koneen suunnittelu on jo kauan kiehtonut ihmisiä. Kuitenkin vasta viime vuosikymmeninä puhesynteesistä on tullut käytännössä mahdollista, mikä suureksi osaksi on johtunut puheen digitaalisesta esitysmuodosta ja kasvaneesta laskentatehosta. Vaikka puhesynteesiä käytetään nykyään monenlaisissa sovelluksissa, kuten ihmisen ja tietokoneen vuorovaikutuksessa sekä avustavassa teknologiassa, nykyiset puhesyntetisaattorit ovat kuitenkin vielä kaukana ihmisten monipuolisesta puheentuottokyvystä. Puhesynteesin perimmäinen tavoite on muuttaa mikä tahansa teksti ymmärrettäväksi ja luonnollisen kuuloiseksi puheeksi, josta välittyvät myös tilanteeseen sopivat ja puhujalle ominaiset puheen piirteet. Näiden kaikkien tavoitteiden saavuttaminen yhtä aikaa on erittäin haastavaa, minkä lisäksi puhesignaalin laatu pitää olla erittäin hyvä, koska ihminen on hyvin herkkä havaitsemaan pienimpiäkin virheitä puhesignaalissa. Tämän väitöskirjan tavoitteena on parantaa sekä puhesynteesin laatua että ilmaisuvoimaa kehittämällä puheenkäsittelymenetelmiä, jotka tarkemmin hyödyntävät informaatiota puheentuoton toimintatavasta. Yksi tämän työn tärkeimmistä menetelmistä onkin äänilähteen käänteissuodatus, minkä avulla äänitetystä puheesta voidaan määrittää äänilähdesignaali. Tämä signaali on erittäin tärkeä puheen havaitsemisen kannalta, sillä se vaikuttaa olennaisesti niihin akustisiin piirteisiin, jotka liittyvät ääntö- ja puhetapaan ja siten puheen persoonallisiin piirteisiin. Vaikka nämä piirteet vaikuttavat merkittävästi puheen luonnollisuuteen ja ilmaisuvoimaan, perinteisissä puhesynteesimenetelmissä käytetään yleensä hyvin yksinkertaistettua äänilähdesignaalin mallintamista. Tässä työssä pyritään parantamaan synteettisen puheen laatua keskittymällä erityisesti edellämainittuun ongelmaan. Tässä väitöskirjassa esitetään ensiksi kaksi uutta äänilähteen käänteissuodatusmenetelmää, jotka mahdollistavat tarkemman äänilähdesignaalin määrittämisen puheesta. Toiseksi työssä esitetään useita uusia äänilähteen mallintamistekniikoita, joita voidaan käyttää tilastollisessa parametrisessa puhesynteesissä parantamaan puheen luonnollisuutta ja ilmaisuvoimaa. Kolmanneksi käyttämällä äänilähteen käänteissuodatus- ja mallintamistekniikoita työssä luotiin synteettisiä ääniä, jotka pyrkivät kattamaan erilaisia puhetyylejä. Lopuksi luodut äänet arvioitiin erilaisissa koeympäristöissä kuuntelukokein, joiden tulokset osoittavat että äänien luonnollisuus, ilmaisuvoima ja tilanteeseen sopivuus parani käyttämällä työssä esitettyjä menetelmiä. Näin ollen kehitetyt menetelmät tarjoavat huomattavan mahdollisuuden parantaa synteesin luonnollisuutta, ilmaisuvoimaa ja soveltuvuutta erilaisissa puhesynteesisovelluksissa.
Description
Supervising professor
Alku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Alku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
statistical parametric speech synthesis, voice source modelling, glottal inverse filtering, voice quality, expressive speech synthesis, tilastollinen parametrinen puhesynteesi, äänilähteen mallintaminen, äänilähteen käänteissuodatus, äänenlaatu, ekspressiivinen puhesynteesi
Other note
Parts
  • [Publication 1]: Harri Auvinen, Tuomo Raitio, Samuli Siltanen, Brad H. Story, and Paavo Alku. Automatic glottal inverse filtering with the Markov chain Monte Carlo method. Computer Speech and Language, vol. 28, no. 5, pp. 1139–1155, September 2014.
    DOI: 10.1016/j.csl.2013.09.004 View at publisher
  • [Publication 2]: Manu Airaksinen, Tuomo Raitio, Brad Story, and Paavo Alku. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 3, pp. 596–607, March 2014.
    DOI: 10.1109/TASLP.2013.2294585 View at publisher
  • [Publication 3]: Tuomo Raitio, Antti Suni, Junichi Yamagishi, Hannu Pulakka, Jani Nurminen, Martti Vainio, and Paavo Alku. HMM-based speech synthesis utilizing glottal inverse filtering. IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 1, pp. 153–165, January 2011.
    DOI: 10.1109/TASL.2010.2045239 View at publisher
  • [Publication 4]: Tuomo Raitio, Antti Suni, Hannu Pulakka, Martti Vainio, and Paavo Alku. Utilizing glottal source pulse library for generating improved excitation signal for HMM-based speech synthesis. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Prague, Czech Republic, pp. 4564–4567, May 2011.
    DOI: 10.1109/ICASSP.2011.5947370 View at publisher
  • [Publication 5]: Tuomo Raitio, Antti Suni, Lauri Juvela, Martti Vainio, and Paavo Alku. Deep neural network based trainable voice source model for synthesis of speech with varying vocal effort. In Proceedings of the 15th Annual Conference of the International Speech Communication Association (Interspeech), Singapore, pp. 1969–1973, September 2014.
  • [Publication 6]: Thomas Drugman and Tuomo Raitio. Excitation modeling for HMMbased speech synthesis: Breaking down the impact of periodic and aperiodic components. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, pp. 260–264, May 2014.
    DOI: 10.1109/ICASSP.2014.6853598 View at publisher
  • [Publication 7]: Tuomo Raitio, Antti Suni, Martti Vainio, and Paavo Alku. Synthesis and perception of breathy, normal, and Lombard speech in the presence of noise. Computer Speech and Language, vol. 28, no. 2, pp. 648–664, March 2014.
    DOI: 10.1016/j.csl.2013.03.003 View at publisher
  • [Publication 8]: Tuomo Raitio, Antti Suni, Jouni Pohjalainen, Manu Airaksinen, Martti Vainio, and Paavo Alku. Analysis and synthesis of shouted speech. In Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech), Lyon, France, pp. 1544–1548, August 2013.
  • [Publication 9]: Tuomo Raitio, John Kane, Thomas Drugman, and Christer Gobl. HMM-based synthesis of creaky voice. In Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech), Lyon, France, pp. 2316–2320, August 2013.
Citation