Voice source modelling techniques for statistical parametric speech synthesis

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorAlku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.authorRaitio, Tuomo
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorAlku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2015-04-08T09:00:25Z
dc.date.available2015-04-08T09:00:25Z
dc.date.defence2015-06-05
dc.date.issued2015
dc.description.abstractSpeech is the most natural way of human communication, and thus designing a machine that imitates human speech has long fascinated people. Only rather recently, due to digitisation of speech and increase in computing power, this goal has become feasible. Although speech synthesis is used today in various applications from human-computer interaction to assistive technologies, the performance of modern speech synthesisers is far from the abilities of human speakers. The ultimate goal of text-to-speech (TTS) synthesis is to read any text and convert it to intelligible and natural sounding speech with the desired contextual and speaker characteristics. Meeting all of these goals at once makes this task extremely difficult. Moreover, the quality of the speech signal cannot be compromised since humans are very sensitive in perceiving even the slightest artefacts in a speech signal. This thesis aims to improve both the naturalness and expressivity of speech synthesis by developing speech processing algorithms that utilise information from the speech production mechanism. One of the key algorithms in this work is glottal inverse filtering (GIF), which is used for estimating the voice source signal from recorded speech. The voice source is known to be the origin of several essential acoustic cues used in spoken communication, such as the fundamental frequency, but it is also related to acoustic cues underlying voice quality, speaking style, and speaker identity, all of which contribute to the naturalness and expressivity of speech. Accurate modelling of the voice source is often overlooked in conventional speech processing algorithms, and this work aims to improve especially this shortcoming. In this thesis, two new GIF methods are first proposed that can be used for improved estimation of the voice source signal. Secondly, several novel voice source parameterization and modelling methods are developed that can be used in statistical parametric speech synthesis (SPSS) to improve naturalness and expressivity. Thirdly, using GIF and the voice source modelling methods in the context of SPSS, expressive voices are created that aim to cover various human speaking styles used in everyday spoken communication. Finally, the created synthetic voices are assessed using extensive subjective evaluation in different listening conditions. The results of the evaluation show that the naturalness and expressivity of synthetic speech can be enhanced using the techniques proposed in this thesis, and that the voices are perceived to be more suitable in various realistic contexts. Thus, the methods presented in this thesis provide a large potential to enhance the naturalness, expressivity, and suitability of speech synthesis in various applications.en
dc.description.abstractPuhe on ihmisten luonnollisin tapa kommunikoida, ja siksi puhetta tuottavan koneen suunnittelu on jo kauan kiehtonut ihmisiä. Kuitenkin vasta viime vuosikymmeninä puhesynteesistä on tullut käytännössä mahdollista, mikä suureksi osaksi on johtunut puheen digitaalisesta esitysmuodosta ja kasvaneesta laskentatehosta. Vaikka puhesynteesiä käytetään nykyään monenlaisissa sovelluksissa, kuten ihmisen ja tietokoneen vuorovaikutuksessa sekä avustavassa teknologiassa, nykyiset puhesyntetisaattorit ovat kuitenkin vielä kaukana ihmisten monipuolisesta puheentuottokyvystä. Puhesynteesin perimmäinen tavoite on muuttaa mikä tahansa teksti ymmärrettäväksi ja luonnollisen kuuloiseksi puheeksi, josta välittyvät myös tilanteeseen sopivat ja puhujalle ominaiset puheen piirteet. Näiden kaikkien tavoitteiden saavuttaminen yhtä aikaa on erittäin haastavaa, minkä lisäksi puhesignaalin laatu pitää olla erittäin hyvä, koska ihminen on hyvin herkkä havaitsemaan pienimpiäkin virheitä puhesignaalissa. Tämän väitöskirjan tavoitteena on parantaa sekä puhesynteesin laatua että ilmaisuvoimaa kehittämällä puheenkäsittelymenetelmiä, jotka tarkemmin hyödyntävät informaatiota puheentuoton toimintatavasta. Yksi tämän työn tärkeimmistä menetelmistä onkin äänilähteen käänteissuodatus, minkä avulla äänitetystä puheesta voidaan määrittää äänilähdesignaali. Tämä signaali on erittäin tärkeä puheen havaitsemisen kannalta, sillä se vaikuttaa olennaisesti niihin akustisiin piirteisiin, jotka liittyvät ääntö- ja puhetapaan ja siten puheen persoonallisiin piirteisiin. Vaikka nämä piirteet vaikuttavat merkittävästi puheen luonnollisuuteen ja ilmaisuvoimaan, perinteisissä puhesynteesimenetelmissä käytetään yleensä hyvin yksinkertaistettua äänilähdesignaalin mallintamista. Tässä työssä pyritään parantamaan synteettisen puheen laatua keskittymällä erityisesti edellämainittuun ongelmaan. Tässä väitöskirjassa esitetään ensiksi kaksi uutta äänilähteen käänteissuodatusmenetelmää, jotka mahdollistavat tarkemman äänilähdesignaalin määrittämisen puheesta. Toiseksi työssä esitetään useita uusia äänilähteen mallintamistekniikoita, joita voidaan käyttää tilastollisessa parametrisessa puhesynteesissä parantamaan puheen luonnollisuutta ja ilmaisuvoimaa. Kolmanneksi käyttämällä äänilähteen käänteissuodatus- ja mallintamistekniikoita työssä luotiin synteettisiä ääniä, jotka pyrkivät kattamaan erilaisia puhetyylejä. Lopuksi luodut äänet arvioitiin erilaisissa koeympäristöissä kuuntelukokein, joiden tulokset osoittavat että äänien luonnollisuus, ilmaisuvoima ja tilanteeseen sopivuus parani käyttämällä työssä esitettyjä menetelmiä. Näin ollen kehitetyt menetelmät tarjoavat huomattavan mahdollisuuden parantaa synteesin luonnollisuutta, ilmaisuvoimaa ja soveltuvuutta erilaisissa puhesynteesisovelluksissa.fi
dc.format.extent182 + app. 105
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-6137-5 (electronic)
dc.identifier.isbn978-952-60-6136-8 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/15584
dc.identifier.urnURN:ISBN:978-952-60-6137-5
dc.language.isoenen
dc.opnStylianou,Yannis, Prof., University of Crete, Greece
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Harri Auvinen, Tuomo Raitio, Samuli Siltanen, Brad H. Story, and Paavo Alku. Automatic glottal inverse filtering with the Markov chain Monte Carlo method. Computer Speech and Language, vol. 28, no. 5, pp. 1139–1155, September 2014. DOI: 10.1016/j.csl.2013.09.004
dc.relation.haspart[Publication 2]: Manu Airaksinen, Tuomo Raitio, Brad Story, and Paavo Alku. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 22, no. 3, pp. 596–607, March 2014. DOI: 10.1109/TASLP.2013.2294585
dc.relation.haspart[Publication 3]: Tuomo Raitio, Antti Suni, Junichi Yamagishi, Hannu Pulakka, Jani Nurminen, Martti Vainio, and Paavo Alku. HMM-based speech synthesis utilizing glottal inverse filtering. IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 1, pp. 153–165, January 2011. DOI: 10.1109/TASL.2010.2045239
dc.relation.haspart[Publication 4]: Tuomo Raitio, Antti Suni, Hannu Pulakka, Martti Vainio, and Paavo Alku. Utilizing glottal source pulse library for generating improved excitation signal for HMM-based speech synthesis. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Prague, Czech Republic, pp. 4564–4567, May 2011. DOI: 10.1109/ICASSP.2011.5947370
dc.relation.haspart[Publication 5]: Tuomo Raitio, Antti Suni, Lauri Juvela, Martti Vainio, and Paavo Alku. Deep neural network based trainable voice source model for synthesis of speech with varying vocal effort. In Proceedings of the 15th Annual Conference of the International Speech Communication Association (Interspeech), Singapore, pp. 1969–1973, September 2014.
dc.relation.haspart[Publication 6]: Thomas Drugman and Tuomo Raitio. Excitation modeling for HMMbased speech synthesis: Breaking down the impact of periodic and aperiodic components. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, pp. 260–264, May 2014. DOI: 10.1109/ICASSP.2014.6853598
dc.relation.haspart[Publication 7]: Tuomo Raitio, Antti Suni, Martti Vainio, and Paavo Alku. Synthesis and perception of breathy, normal, and Lombard speech in the presence of noise. Computer Speech and Language, vol. 28, no. 2, pp. 648–664, March 2014. DOI: 10.1016/j.csl.2013.03.003
dc.relation.haspart[Publication 8]: Tuomo Raitio, Antti Suni, Jouni Pohjalainen, Manu Airaksinen, Martti Vainio, and Paavo Alku. Analysis and synthesis of shouted speech. In Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech), Lyon, France, pp. 1544–1548, August 2013.
dc.relation.haspart[Publication 9]: Tuomo Raitio, John Kane, Thomas Drugman, and Christer Gobl. HMM-based synthesis of creaky voice. In Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech), Lyon, France, pp. 2316–2320, August 2013.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries40/2015
dc.revRenals, Steve, Prof., University of Edinburgh, UK
dc.revGudnason, Jon, Assistant Prof., Reykjavik University, Iceland
dc.subject.keywordstatistical parametric speech synthesisen
dc.subject.keywordvoice source modellingen
dc.subject.keywordglottal inverse filteringen
dc.subject.keywordvoice qualityen
dc.subject.keywordexpressive speech synthesisen
dc.subject.keywordtilastollinen parametrinen puhesynteesifi
dc.subject.keywordäänilähteen mallintaminenfi
dc.subject.keywordäänilähteen käänteissuodatusfi
dc.subject.keywordäänenlaatufi
dc.subject.keywordekspressiivinen puhesynteesifi
dc.subject.otherAcousticsen
dc.titleVoice source modelling techniques for statistical parametric speech synthesisen
dc.titlePuheen äänilähteen mallintaminen tilastollisessa parametrisessa puhesynteesissäfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.archiveyes
local.aalto.digiauthask
local.aalto.digifolderAalto_64562
local.aalto.formfolder2015_04_07_klo_15_24
Files
Original bundle
Now showing 1 - 2 of 2
No Thumbnail Available
Name:
isbn9789526061375.pdf
Size:
2.35 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Errata_raitio_tuomo_DD_40_2015.pdf
Size:
31.52 KB
Format:
Adobe Portable Document Format