Methods for the application of glottal inverse filtering to statistical parametric speech synthesis

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.authorAiraksinen, Manu
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorAlku, Paavo, Academy Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2018-06-16T09:02:47Z
dc.date.available2018-06-16T09:02:47Z
dc.date.defence2018-06-08
dc.date.issued2018
dc.description.abstractSpeech is a fundamental method of human communication that allows conveying information between people. Even though the linguistic content is commonly regarded as the main information in speech, the signal contains a richness of other information, such as prosodic cues that shape the intended meaning of a sentence. This information is largely generated by quasi-periodic glottal excitation, which is the acoustic speech excitation airflow originating from the lungs that makes the vocal folds oscillate in the production of voiced speech. By regulating the sub-glottal pressure and the tension of the vocal folds, humans learn to affect the characteristics of the glottal excitation in order to signal the emotional state of the speaker for example. Glottal inverse filtering (GIF) is an estimation method for the glottal excitation of a recorded speech signal. Various cues about the speech signal, such as the mode of phonation, can be detected and analyzed from an estimate of the glottal flow, both instantaneously and as a function of time. Aside from its use in fundamental speech research, such as phonetics, the recent advances in GIF and machine learning enable a wider variety of GIF applications, such as emotional speech synthesis and the detection of paralinguistic information. However, GIF is a difficult inverse problem where the target algorithm output is generally unattainable with direct measurements. Thus the algorithms and their evaluation need to rely on some prior assumptions about the properties of the speech signal. A common thread utilized in most of the studies in this thesis is the estimation of the vocal tract transfer function (the key problem in GIF) by temporally weighting the optimization criterion in GIF so that the effect of the main excitation peak is attenuated. This thesis studies GIF from various perspectives---including the development of two new GIF methods that improve GIF performance over the state-of-the-art methods---and furthers basic research in the automated estimation of glottal excitation. The estimation of the GIF-based vocal tract transfer function for formant tracking and perceptually weighted speech envelope estimation is also studied. The central speech technology application of GIF addressed in the thesis is the use of GIF-based spectral envelope models and glottal excitation waveforms as target training data for the generative neural network models used in statistical parametric speech synthesis. The obtained results show that even though the presented studies provide improvements to the previous methodology for all voice types, GIF-based speech processing continues to mainly benefit male voices in speech synthesis applications.en
dc.description.abstractPuhe on olennainen osa ihmistenvälistä informaation siirtoa. Vaikka kielellistä sisältöä pidetään yleisesti puheen tärkeimpänä ominaisuutena, puhesignaali sisältää myös runsaasti muuta informaatiota kuten prosodisia vihjeitä, jotka muokkaavat siirrettävän informaation merkitystä. Tämä informaatio tuotetaan suurilta osin näennäisjaksollisella glottisherätteellä, joka on puheen herätteenä toimiva akustinen virtaussignaali. Säätämällä äänihuulten alapuolista painetta ja äänihuulten kireyttä ihmiset muuttavat glottisherätteen ominaisuuksia viestittääkseen esimerkiksi tunnetilaa. Glottaalinen käänteissuodatus (GKS) on laskennallinen menetelmä glottisherätteen estimointiin nauhoitetusta puhesignaalista. Glottisherätteen perusteella puheen laadusta voidaan tunnistaa useita piirteitä kuten ääntötapa, sekä hetkellisesti että ajan funktiona. Puheen perustutkimuksen, kuten fonetiikan, lisäksi viimeaikaiset edistykset GKS:ssä ja koneoppimisessa ovat avaamassa mahdollisuuksia laajempaan GKS:n soveltamiseen puheteknologiassa, kuten puhesynteesissä ja puheen biopiirteistämisessä paralingvistisiä sovelluksia varten. Haasteena on kuitenkin se, että GKS on vaikea käänteisongelma, jossa todellista puhetta vastaavan glottisherätteen suora mittaus on mahdotonta. Tästä johtuen GKS:ssä käytettävien algoritmien kehitystyö ja arviointi perustuu etukäteisoletuksiin puhesignaalin ominaisuuksista. Tässä väitöskirjassa esitetyissä menetelmissä on yhteisenä oletuksena se, että ääntöväylän siirtofunktio voidaan arvioida (joka on GKS:n pääongelma) aikapainottamalla GKS:n optimointikriteeriä niin, että glottisherätteen pääeksitaatiopiikkin vaikutus vaimenee. Tässä väitöskirjassa GKS:ta tutkitaan useasta eri näkökulmasta, jotka sisältävät kaksi uutta GKS-menetelmää, jotka parantavat arviointituloksia aikaisempiin menetelmiin verrattuna, sekä perustutkimusta käänteissuodatusprosessin automatisointiin liittyen. Lisäksi GKS-pohjaista ääntöväylän siirtofunktiota käytetään formanttiestimoinnissa sekä kuulohavaintopainotettuna versiona puheen spektrin verhokäyrän arvioinnissa. Tämän väitöskirjan keskeisin puheteknologiasovellus on GKS-pohjaisten puheen spektrin verhokäyrämallien sekä glottisheräteaaltomuotojen käyttö kohdedatana neuroverkkomalleille tilastollisessa parametrisessa puhesynteesissä. Saatujen tulosten perusteella kehitetyt menetelmät parantavat GKS-pohjaisten menetelmien laatua kaikilla äänityypeillä, mutta puhesynteesisovelluksissa GKS-pohjaiset ratkaisut hyödyttävät edelleen lähinnä matalia miesääniä.fi
dc.format.extent102 + app. 84
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-8028-4 (electronic)
dc.identifier.isbn978-952-60-8027-7 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/31867
dc.identifier.urnURN:ISBN:978-952-60-8028-4
dc.language.isoenen
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Manu Airaksinen, Tuomo Raitio, Brad Story, and Paavo Alku. Quasi closed phase glottal inverse filtering analysis with weighted linear prediction. IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume 22, issue 3, pages 596–607, March/April 2014. DOI: 10.1109/TASLP.2013.2294585
dc.relation.haspart[Publication 2]: Manu Airaksinen, Tom Bäckström, and Paavo Alku. Quadratic programming approach to glottal inverse filtering by joint norm-1 and norm-2 optimization. IEEE/ACM Transactions on Audio, Speech, and Language Processing, Volume 25, issue 5, pages 929–939, March/April 2017. DOI: 10.1109/TASLP.2016.2620718
dc.relation.haspart[Publication 3]: Dhananjaya Gowda, Manu Airaksinen, and Paavo Alku. Forward–backward quasi-closed phase weighted linear prediction analysis of speech for accurate formant detection and estimation. The Journal of the Acoustical Society of America, Volume 142, issue 3, pages 1542–1553, September 2017. DOI: 10.1121/1.5001512
dc.relation.haspart[Publication 4]: Manu Airaksinen, Tom Bäckström, and Paavo Alku. Automatic estimation of the lip radiation effect in glottal inverse filtering. In Proceedings of Interspeech, Singapore, pages 398–402, September 2014.
dc.relation.haspart[Publication 5]: Manu Airaksinen, Tuomo Raitio, and Paavo Alku. Noise robust estimation of the voice source using a deep neural network. In Proceedings of 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Brisbane, Australia, pages 5137–5141, March 2015. DOI: 10.1109/ICASSP.2015.7178950
dc.relation.haspart[Publication 6]: Manu Airaksinen, Bajibabu Bollepalli, Jouni Pohjalainen, and Paavo Alku. Glottal vocoding with frequency-warped time-weighted linear prediction. IEEE Signal Processing Letters, Volume 24, issue 4, pages 445–450, March/April 2017. DOI: 10.1109/LSP.2017.2665687
dc.relation.haspart[Publication 7]: Manu Airaksinen, Lauri Juvela, Bajibabu Bollepalli, Junichi Yamagishi, and Paavo Alku. A comparison between STRAIGHT, glottal, and sinusoidal vocoding in statistical parametric speech synthesis. Accepted for publication in IEEE/ACM Transactions on Audio, Speech, and Language Processing, May 2018. DOI: 10.1109/TASLP.2018.2835720
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries109/2018
dc.revDutoit, Thierry, Prof., University of Mons, Belgium
dc.revMehta, Daryush D., Assistant Prof., Harvard Medical School, USA
dc.subject.keywordglottal inverse filteringen
dc.subject.keywordspeech analysisen
dc.subject.keywordspeech synthesisen
dc.subject.keywordglottaalinen käänteissuodatusfi
dc.subject.keywordpuheanalyysifi
dc.subject.keywordpuhesynteesifi
dc.subject.otherElectrical engineeringen
dc.subject.otherLinguisticsen
dc.titleMethods for the application of glottal inverse filtering to statistical parametric speech synthesisen
dc.titleGlottaalisen käänteissuodatuksen käyttö tilastollisessa parametrisessa puhesynteesissäfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2019-02-25_1149
local.aalto.archiveyes
local.aalto.formfolder2018_06_16_klo_09_26
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526080284.pdf
Size:
1.32 MB
Format:
Adobe Portable Document Format