Investigating vowel production with computational physical modelling and glottal inverse filtering

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Malinen, Jarmo, Dr., Aalto University, Finland
dc.contributor.author Murtola, Tiina
dc.date.accessioned 2019-08-07T09:01:16Z
dc.date.available 2019-08-07T09:01:16Z
dc.date.issued 2019
dc.identifier.isbn 978-952-60-8619-4 (electronic)
dc.identifier.isbn 978-952-60-8618-7 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/39590
dc.description.abstract Speech serves a fundamental function in society as one of the main tools enabling conveyance of information from one human to another. The ease with which humans use this tool is deceptive, however, as the physiological process of producing speech sounds is far from simple. Understanding this production process can, for example, bring valuable information to the development of speech and language technology applications and help in diagnosing and treating speech disorders. Obtaining information about speech production can be challenging, however, due to the location of the speech organs and the nature of the physiological processes involved. This dissertation focuses on the production of one specific aspect of speech, vowels, which are a major component of all spoken languages. Two methodologies, computational physical modelling and glottal inverse filtering (GIF), are used here to investigate vowel production phenomena. Computational speech production models enable simulation of vowel production with virtually complete control of all variables of interest which is not possible with human speakers. In contrast, GIF offers a tool to investigate the natural vowel production process. Both physical modelling and GIF benefit from the utilisation of multichannel data of natural speech. In this dissertation, two multichannel datasets were collected. The first dataset comprises simultaneously acquired speech pressure signals and magnetic resonance imaging (MRI) data of the vocal tract (VT). The second dataset consists of speech pressure signals recorded simultaneously with high-speed videoendoscopy (HSV) of the vocal folds and electroglottography (EGG). The two datasets were utilised together with computational physical modelling and GIF in order to investigate two dynamic phenomena: the onset of phonation in vowel utterances and fundamental frequency glides, which are vowel utterances in which the fundamental frequency increases or decreases over time. The results of using HSV and GIF together to analyse onsets indicate that the amplitudes of glot-tal area and flow are closely correlated during phonation initiation despite the presence of non-linear processes and possible dynamic control by the speakers. Simulations of fundamental fre-quency glides with a computational physics model utilising MRI data for VT modelling reveal that the perturbations occurring when the fundamental frequency crosses a resonance of the VT follow distinct patterns. In addition to these two dynamic phenomena, HSV, GIF, and computational physical modelling were also used to study the relationship between the glottal area and flow during steady phonation. These investigations show how different elements of phonation and articulation contribute to the complex process of vowel production, and it would not be possible to obtain this information without novel combinations of data acquisition, analysis methods, and modelling. en
dc.description.abstract Puhe palvelee yhteiskunnassa keskeistä tehtävää yhtenä tärkeimmistä työkaluista, jotka mahdollistavat tiedon välittämisen ihmiseltä toiselle. Tämän työkalun käyttämisen helppous on kuitenkin harhaanjohtavaa, sillä puheäänen tuottavat fysiologiset prosessit ovat kaikkea muuta kuin yksinkertaisia. Näiden prosessien ymmärtäminen voi esimerkiksi tuottaa arvokasta tietoa puhe- ja kieli-teknologian sovellusten kehittämiseen sekä auttaa puhehäiriöiden diagnosoinnissa ja hoitamisessa. Tiedon hankkiminen puheentuotosta voi kuitenkin olla haastavaa puhe-elinten sijainnin sekä niihin liittyvien fysiologisten prosessien luonteen vuoksi. Tämä väitöskirja keskittyy yhteen puheen osa-alueeseen: vokaaleihin, jotka muodostavat merkittävän osan äänteistä kaikissa puhutuissa kielissä. Väitöskirjassa tutkitaan vokaalintuoton ilmiöitä käyttäen kahta menetelmää, laskennallista fysikaalista mallinnusta sekä glottaalista käänteissuodatusta (GKS). Laskennalliset puheentuoton mallit mahdollistavat vokaalintuoton simuloimisen kontrolloiden tärkeimmät muuttujat lähes täydellisesti, mikä ei ole mahdollista ihmispuheessa. Sitä vastoin GKS tarjoaa työkalun vokaalintuoton prosessien tutkimiseen luonnonpuheessa. Sekä fysikaalinen mallintaminen että GKS hyötyvät monikanavaisen luonnonpuheen datan käytöstä. Tässä väitöskirjassa kerättiin kaksi monikanavaista aineistoa. Ensimmäinen näistä aineistoista sisältää puhepainesignaaleja sekä niiden kanssa yhtä aikaa magneettiresonanssikuvantamisellla otetut ääntöväylän kuvat. Toinen aineistoista pitää sisällään puhepainesignaalin sekä sen kanssa yhtä aikaa tallennetut äänihuulien suurnopeusvideoendoskopian (SNV) kuvat sekä elektroglottografian (EGG) signaalit. Näitä kahta aineistoa käytettiin yhdessä laskennallisen fysikaalisen mallintamisen ja GKS:n kanssa tutkimuksissa, joiden kohteena olivat kaksi dynaamista ilmiötä: fonaation alkaminen vokaaliäännöissä sekä perustaajuusliu'ut, eli vokaaliäännöt, joiden aikana perustaajuus nousee tai laskee. SNV:n ja GKS:n yhteiskäyttöä hyödyntävän äännön alkujen analyysin tulokset viittaavat siihen, että glottiksen pinta-alan ja läpivirtauksen amplitudien välillä on vahva korrelaatio fonaation syttymisprosessin aikana puheentuoton epälineaarisista prosesseista sekä puhujan mahdollisesti tekemistä kontrolliliikkeistä huolimatta. Perustaajuusliukujen simuloinnit laskennallisella fysikaalisella mallilla, joka hyödyntää ääntöväylän magneettiresonanssikuvia, paljastavat, että kun perustaajuus ylittää ääntöväylän resonanssin, vokaalintuotossa ilmenevät häiriöt noudattavat selvää kaavaa. Näiden kahden dynaamisen ilmiön lisäksi SNV:aa, GKS:ta, sekä laskennallista fysikaalista mallinnusta käytettiin myös glottiksen pinta-alan ja virtauksen välisen suhteen tutkimiseen pysyvissä äännöissä. Nämä tutkimukset näyttävät kuinka fonaation ja artikulaation eri elementit vaikuttavat osaltaan vokaalintuottoon, eikä tähän informaatioon olisi mahdollista päästä käsiksi ilman uusia datan keräyksen, analyysimenetelmien ja mallinnuksen yhdistelmiä. fi
dc.format.extent 100 + app. 92
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 121/2019
dc.relation.haspart [Publication 1]: Daniel Aalto, Olli Aaltonen, Risto-Pekka Happonen, Päivi Jääsaari, Atle Kivelä, Juha Kuortti, Jean-Marc Luukinen, Jarmo Malinen, Tiina Murtola, Riitta Parkkola, Jani Saunavaara, Tero Soukka, Martti Vainio. Large scale data acquisition of simultaneous MRI and speech. Applied Acoustics, 2014, 83, 64–75. DOI: 10.1016/j.apacoust.2014.03.003
dc.relation.haspart [Publication 2]: Paavo Alku, Tiina Murtola, Jarmo Malinen, Juha Kuortti, Brad Story, Manu Airaksinen, Mika Salmi, Erkki Vilkman, Ahmed Geneid. OPENGLOT – An open environment for the evaluation of glottal inverse filtering. Speech Communication, 2019, 107, 38–47. Full text available in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201902252096. DOI: 10.1016/j.specom.2019.01.005
dc.relation.haspart [Publication 3]: Tiina Murtola, Jarmo Malinen, Ahmed Geneid, Paavo Alku. Analysis of phonation onsets in vowel production using information from glottal area and flow estimate. Speech Communication, 2019, 109, 55–65. Full text available in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201905062825. DOI: 10.1016/j.specom.2019.03.007
dc.relation.haspart [Publication 4]: Tiina Murtola, Paavo Alku, Jarmo Malinen, Ahmed Geneid. Parameterization of a computational physical model for glottal flow using inverse filtering and high-speed videoendoscopy. Speech Communication, 2018, 96, 67–80. DOI: 10.1016/j.specom.2017.11.007
dc.relation.haspart [Publication 5]: Tiina Murtola, Atte Aalto, Jarmo Malinen, Daniel Aalto, Martti Vainio. Modal locking between vocal fold oscillations and vocal tract acoustics. Acta Acustica united with Acustica, 2018, 104, 2, 323–337. DOI: 10.3813/AAA.919175
dc.relation.haspart [Publication 6]: Tiina Murtola, Jarmo Malinen. Waveform patterns in pitch glides near a vocal tract resonance. In Proceedings of Interspeech 2017, Stockholm, Sweden, 3487–3491, August 20–24 2017. Full text available in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201711217592. DOI: 10.21437/Interspeech.2017-875
dc.relation.haspart [Publication 7]: Tiina Murtola, Jarmo Malinen. Interaction mechanisms between glottal source and vocal tract in pitch glides. In Proceedings of Interspeech 2018, Hyderabad, India, 2987–2991, September 2–6 2018. Full text available in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201812106307. DOI: 10.21437/Interspeech.2018-1827
dc.subject.other Acoustics en
dc.title Investigating vowel production with computational physical modelling and glottal inverse filtering en
dc.title Vokaalintuoton laskennallinen fysikaalinen mallinnus ja glottaalinen käänteissuodatus fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.contributor.school School of Electrical Engineering en
dc.contributor.department Signaalinkäsittelyn ja akustiikan laitos fi
dc.contributor.department Department of Signal Processing and Acoustics en
dc.subject.keyword vowel production en
dc.subject.keyword physical models en
dc.subject.keyword glottal inverse filtering en
dc.subject.keyword vowel onsets en
dc.subject.keyword fundamental frequency glides en
dc.subject.keyword vokaalintuotto fi
dc.subject.keyword fysikaalinen malli fi
dc.subject.keyword glottaalinen käänteissuodatus fi
dc.subject.keyword vokaaliäännön aloitus fi
dc.subject.keyword perustaajuusliuku fi
dc.identifier.urn URN:ISBN:978-952-60-8619-4
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Alku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.opn Švec, Jan G., Asst. Prof., Palacký University Olomouc, Czech Republic
dc.rev Ternström, Sten, Prof., Kunglika Tekniska Högskola, Sweden
dc.rev Horáček, Jaromír, Dr., Czech Academy of Sciences, Czech Republic
dc.date.defence 2019-09-27


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account