Modelling Vowel Production

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Science | Licentiate thesis
Date
2014
Major/Subject
Mathematics
Matematiikka
Mcode
F006Z
Degree programme
Language
en
Pages
78 + app. 3
Series
Abstract
This thesis is focused on describing and testing a computationally light vowel synthesis model, which can be used to generate glottal flow pulses for more sophisticated acoustic simulators of the vocal tract. The core of the model consists of a low-order mass-spring system that represents the vocal folds, Bernoulli flow with viscous pressure loss in the glottis, and a Webster resonator that represent the vocal tract. The Webster resonator makes use of centreline and area function data which have been extracted from magnetic resonance images. With the aim of producing a minimal model, new elements are added to the model one by one, and the impact of the added complexity is investigated. These additions include dissipation along the vocal tract, a horn-shaped Webster resonator to represent the subglottal tract, and losses caused by turbulence in the glottis. In addition, technical changes are also introduced which allow the model to be used with any vocal tract geometry and in a large number of simulations. For such model to be of practical use, it must be able to produce glottal flow with a variety of fundamental frequencies and phonation types. This tunability is achieved by optimising four selected parameters. Solving the multi-objective optimisation problem directly is not practical due to the complicated dynamic behaviour of the model and long computing time of each simulation. Instead, a three-step procedure combining constrained single-objective optimisation, parameter space exploration, and manual pulse shape selection is introduced. Three well-known direct search optimisation algorithms, pattern search, simulated annealing, and genetic algorithm, are tested for the optimisation step. A pattern searchbased algorithm is developed for pathwise parameter space exploration. Finally, the use of the closing quotient, a pulse shape parameter, as an aid for the final selection is tested.

Tässä työssä kuvataan ja testataan laskennallisesti kevyt vokaalisynteesin malli, jolla voidaan tuottaa glottisvirtauspulsseja monimutkaisempien akustisten ääntöväylämallien tarpeisiin. Mallin ydin koostuu äänihuulia kuvaavasta matala-asteisesta massajousisysteemistä, Bernoullin lain mukaisesta, viskoosin painehäviön huomioivasta virtauksesta glottiksessa, sekä ääntöväylää kuvaavasta Websterin resonaattorista, joka käyttää hyväkseen magneettiresonanssikuvista erotettuja keskiviivoja ja pinta-alafunktioita. Työn tavoite on kehittää minimaalinen malli. Tätä silmällä pitäen malliin lisätään uusia elementtejä yksi kerrallaan, ja lisääntyneen monimutkaisuuden vaikusta tarkastellaan. Näitä uusia elementtejä ovat kudoshäviöt ääntöväylässä, torvenmallinen Websterin resonaattori, joka edustaa glottiksen alapuolisia ääniväylän osia, sekä turbulenssin aiheuttamat häviöt glottiksessa. Lisäksi esitellään teknisiä muutoksia, jotka mahdollistavat mallin käytön minkä tahansa ääntöväylägeometrian kanssa suuressa määrässä simulaatioita. Mallin hyödyntäminen käytännössä vaatii, että sillä pystytään tuottamaan glottispulsseja useilla eri perustaajuuksilla ja fonaatiotavoilla. Tämä viritettävyys saavutetaan optimoimalla neljän parametrin arvot. Monitavoiteoptimointiongelman ratkaisu suoraan ei ole käytännöllistä mallin monimutkaisen dynaamisen käytöksen ja pitkän laskenta-ajan vuoksi. Vaihtoehtona esitellään kolmiaskelinen menetelmä, jossa yhdistyvät rajoitettu yksitavoiteoptimointi, etsintä parametriavaruudessa sekä pulssimuodon manuaalinen valinta. Optimointiaskelta varten kokeillaan kolmen tunnetun gradienttivapaan algoritmin (pattern search, simulated annealing, genetic algorithm) toimivuutta ongelmassa. Parametriavaruudessa tapahtuvaa etsintää varten kehitetään pattern search-algoritmiin pohjautuva polkuetsintämetodi. Lopuksi testataan yhden pulssimuotoparametrin (closing quotient) soveltuvuus manuaalisen valinnan apuvälineeksi.
Description
Supervisor
Eirola, Timo
Thesis advisor
Malinen, Jarmo
Alku, Paavo
Keywords
speech production, glottal pulse generator, glottal flow, mechano-acoustic model, parameter tuning, puheen tuotto, glottispulssigeneraattori, glottisvirtaus
Other note
Citation