Building personalised speech technology systems with sparse, bad quality or out-of-domain data

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKurimo, Mikko, Assoc. Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.authorKarhila, Reima
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.labSpeech Recognition Groupen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorKurimo, Mikko, Assoc. Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2019-06-05T09:01:17Z
dc.date.available2019-06-05T09:01:17Z
dc.date.defence2019-06-14
dc.date.issued2019
dc.description.abstractAutomatic speech recognition and text-to-speech systems offer handsfree and eyesfree interfaces for applications on computers, telephones and home and wearable electronics. The perceived quality and identity of a text-to-speech system's voice are essential to the user experience. The possibilities for different speaker identities are practically limitless if short or out-of-domain collections of speech can be used to transfer speaker identity to the synthetic voice. This thesis describes background, methods and results for a group of experiments performed with statistical parametric speech synthesis and speech recognition, with focus on speaker adaptation of the models and evaluation the quality of the systems' output. All these systems rely on speech models that are trained on large collections of speech and text data. The speech data have been preprocessed into acoustic features using a vocoder. The amount and quality of available data are addressed in experiments on the effects of background noise in the adaptation data of speaker-adaptive HMM-GMM statistical parametric speech synthesis, listener perception of speaker background in speaker adapted speech synthesis with sparse, foreign-accented data, and stacking group and speaker adaptations to improve quality of speech synthesis for out-of-domain speakers. Cross-lingual adaptation is investigated in experiments on probabilistic cross-lingual speaker adaptation when a model for source language is not available, and bilingual speech synthesis with code-switching when source language data is not available for one of the languages. In all these studies, the speaker characteristics were successfully transferred to a synthesic voice even if the adaptation data was noisy, in another language or there was very little of it. Cross-lingual adaptation was also investigated for automatic speech recognition of bilingual speakers and found to improve recognition results. Any system development relies on measuring the quality of the output, and this thesis also includes an overview of objective and subjective methods of quality evaluation for synthetic speech and natural foreign language speech, as well as an analysis of different objective measures for evaluating quality of HMM-GMM based speech synthesis systems. Building on components of speech recognition and synthesis systems, this thesis also presents a system for evaluating and scoring the pronunciation quality of foreign language learners utterances. Rating pronunciation quality of single utterances is a difficult problem but our system manages to do it at a speed and reliability that is satisfactory for computer games used to study language learning.en
dc.description.abstractAutomaattisen puheentunnistuksen ja puhesynteesin avulla on mahdollista rakentaa käyttöliittymiä, jotka eivät vaadi käsien tai silmien käyttöä. Näillä käyttöliittymillä voi ohjata sovelluksia tietokoneissa, puhelimissa, kodinelektroniikassa tai puettavassa elektroniikassa. Kuulijan havainnot synteettisen äänen laadusta ja puhujaidentiteetistä ovat olennainen osa käyttäjäkokemusta. Erilaisten puhujaidentiteettien kirjo on käytännössä rajaton, mikäli puhujaidentiteetin siirtoon voidaan käyttää lyhyitä tai muihin tarkoituksiin kerättyjä puheaineistoja. Tässä väitöskirjassa kuvataan tausta, menetelmät sekä tulokset joukolle tilastollisen parametrisen puhesynteesin ja puheentunnistuken alojen kokeita. Kokeiden pääpaino on puhujamallien adaptoinnissa ja järjestelmien tuotosten laadun arvioinissa. Kaikki kuvatut järjestelmät nojaavat puhemalleihin, jotka on opetettu suuresta puhe- ja tekstiaineistosta. Puheaineistot on esikäsitelty akustisiksi piirrevektoreiksi vokooderilla. Saatavilla olevan datan määrän ja laadun vaikutuksia tutkitaan väitöskirjassa raportoiduissa kokeissa, jotka koskevat äänitysten taustamelun vaikutuksia puhuja-adaptoitavaan paramtetiseen HMM-GMM puhesynteesiin, kuulijoiden kokemusta puhujaidentiteetistä rajatulla datamäärällä kielen yli adaptoivassa puhesynteesissä ja yksittäisen puhujan ja puhujajoukon adaptaatioiden ketjuttamista puhesynteesin parantamiseksi uudentyyppisille puhujille, jotka eivät ole hyvin edustettuin opetusdatassa. Puhuja-adaptaation tekemistä kielen yli tutkitaan kokeissa, jotka koskevat probabilistista puhuja-adaptaatiota kun saatavilla ei ole riittävää määrää lähtökielen puhedataa ja kaksikielistä puhesynteesiä lauseensisäisellä koodinvaihdolla kun käytössä ei ole toisen kielen puhedataa puhujalta. Kaikissa näissä kokeissa puhujaidentiteetti onnistuttiin siirtämään synteettiselle äänelle, vaikka adaptaatiodata oli meluisaa, toisella kielellä tai sitä oli hyvin vähän. Kielen yli adaptointia tutkittiin myös kaksikielisten puhujien puheentunnistuksessa, ja sen huomattiin parantavan tunnistustuloksia. Minkä tahansa järjestelmän kehittäminen vaatii tuotosten laadun mittaamista, ja tässä väitöskirjassa on mukana taustaa synteettisen puheen sekä kielenoppijoiden luonnollisen puheen objektiivisisesta sekä subjektiivisesta arvioinnista, ja myös analyysi erilaisten objektiivisten mittojen käytöstä HMM-GMM-pohjaisen puhesynteesin laadun arviointiin. Väitöskirjassa esitellään myös puhesynteesi- ja puheentunnistuskomponentteihin perustuva järjestelmä, joka arvioi ja pisteyttää vieraan kielen oppijoiden lausumisyrityksiä. Yksittäisten lausumien automaattinen arvostelu on hankalaa. Järjestelmämme onnistui tekemään riittävän tarkkoja arvioita riittävän nopeasti, jotta sitä voitiin käyttää kielenoppimisen tutkimukseen kehitetyissä tietokonepeleissä.fi
dc.format.extent118 + app. 86
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-8595-1 (electronic)
dc.identifier.isbn978-952-60-8594-4 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/38440
dc.identifier.urnURN:ISBN:978-952-60-8595-1
dc.language.isoenen
dc.opnKnill, Kate, Dr., Cambridge University, UK
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Matthew Gibson, Teemu Hirsimäki, Reima Karhila, Mikko Kurimo, William Byrne. Unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis using two-pass decision tree construction. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Dallas, Texas, United States, March 2010, pages 4642-4645. DOI: 10.1109/ICASSP.2010.5495196
dc.relation.haspart[Publication 2]: Reima Karhila, Mikko Kurimo. Unsupervised cross-lingual speaker adaptation for accented speech recognition. In Proceedings of the IEEE Spoken Language Technology Workshop (SLT), Berkeley, CA, United States, December 2010, pages 109-114. DOI: 10.1109/SLT.2010.5700831
dc.relation.haspart[Publication 3]: Mirjam Wester, Reima Karhila. Speaker similarity evaluation of foreign-accented speech synthesis using HMM-based speaker adaptation. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Prague, Czech Republic, March 2011, pages 5372-5375. DOI: 10.1109/ICASSP.2011.5947572
dc.relation.haspart[Publication 4]: Reima Karhila, Mirjam Wester. Rapid Adaptation of Foreign-Accented HMM-Based Speech Synthesis. In Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), Florence, Italy, August 2011, pages 2801-2804.
dc.relation.haspart[Publication 5]: Reima Karhila, Doddipatla Rama Sanand, Mikko Kurimo, Peter Smit. Creating synthetic voices for children by adapting adult average voice using stacked transformations and VTLN. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, March 2012, pages 4501-4504. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201701191339. DOI: 10.1109/ICASSP.2012.6288918
dc.relation.haspart[Publication 6]: Antti Suni, Reima Karhila, Tuomo Raitio, Mikko Kurimo, Martti Vainio, Paavo Alku. Lombard modified text-to-speech synthesis for improved intelligibility: submission for the hurricane challenge. In Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), Lyon, France, August 2013, pages 3562-3566.
dc.relation.haspart[Publication 7]: Ulpu Remes, Reima Karhila, Mikko Kurimo. Objective evaluation measures for speaker-adaptive HMM-TTS systems. In Proceedings of the Eighth ISCA Workshop on Speech Synthesis (SSW), Barcelona, Spain, August-September 2013, pages 177-181.
dc.relation.haspart[Publication 8]: Reima Karhila, Ulpu Remes, Mikko Kurimo. Noise in HMM-Based Speech Synthesis Adaptation: Analysis, Evaluation Methods and Experiments. IEEE Journal of Selected Topics in Signal Processing, 2014, volume 8,issue 2, pages 285-295. DOI: 10.1109/JSTSP.2013.2278492
dc.relation.haspart[Publication 9]: Antti Suni, Tuomo Raitio, Dhananjaya Gowda, Reima Karhila, Matthew Gibson, Oliver Watts. The Simple4All entry to the Blizzard Challenge 2014. In Proceedings of the ISCA SynSig Blizzard Challenge, Singapore. DOI: 10.13140/2.1.3217.2804
dc.relation.haspart[Publication 10]: Reima Karhila, Aku Rouhe, Anna-Riikka Smolander, Seppo Enarvi, Kalle Palomäki, Maria Uther, Peter Smit, Helena Meissner, Sari Ylinen, Mikko Kurimo. Automatic Pronunciation Scoring in a Language Learning Game for Children. Submitted, 2018.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries110/2019
dc.revEvanini, Keelan, Dr., Educational Testing Service (ETS), USA
dc.revRichmond, Korin, Assoc. Prof., University of Edinburgh, UK
dc.subject.keywordstatistical parametric speech synthesisen
dc.subject.keywordautomatic speech recognitionen
dc.subject.keywordcomputer assisted pronunciation trainingen
dc.subject.keywordspeech synthesis quality evaluationen
dc.subject.keywordacoustic model adaptationen
dc.subject.keywordtilastollinen parametrinen puhesynteesifi
dc.subject.keywordautomaattinen puheentunnistusfi
dc.subject.keywordsynteettisen puheen laadunarviointifi
dc.subject.keywordtietokoneavusteinen lausumisenopetusfi
dc.subject.keywordakustisten mallien adaptointifi
dc.subject.otherElectrical engineeringen
dc.subject.otherAcousticsen
dc.titleBuilding personalised speech technology systems with sparse, bad quality or out-of-domain dataen
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2019-07-03_1324
local.aalto.archiveyes
local.aalto.formfolder2019_06_04_klo_15_39
local.aalto.infraAalto Acoustics Lab
local.aalto.infraScience-IT

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526085951.pdf
Size:
1.02 MB
Format:
Adobe Portable Document Format