Building personalised speech technology systems with sparse, bad quality or out-of-domain data

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2019-06-14
Date
2019
Major/Subject
Mcode
Degree programme
Language
en
Pages
118 + app. 86
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 110/2019
Abstract
Automatic speech recognition and text-to-speech systems offer handsfree and eyesfree interfaces for applications on computers, telephones and home and wearable electronics. The perceived quality and identity of a text-to-speech system's voice are essential to the user experience. The possibilities for different speaker identities are practically limitless if short or out-of-domain collections of speech can be used to transfer speaker identity to the synthetic voice. This thesis describes background, methods and results for a group of experiments performed with statistical parametric speech synthesis and speech recognition, with focus on speaker adaptation of the models and evaluation the quality of the systems' output. All these systems rely on speech models that are trained on large collections of speech and text data. The speech data have been preprocessed into acoustic features using a vocoder. The amount and quality of available data are addressed in experiments on the effects of background noise in the adaptation data of speaker-adaptive HMM-GMM statistical parametric speech synthesis, listener perception of speaker background in speaker adapted speech synthesis with sparse, foreign-accented data, and stacking group and speaker adaptations to improve quality of speech synthesis for out-of-domain speakers. Cross-lingual adaptation is investigated in experiments on probabilistic cross-lingual speaker adaptation when a model for source language is not available, and bilingual speech synthesis with code-switching when source language data is not available for one of the languages. In all these studies, the speaker characteristics were successfully transferred to a synthesic voice even if the adaptation data was noisy, in another language or there was very little of it. Cross-lingual adaptation was also investigated for automatic speech recognition of bilingual speakers and found to improve recognition results. Any system development relies on measuring the quality of the output, and this thesis also includes an overview of objective and subjective methods of quality evaluation for synthetic speech and natural foreign language speech, as well as an analysis of different objective measures for evaluating quality of HMM-GMM based speech synthesis systems. Building on components of speech recognition and synthesis systems, this thesis also presents a system for evaluating and scoring the pronunciation quality of foreign language learners utterances. Rating pronunciation quality of single utterances is a difficult problem but our system manages to do it at a speed and reliability that is satisfactory for computer games used to study language learning.

Automaattisen puheentunnistuksen ja puhesynteesin avulla on mahdollista rakentaa käyttöliittymiä, jotka eivät vaadi käsien tai silmien käyttöä. Näillä käyttöliittymillä voi ohjata sovelluksia tietokoneissa, puhelimissa, kodinelektroniikassa tai puettavassa elektroniikassa. Kuulijan havainnot synteettisen äänen laadusta ja puhujaidentiteetistä ovat olennainen osa käyttäjäkokemusta. Erilaisten puhujaidentiteettien kirjo on käytännössä rajaton, mikäli puhujaidentiteetin siirtoon voidaan käyttää lyhyitä tai muihin tarkoituksiin kerättyjä puheaineistoja. Tässä väitöskirjassa kuvataan tausta, menetelmät sekä tulokset joukolle tilastollisen parametrisen puhesynteesin ja puheentunnistuken alojen kokeita. Kokeiden pääpaino on puhujamallien adaptoinnissa ja järjestelmien tuotosten laadun arvioinissa. Kaikki kuvatut järjestelmät nojaavat puhemalleihin, jotka on opetettu suuresta puhe- ja tekstiaineistosta. Puheaineistot on esikäsitelty akustisiksi piirrevektoreiksi vokooderilla. Saatavilla olevan datan määrän ja laadun vaikutuksia tutkitaan väitöskirjassa raportoiduissa kokeissa, jotka koskevat äänitysten taustamelun vaikutuksia puhuja-adaptoitavaan paramtetiseen HMM-GMM puhesynteesiin, kuulijoiden kokemusta puhujaidentiteetistä rajatulla datamäärällä kielen yli adaptoivassa puhesynteesissä ja yksittäisen puhujan ja puhujajoukon adaptaatioiden ketjuttamista puhesynteesin parantamiseksi uudentyyppisille puhujille, jotka eivät ole hyvin edustettuin opetusdatassa. Puhuja-adaptaation tekemistä kielen yli tutkitaan kokeissa, jotka koskevat probabilistista puhuja-adaptaatiota kun saatavilla ei ole riittävää määrää lähtökielen puhedataa ja kaksikielistä puhesynteesiä lauseensisäisellä koodinvaihdolla kun käytössä ei ole toisen kielen puhedataa puhujalta. Kaikissa näissä kokeissa puhujaidentiteetti onnistuttiin siirtämään synteettiselle äänelle, vaikka adaptaatiodata oli meluisaa, toisella kielellä tai sitä oli hyvin vähän. Kielen yli adaptointia tutkittiin myös kaksikielisten puhujien puheentunnistuksessa, ja sen huomattiin parantavan tunnistustuloksia. Minkä tahansa järjestelmän kehittäminen vaatii tuotosten laadun mittaamista, ja tässä väitöskirjassa on mukana taustaa synteettisen puheen sekä kielenoppijoiden luonnollisen puheen objektiivisisesta sekä subjektiivisesta arvioinnista, ja myös analyysi erilaisten objektiivisten mittojen käytöstä HMM-GMM-pohjaisen puhesynteesin laadun arviointiin. Väitöskirjassa esitellään myös puhesynteesi- ja puheentunnistuskomponentteihin perustuva järjestelmä, joka arvioi ja pisteyttää vieraan kielen oppijoiden lausumisyrityksiä. Yksittäisten lausumien automaattinen arvostelu on hankalaa. Järjestelmämme onnistui tekemään riittävän tarkkoja arvioita riittävän nopeasti, jotta sitä voitiin käyttää kielenoppimisen tutkimukseen kehitetyissä tietokonepeleissä.
Description
Supervising professor
Kurimo, Mikko, Assoc. Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Kurimo, Mikko, Assoc. Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
statistical parametric speech synthesis, automatic speech recognition, computer assisted pronunciation training, speech synthesis quality evaluation, acoustic model adaptation, tilastollinen parametrinen puhesynteesi, automaattinen puheentunnistus, synteettisen puheen laadunarviointi, tietokoneavusteinen lausumisenopetus, akustisten mallien adaptointi
Other note
Parts
  • [Publication 1]: Matthew Gibson, Teemu Hirsimäki, Reima Karhila, Mikko Kurimo, William Byrne. Unsupervised cross-lingual speaker adaptation for HMM-based speech synthesis using two-pass decision tree construction. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Dallas, Texas, United States, March 2010, pages 4642-4645.
    DOI: 10.1109/ICASSP.2010.5495196 View at publisher
  • [Publication 2]: Reima Karhila, Mikko Kurimo. Unsupervised cross-lingual speaker adaptation for accented speech recognition. In Proceedings of the IEEE Spoken Language Technology Workshop (SLT), Berkeley, CA, United States, December 2010, pages 109-114.
    DOI: 10.1109/SLT.2010.5700831 View at publisher
  • [Publication 3]: Mirjam Wester, Reima Karhila. Speaker similarity evaluation of foreign-accented speech synthesis using HMM-based speaker adaptation. In Proceedings of the IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Prague, Czech Republic, March 2011, pages 5372-5375.
    DOI: 10.1109/ICASSP.2011.5947572 View at publisher
  • [Publication 4]: Reima Karhila, Mirjam Wester. Rapid Adaptation of Foreign-Accented HMM-Based Speech Synthesis. In Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), Florence, Italy, August 2011, pages 2801-2804.
  • [Publication 5]: Reima Karhila, Doddipatla Rama Sanand, Mikko Kurimo, Peter Smit. Creating synthetic voices for children by adapting adult average voice using stacked transformations and VTLN. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, March 2012, pages 4501-4504.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201701191339
    DOI: 10.1109/ICASSP.2012.6288918 View at publisher
  • [Publication 6]: Antti Suni, Reima Karhila, Tuomo Raitio, Mikko Kurimo, Martti Vainio, Paavo Alku. Lombard modified text-to-speech synthesis for improved intelligibility: submission for the hurricane challenge. In Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), Lyon, France, August 2013, pages 3562-3566.
  • [Publication 7]: Ulpu Remes, Reima Karhila, Mikko Kurimo. Objective evaluation measures for speaker-adaptive HMM-TTS systems. In Proceedings of the Eighth ISCA Workshop on Speech Synthesis (SSW), Barcelona, Spain, August-September 2013, pages 177-181.
  • [Publication 8]: Reima Karhila, Ulpu Remes, Mikko Kurimo. Noise in HMM-Based Speech Synthesis Adaptation: Analysis, Evaluation Methods and Experiments. IEEE Journal of Selected Topics in Signal Processing, 2014, volume 8,issue 2, pages 285-295.
    DOI: 10.1109/JSTSP.2013.2278492 View at publisher
  • [Publication 9]: Antti Suni, Tuomo Raitio, Dhananjaya Gowda, Reima Karhila, Matthew Gibson, Oliver Watts. The Simple4All entry to the Blizzard Challenge 2014. In Proceedings of the ISCA SynSig Blizzard Challenge, Singapore.
    DOI: 10.13140/2.1.3217.2804 View at publisher
  • [Publication 10]: Reima Karhila, Aku Rouhe, Anna-Riikka Smolander, Seppo Enarvi, Kalle Palomäki, Maria Uther, Peter Smit, Helena Meissner, Sari Ylinen, Mikko Kurimo. Automatic Pronunciation Scoring in a Language Learning Game for Children. Submitted, 2018.
Citation