End-to-End Low-Resource Automatic Speech Recognition for Second Language Learners
Loading...
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2021-10-19
Department
Major/Subject
Signal, Speech and Language Processing (SSLP)
Mcode
ELEC3031
Degree programme
CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)
Language
en
Pages
49+10
Series
Abstract
Apart from native speech, second language learners' (L2) speech is more difficult to recognize for automatic speech recognition (ASR) systems, since it is much more likely to contain lexical and grammatical errors, as well as disfluencies and mispronunciations. Furthermore, L2 ASR is challenging, because it is low-resource, meaning that the amount of training data is very limited. Unlike conventionally used Hidden Markov Model-based ASR systems, end-to-end ASR systems eliminate the need for separate components by directly mapping acoustic features to text. However, these systems require large amounts of labelled training data, which makes it difficult to apply them on L2 ASR. Recent advancements in self-supervised acoustic learning leverage the highly available untranscribed speech data to learn powerful acoustic representations which can be incorporated in end-to-end systems. This work explores and deploys mono- and multilingual self-supervised acoustic models on low-resource L2 ASR. In this thesis, the ASR systems are developed for L2 speakers of Finland-Swedish, Finnish, and German. Depending on the target language, the self-supervised end-to-end models provide a relative improvement of the word error rate by 31.3-45.1\% compared to the results of the conventional ASR systems. The results obtained in this thesis show the high performance and the promising potential of self-supervised end-to-end acoustic models for low-resource L2 ASR. In addition, this work is an important step in the development of automatic speaking assessment tools for L2 speakers, in which an accurate ASR system is a crucial component.Toisen kielen oppijoiden puheentunnistus on haastava tehtävä kielioppi- ja ääntämisvirheiden sekä puheen epäsujuvuuden vuoksi. Sen lisäksi kielenoppijoiden puheentunnistus on vähäresurssista, sillä toisen kielen oppijoiden puhedataa on niukasti saatavilla. Markovin piilomalleihin pohjautuvat puheentunnistimet vaativat yleensä komponenttiensa mukauttamista toisen kielen oppijoiden puheentunnistusta varten. Toisaalta yhtenäiset, end-to-end -periaatteeseen perustuvat neuroverkkomallit poistavat tarpeen erillisistä mukautetuista moduuleista kääntämällä akustisia piirteitä suoraan tekstiksi. Näitä malleja on kuitenkin vaikea soveltaa toisen kielen oppijoiden puheentunnistukseen, koska ne tarvitsevat paljon litteroitua opetusdataa. Viime aikoina kehitetyt itseohjatut neuroverkkomallit pystyvät oppimaan rikkaita puheen piirteitä hyödyntämällä runsaasti saatavilla olevaa litteroimatonta puhedataa. Nämä opitut piirteet mahdollistavat yhtenäisen puheentunnistusjärjestelmän opettamista myös pienemmällä määrällä litteroitua puhedataa. Tässä diplomityössä tutkitaan yksi- ja monikielisiä itseohjattuja neuroverkkomalleja sekä niiden soveltuvuutta toisen kielen oppijoiden puheentunnistukseen. Tässä työssä kehitetään puheentunnistimia suomenruotsin, suomen sekä saksan oppijoiden puheentunnistamiseen. Tässä diplomityössä opetetut itseohjatut puheentunnistusjärjestelmät pienentävät sanavirheastetta kielestä riippuen 31.3-45.1 prosenttiyksikköä verrattuna perinteisiin malleihin. Tässä työssä saavutetut tulokset osoittavat, että itseohjattuja yhtenäisiä puheentunnistusmalleja on mahdollista käyttää tehokkaasti vähäresurssiseen toisen kielen oppijoiden puheentunnistukseen. Tämä työ on myös tärkeä askel kohti automaattisen toisen kielen puhumisen arviointijärjestelmän kehittämistä, jossa tarkka puheentunnistin on olennainen osa systeemiä.Description
Supervisor
Kurimo, MikkoThesis advisor
Al-Ghezi, RaghebKeywords
ASR, end-to-end, low-resource, Wav2Vec2.0