End-to-End Low-Resource Automatic Speech Recognition for Second Language Learners

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorAl-Ghezi, Ragheb
dc.contributor.authorGetman, Yaroslav
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorKurimo, Mikko
dc.date.accessioned2021-10-24T17:10:10Z
dc.date.available2021-10-24T17:10:10Z
dc.date.issued2021-10-19
dc.description.abstractApart from native speech, second language learners' (L2) speech is more difficult to recognize for automatic speech recognition (ASR) systems, since it is much more likely to contain lexical and grammatical errors, as well as disfluencies and mispronunciations. Furthermore, L2 ASR is challenging, because it is low-resource, meaning that the amount of training data is very limited. Unlike conventionally used Hidden Markov Model-based ASR systems, end-to-end ASR systems eliminate the need for separate components by directly mapping acoustic features to text. However, these systems require large amounts of labelled training data, which makes it difficult to apply them on L2 ASR. Recent advancements in self-supervised acoustic learning leverage the highly available untranscribed speech data to learn powerful acoustic representations which can be incorporated in end-to-end systems. This work explores and deploys mono- and multilingual self-supervised acoustic models on low-resource L2 ASR. In this thesis, the ASR systems are developed for L2 speakers of Finland-Swedish, Finnish, and German. Depending on the target language, the self-supervised end-to-end models provide a relative improvement of the word error rate by 31.3-45.1\% compared to the results of the conventional ASR systems. The results obtained in this thesis show the high performance and the promising potential of self-supervised end-to-end acoustic models for low-resource L2 ASR. In addition, this work is an important step in the development of automatic speaking assessment tools for L2 speakers, in which an accurate ASR system is a crucial component.en
dc.description.abstractToisen kielen oppijoiden puheentunnistus on haastava tehtävä kielioppi- ja ääntämisvirheiden sekä puheen epäsujuvuuden vuoksi. Sen lisäksi kielenoppijoiden puheentunnistus on vähäresurssista, sillä toisen kielen oppijoiden puhedataa on niukasti saatavilla. Markovin piilomalleihin pohjautuvat puheentunnistimet vaativat yleensä komponenttiensa mukauttamista toisen kielen oppijoiden puheentunnistusta varten. Toisaalta yhtenäiset, end-to-end -periaatteeseen perustuvat neuroverkkomallit poistavat tarpeen erillisistä mukautetuista moduuleista kääntämällä akustisia piirteitä suoraan tekstiksi. Näitä malleja on kuitenkin vaikea soveltaa toisen kielen oppijoiden puheentunnistukseen, koska ne tarvitsevat paljon litteroitua opetusdataa. Viime aikoina kehitetyt itseohjatut neuroverkkomallit pystyvät oppimaan rikkaita puheen piirteitä hyödyntämällä runsaasti saatavilla olevaa litteroimatonta puhedataa. Nämä opitut piirteet mahdollistavat yhtenäisen puheentunnistusjärjestelmän opettamista myös pienemmällä määrällä litteroitua puhedataa. Tässä diplomityössä tutkitaan yksi- ja monikielisiä itseohjattuja neuroverkkomalleja sekä niiden soveltuvuutta toisen kielen oppijoiden puheentunnistukseen. Tässä työssä kehitetään puheentunnistimia suomenruotsin, suomen sekä saksan oppijoiden puheentunnistamiseen. Tässä diplomityössä opetetut itseohjatut puheentunnistusjärjestelmät pienentävät sanavirheastetta kielestä riippuen 31.3-45.1 prosenttiyksikköä verrattuna perinteisiin malleihin. Tässä työssä saavutetut tulokset osoittavat, että itseohjattuja yhtenäisiä puheentunnistusmalleja on mahdollista käyttää tehokkaasti vähäresurssiseen toisen kielen oppijoiden puheentunnistukseen. Tämä työ on myös tärkeä askel kohti automaattisen toisen kielen puhumisen arviointijärjestelmän kehittämistä, jossa tarkka puheentunnistin on olennainen osa systeemiä.fi
dc.format.extent49+10
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/110588
dc.identifier.urnURN:NBN:fi:aalto-202110249766
dc.language.isoenen
dc.locationP1fi
dc.programmeCCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)fi
dc.programme.majorSignal, Speech and Language Processing (SSLP)fi
dc.programme.mcodeELEC3031fi
dc.subject.keywordASRen
dc.subject.keywordend-to-enden
dc.subject.keywordlow-resourceen
dc.subject.keywordWav2Vec2.0en
dc.titleEnd-to-End Low-Resource Automatic Speech Recognition for Second Language Learnersen
dc.titleYhtenäinen Vähäresurssinen Puheentunnistus Toisen Kielen Oppijoillefi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Getman_Yaroslav_2021.pdf
Size:
3.19 MB
Format:
Adobe Portable Document Format