Attention-based End-to-End Models in Language Technology

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorGrósz, Tamás, Dr., Aalto University, Speech Recognition, Finland
dc.contributor.authorRouhe, Aku
dc.contributor.departmentInformaatio- ja tietoliikennetekniikan laitosfi
dc.contributor.departmentDepartment of Information and Communications Engineeringen
dc.contributor.labSpeech Recognition Research Groupen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorKurimo, Mikko, Prof., Aalto University, Department of Information and Communications Engineering, Finland
dc.date.accessioned2024-02-12T10:00:16Z
dc.date.available2024-02-12T10:00:16Z
dc.date.defence2024-02-23
dc.date.issued2024
dc.description.abstractSpeech recognition specifically, and language technology more generally, have started to find everyday use. Challenging language tasks have become feasible through a continued growth in data resources and compute capacity, and through neural networks methods which are able to take advantage of this growth. As applications continue to integrate more deeply into our lives, it is important to understand and follow the many directions that these fields may take. At the turn of the 2020-decade, end-to-end models have received a lot of attention. End-to-end models hold  promise of simpler solutions, which nonetheless may scale better with data and compute. On the other hand, end-to-end models defy decomposing tasks into easier subproblems. This decomposition allows modular designs, which permit a wider variety of data sources to be used. It remains unclear whether the end-to-end models are truly an improvement over previous technologies. It is not straight-forward to compare end-to-end and decomposed solutions fairly, because of their many differences. This thesis proposes a principled approach for comparisons of such heterogeneous solutions and applies it to speech recognition. In their default configuration, the end-to-end models forego many useful data sources, and rely solely on expensive end-to-end labeled data. This thesis explores methods for leveraging additional data sources in speech recognition, canonical morpheme segmentation, and spoken language translation. Additional data sources are especially useful in low data and under-resourced tasks. These difficult tasks often need the structure imposed by decomposed solutions. This thesis investigates end-to-end models in an under-resourced speech recognition and a low data canonical morpheme segmentation task. The tasks explored in this thesis are connected through a shared architecture: attention-based encoder-decoder models. Though these attention-based models are most often outperformed by hidden Markov model speech recognition systems, they showcase remarkable flexibility. They succeed in speech recognition using just tens of hours and upto thousands of hours of data. They learn to exploit auxiliary speaker and segmentation-marker inputs. They perform spoken language translation in one step. They even yield the author a first place in a public benchmark competition.en
dc.description.abstractPuheentunnistus ja kieliteknologiat laajemminkin ovat tulleet arkipäiväisiksi. Jatkuva data- ja laskentaresurssien kasvu ja neuroverkot, joilla tätä kasvua pystytään hyödyntämään, ovat tehneet haastavista kielenkäsittelyn tehtävistä mahdollisia. On tärkeää ymmärtää eri polkuja, joita kieliteknologien kehitys voi kulkea nyt, kun alan sovellukset ovat osa elämäämme. Tämän 2020 alkaneen vuosikymmenen alussa koneoppimisalalla tulivat suosituiksi niin sanotut kokonaismallit. Kokonaismalleissa yksi malli (yleisesti jokin neuroverkko) ratkaisee koko tehtävän alusta loppuun. Kokonaismallit ovat yksinkertaisen rakenteensa vuoksi helppokäyttöisiä, ja ne skaalautuvat hyvin suuriin data- ja laskentamääriin. Toisaalta monen ongelman voi hajottaa osiin, joiden mallintaminen on helpompaa. Osaongelmia varten löytyy usein omia aineistoja, joita kokonaisratkaisut eivät perusmuodossaan pysty hyödyntämään. On yhä epäselvää ovatko kokonaismallit parempia kuin hajotetut ratkaisut. Näillä saatujen tulosten vertailua hämärtävät usein erot käytetyssä datassa sekä käytetyissä neuroverkkoratkaisuissa. Tämä väitöskirja esittelee vertailuasetelman, jossa data ja neuroverkkoratkaisut yhdenmukaistetaan. Tätä vertailuasetelmaa sovelletaan puheentunnistukseen. Lisäksi väitöskirjassa esitellään tapoja hyödyntää ylimääräisiä datoja kokonaismallien parantamiseksi puheentunnistuksessa, kanonisessa morfisegmentoinnissa, sekä puhutun kielen automaattisessa kääntämisessä. Ylimääräiset datat ja hajotettujen mallien rakenne ovat erityisen hyödyllisiä, kun kokonaismallidataa on vähän, esimerkiksi kun kysessä on aliresursoitu kieli. Väitöskirjassa tutkitaan kokonaismallien toimintaa aliresursoiduissa puheentunnistustehtävissä ja kanonisessa morfisegmentoinnissa. Väitöskirjassa käsiteltyjä tehtäviä yhdistää neuroverkkoarkkitehtuuri: attentiomekanismipohjainen kooderi-dekooderi. Väitöskirjan kokeissa kätkettyyn Markov-ketjuun pohjautuvat hajotetut mallit useimmiten peittoavat suorituskyvyssä nämä attentiomekanismipohjaiset kokonaismallit. Attentiomekanismipohjaiset mallit osoittavat kuitenkin huomattavaa joustavuutta kymmenien, satojen ja tuhansien tuntien puheentunnistusaineistoilla. Ne oppivat hyödyntämään puhujavektoreita ja pintasegmentaatiomerkintöjä, kääntävät puhetta suoraan toiselle kielelle ja tuovat kirjoittajalle ensimmäisen sijan julkisessa morfisegmentointikilpailutehtävässä.fi
dc.format.extent117 + app. 143
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-64-1672-4 (electronic)
dc.identifier.isbn978-952-64-1671-7 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/126727
dc.identifier.urnURN:ISBN:978-952-64-1672-4
dc.language.isoenen
dc.opnSchlüter, Ralf, Prof., RWTH Aachen University, Germany
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Aku Rouhe, Astrid Van Camp, Mittul Singh, Hugo Van Hamme, Mikko Kurimo. An equal data setting for Attention-based Encoder-Decoder and HMM/DNN models: A case study in Finnish ASR. In 23rd International Conference on Speech and Computer SPECOM, St. Petersburg, Russia, pp. 602–613, September 2021. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202110209650. DOI: 10.1007/978-3-030-87802-3_54
dc.relation.haspart[Publication 2]: Anja Virkkunen, Aku Rouhe, Nhan Phan, Mikko Kurimo. Finnish parliament ASR corpus. Language Resources and Evaluation, https://doi.org/10.1007/s10579-023-09650-7, March 2023. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202304192791. DOI: 10.1007/s10579-023-09650-7
dc.relation.haspart[Publication 3]: Aku Rouhe, Tamas Grósz, Mikko Kurimo. Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-hour Scale. IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 623-638 Volume 32, 2024. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202401041095. 10.1109/taslp.2023.3336517
dc.relation.haspart[Publication 4]: Aku Rouhe, Tuomas Kaseva, Mikko Kurimo. Speaker-Aware Training of Attention-Based End-to-End Speech Recognition Using Neural Speaker Embeddings. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, pp. 7064-7068, May 2020. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202009045265. DOI: 10.1109/ICASSP40776.2020.9053998
dc.relation.haspart[Publication 5]: Aku Rouhe, Anja Virkkunen, Juho Leinonen, Mikko Kurimo. Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. In Proceedings of Interspeech, Incheon, Korea, pp. 3543-3547, September 2022. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202211096458. DOI: 10.21437/Interspeech.2022-1131
dc.relation.haspart[Publication 6]: Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann. Multimodal machine translation through visuals and speech. Machine Translation volume 34, August 2020. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202103102291. DOI: 10.1007/s10590-020-09250-0
dc.relation.haspart[Publication 7]: Aku Rouhe, Stig-Arne Grönroos, Sami Virpioja, Mathias Creutz, Mikko Kurimo. Morfessor-enriched features and multilingual training for canonical morphological segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, Seattle, Washington, pp. 144–151, July 2022. Full text in Acris/Aaltodoc: https://urn.fi/URN:NBN:fi:aalto-202301181269. DOI: 10.18653/v1/2022.sigmorphon-1.16
dc.relation.ispartofseriesAalto University publication series DOCTORAL THESESen
dc.relation.ispartofseries32/2024
dc.revBurget, Lukáš. Ptof., Brno University of Technology, Czech Republic
dc.revLi, Bo, Dr., Google LLC, USA
dc.subject.keywordspeech recognitionen
dc.subject.keywordspoken language translationen
dc.subject.keywordcanonical morpheme segmentationen
dc.subject.keywordend-to-end modelsen
dc.subject.keywordpuheentunnistusfi
dc.subject.keywordpuheen kääntäminenfi
dc.subject.keywordkanoninen morfisegmentointifi
dc.subject.keywordkokonaismallitfi
dc.subject.otherComputer scienceen
dc.titleAttention-based End-to-End Models in Language Technologyen
dc.titleAttentiopohjaiset kokonaismallit kieliteknologiassafi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2024-02-23_1125
local.aalto.archiveyes
local.aalto.formfolder2024_02_12_klo_06_56
local.aalto.infraScience-IT
Files
Original bundle
Now showing 1 - 2 of 2
No Thumbnail Available
Name:
isbn9789526416724.pdf
Size:
3.01 MB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
isbn9789526416724_errata.pdf
Size:
92.71 KB
Format:
Adobe Portable Document Format