Attention-based End-to-End Models in Language Technology

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2024-02-23
Date
2024
Major/Subject
Mcode
Degree programme
Language
en
Pages
117 + app. 143
Series
Aalto University publication series DOCTORAL THESES, 32/2024
Abstract
Speech recognition specifically, and language technology more generally, have started to find everyday use. Challenging language tasks have become feasible through a continued growth in data resources and compute capacity, and through neural networks methods which are able to take advantage of this growth. As applications continue to integrate more deeply into our lives, it is important to understand and follow the many directions that these fields may take. At the turn of the 2020-decade, end-to-end models have received a lot of attention. End-to-end models hold  promise of simpler solutions, which nonetheless may scale better with data and compute. On the other hand, end-to-end models defy decomposing tasks into easier subproblems. This decomposition allows modular designs, which permit a wider variety of data sources to be used. It remains unclear whether the end-to-end models are truly an improvement over previous technologies. It is not straight-forward to compare end-to-end and decomposed solutions fairly, because of their many differences. This thesis proposes a principled approach for comparisons of such heterogeneous solutions and applies it to speech recognition. In their default configuration, the end-to-end models forego many useful data sources, and rely solely on expensive end-to-end labeled data. This thesis explores methods for leveraging additional data sources in speech recognition, canonical morpheme segmentation, and spoken language translation. Additional data sources are especially useful in low data and under-resourced tasks. These difficult tasks often need the structure imposed by decomposed solutions. This thesis investigates end-to-end models in an under-resourced speech recognition and a low data canonical morpheme segmentation task. The tasks explored in this thesis are connected through a shared architecture: attention-based encoder-decoder models. Though these attention-based models are most often outperformed by hidden Markov model speech recognition systems, they showcase remarkable flexibility. They succeed in speech recognition using just tens of hours and upto thousands of hours of data. They learn to exploit auxiliary speaker and segmentation-marker inputs. They perform spoken language translation in one step. They even yield the author a first place in a public benchmark competition.

Puheentunnistus ja kieliteknologiat laajemminkin ovat tulleet arkipäiväisiksi. Jatkuva data- ja laskentaresurssien kasvu ja neuroverkot, joilla tätä kasvua pystytään hyödyntämään, ovat tehneet haastavista kielenkäsittelyn tehtävistä mahdollisia. On tärkeää ymmärtää eri polkuja, joita kieliteknologien kehitys voi kulkea nyt, kun alan sovellukset ovat osa elämäämme. Tämän 2020 alkaneen vuosikymmenen alussa koneoppimisalalla tulivat suosituiksi niin sanotut kokonaismallit. Kokonaismalleissa yksi malli (yleisesti jokin neuroverkko) ratkaisee koko tehtävän alusta loppuun. Kokonaismallit ovat yksinkertaisen rakenteensa vuoksi helppokäyttöisiä, ja ne skaalautuvat hyvin suuriin data- ja laskentamääriin. Toisaalta monen ongelman voi hajottaa osiin, joiden mallintaminen on helpompaa. Osaongelmia varten löytyy usein omia aineistoja, joita kokonaisratkaisut eivät perusmuodossaan pysty hyödyntämään. On yhä epäselvää ovatko kokonaismallit parempia kuin hajotetut ratkaisut. Näillä saatujen tulosten vertailua hämärtävät usein erot käytetyssä datassa sekä käytetyissä neuroverkkoratkaisuissa. Tämä väitöskirja esittelee vertailuasetelman, jossa data ja neuroverkkoratkaisut yhdenmukaistetaan. Tätä vertailuasetelmaa sovelletaan puheentunnistukseen. Lisäksi väitöskirjassa esitellään tapoja hyödyntää ylimääräisiä datoja kokonaismallien parantamiseksi puheentunnistuksessa, kanonisessa morfisegmentoinnissa, sekä puhutun kielen automaattisessa kääntämisessä. Ylimääräiset datat ja hajotettujen mallien rakenne ovat erityisen hyödyllisiä, kun kokonaismallidataa on vähän, esimerkiksi kun kysessä on aliresursoitu kieli. Väitöskirjassa tutkitaan kokonaismallien toimintaa aliresursoiduissa puheentunnistustehtävissä ja kanonisessa morfisegmentoinnissa. Väitöskirjassa käsiteltyjä tehtäviä yhdistää neuroverkkoarkkitehtuuri: attentiomekanismipohjainen kooderi-dekooderi. Väitöskirjan kokeissa kätkettyyn Markov-ketjuun pohjautuvat hajotetut mallit useimmiten peittoavat suorituskyvyssä nämä attentiomekanismipohjaiset kokonaismallit. Attentiomekanismipohjaiset mallit osoittavat kuitenkin huomattavaa joustavuutta kymmenien, satojen ja tuhansien tuntien puheentunnistusaineistoilla. Ne oppivat hyödyntämään puhujavektoreita ja pintasegmentaatiomerkintöjä, kääntävät puhetta suoraan toiselle kielelle ja tuovat kirjoittajalle ensimmäisen sijan julkisessa morfisegmentointikilpailutehtävässä.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Information and Communications Engineering, Finland
Thesis advisor
Grósz, Tamás, Dr., Aalto University, Speech Recognition, Finland
Keywords
speech recognition, spoken language translation, canonical morpheme segmentation, end-to-end models, puheentunnistus, puheen kääntäminen, kanoninen morfisegmentointi, kokonaismallit
Other note
Parts
  • [Publication 1]: Aku Rouhe, Astrid Van Camp, Mittul Singh, Hugo Van Hamme, Mikko Kurimo. An equal data setting for Attention-based Encoder-Decoder and HMM/DNN models: A case study in Finnish ASR. In 23rd International Conference on Speech and Computer SPECOM, St. Petersburg, Russia, pp. 602–613, September 2021.
    DOI: 10.1007/978-3-030-87802-3_54 View at publisher
  • [Publication 2]: Anja Virkkunen, Aku Rouhe, Nhan Phan, Mikko Kurimo. Finnish parliament ASR corpus. Language Resources and Evaluation, https://doi.org/10.1007/s10579-023-09650-7, March 2023.
    DOI: 10.1007/s10579-023-09650-7 View at publisher
  • [Publication 3]: Aku Rouhe, Tamas Grósz, Mikko Kurimo. Principled Comparisons for End-to-End Speech Recognition: Attention vs Hybrid at the 1000-hour Scale. IEEE/ACM Transactions on Audio, Speech, and Language Processing, pp. 623-638 Volume 32, 2024.
  • [Publication 4]: Aku Rouhe, Tuomas Kaseva, Mikko Kurimo. Speaker-Aware Training of Attention-Based End-to-End Speech Recognition Using Neural Speaker Embeddings. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Barcelona, Spain, pp. 7064-7068, May 2020.
    DOI: 10.1109/ICASSP40776.2020.9053998 View at publisher
  • [Publication 5]: Aku Rouhe, Anja Virkkunen, Juho Leinonen, Mikko Kurimo. Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. In Proceedings of Interspeech, Incheon, Korea, pp. 3543-3547, September 2022.
    DOI: 10.21437/Interspeech.2022-1131 View at publisher
  • [Publication 6]: Umut Sulubacak, Ozan Caglayan, Stig-Arne Grönroos, Aku Rouhe, Desmond Elliott, Lucia Specia, Jörg Tiedemann. Multimodal machine translation through visuals and speech. Machine Translation volume 34, August 2020.
    DOI: 10.1007/s10590-020-09250-0 View at publisher
  • [Publication 7]: Aku Rouhe, Stig-Arne Grönroos, Sami Virpioja, Mathias Creutz, Mikko Kurimo. Morfessor-enriched features and multilingual training for canonical morphological segmentation. In Proceedings of the 19th SIGMORPHON Workshop on Computational Research in Phonetics, Phonology, and Morphology, Seattle, Washington, pp. 144–151, July 2022.
    DOI: 10.18653/v1/2022.sigmorphon-1.16 View at publisher
Citation