Improving very large vocabulary language modeling and decoding for speech recognition in morphologically rich languages

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2020-12-16
Date
2020
Department
Signaalinkäsittelyn ja akustiikan laitos
Department of Signal Processing and Acoustics
Major/Subject
Mcode
Degree programme
Language
en
Pages
86 + app. 136
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 208/2020
Abstract
In the automatic speech recognition of agglutinative and morphologically rich languages, the recognition vocabulary may, in many tasks, need to cover several millions of word forms. This poses challenges for the search component of the speech recognizer, as in many cases, real-time recognition speed would be preferred, and the number of possible recognition hypotheses is large. A typical modern large vocabulary speech recognizer utilizes a probabilistic language model to assign prior probabilities for the word sequences. Estimating accurate language models from a text corpus also becomes harder due to increased data sparsity. So far, the most successful approach for the speech recognition of morphologically rich languages has been to segment the words to shorter, more frequently occurring units, thus alleviating the estimability problems. Also, if all concatenations of subwords are allowed, the recognition vocabulary is unlimited. This thesis concentrates on different approaches where a limited but very large recognition vocabulary is used. This type of recognizer can, in addition to the subword-based language models, also use language models trained over words and word classes to reach improved modeling accuracy. For the case where only a subword language model is used, the thesis shows a novel way of constructing the recognition graph. In this case, the recognition vocabulary is easy to augment with new word forms by utilizing resources like dictionaries and morphological analyzers. The constrained recognition vocabulary approaches are shown to be viable choices in many speech recognition use cases. Additionally, in this case, it is shown that the search may also operate in real time and even faster than the case where the recognition vocabulary was unlimited. Also, the recognition of non-words is avoided, and the recognition accuracy may exceed the unlimited vocabulary approach if a low enough out-of-vocabulary rate is reached. In one part of the thesis, human word recognition performance is analyzed using statistical morphological models in a visual lexical decision task where the participants' eye movements were also recorded using eye tracking. Morfessor Baseline -method, which segments only the infrequent words, predicted the observations well in most of the experiments. This finding supports the corresponding model of word recognition in humans.

Morfologisesti rikkaiden ja agglutinatiivisten kielten laajan sanaston puheentunnistuksen yksi haasteista on sanaston suuri koko. Tunnistussanaston täytyy monissa tunnistustehtävissä sisältää miljoonia sanamuotoja. Tämä on ongelmallista puheentunnistimelle, koska useissa käyttötapauksissa tavoitteena olisi reaaliaikainen tunnistus ja eri hypoteesien määrä on suuri. Tyypillinen moderni puheentunnistin käyttää todennäköisyyksiin perustuvaa kielimallia eri tunnistushypoteesien pisteytykseen. Tarkkojen kielimallien estimointi tekstikorpuksesta on myös haastavaa datan harvuuden vuoksi. Tähän asti yleisimmin käytetty lähestymistapa agglutinatiivisten kielten puheentunnistukseen on ollut segmentoida sanat lyhyemmiksi ja useammin esiintyviksi sanapaloiksi. Tällä tavalla vältetään datan harvuudesta aiheutuvat ongelmat kielimallin estimoinnissa. Mikäli kaikki sanapalojen väliset ketjut sallitaan, tunnistimen sanasto on rajoittamaton. Tämä väitöskirja keskittyy menetelmiin, joissa käytetään rajattua, mutta erittäin isoa tunnistussanastoa. Tällainen tunnistin pystyy sanapaloihin perustuvan kielimallin lisäksi hyödyntämään myös kielimalleja, joissa yksiköinä ovat kokonaiset sanat tai erilaiset sanojen luokittelut. Tapauksessa, jossa käytetään pelkästään sanapaloihin perustuvaa kielimallia, tutkitaan myös uutta tapaa konstruoida tunnistin käyttäen rajattua sanastoa. Tässä tapauksessa tunnistussanastoa on helppo laajentaa erilaisten muiden kieliresurssien kuten sanastojen tai morfologisten analysaattorien avulla. Väitöskirjassa osoitetaan, että rajatun sanaston tunnistus on varteenotettava vaihtoehto monissa tunnistustehtävissä myös morfologisesti rikkaille kielille. Tunnistin voi myös tässä tapauksessa toimia reaaliaikaisesti tai jopa nopeammin kuin rajaamattoman sanaston tunnistus. Rajatun sanaston tunnistuksessa hyvänä puolena on, että vältetään kieliopillisesti väärien sanamuotojen tunnistus. Tunnistustarkkuus voi myöskin olla parempi kuin rajoittamattoman sanaston tunnistuksessa, jos tunnistussanaston kattavuus on tarpeeksi suuri. Väitöskirjan yhdessä osassa ihmisten sanatunnistuksen tarkkuutta tutkitaan hyödyntäen tilastollisia morfologisia malleja visuaalisessa leksikaalisessa päätöstehtävässä. Tässä kokeessa myös koehenkilöiden silmänliikkeitä mitattiin silmänliikeseurannalla. Morfessor Baseline -menetelmä, joka pilkkoo vain harvinaiset sanat, ennusti mittaustuloksia hyvin eri koeasetelmissa. Tulos tukee vastaavaa mallia ihmisten sanantunnistuksessa.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Virpioja, Sami, Dr., University of Helsinki, Finland
Keywords
automatic speech recognition, morphologically rich languages, language modeling, psycholinguistics, automaattinen puheentunnistus, morfologisesti rikkaat kielet, kielimallinnus, psykolingvistiikka
Other note
Parts
  • [Publication 1]: Matti Varjokallio, Mikko Kurimo and Sami Virpioja. Learning a Subword Vocabulary Based on Unigram Likelihood. Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, Olomouc, Czech Republic, pages 7-12, December 2013.
    DOI: 10.1109/ASRU.2013.6707697 View at publisher
  • [Publication 2]: Matti Varjokallio and Mikko Kurimo. A Toolkit for Efficient Learning of Lexical Units for Speech Recognition. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, Iceland, pages 3072-3075, May 2014
  • [Publication 3]: Matti Varjokallio and Dietrich Klakow. Unsupervised Morph Segmentation and Statistical Language Models for Vocabulary Expansion. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL (Volume 2: Short Papers), Berlin, Germany, pages 175-180, August 2016.
    DOI: 10.18653/v1/P16-2029 View at publisher
  • [Publication 4]: Matti Varjokallio, Mikko Kurimo and Sami Virpioja. Class n-gram Models for Very Large Vocabulary Speech Recognition of Finnish and Estonian. Proceedings of the 4th International Conference on Statistical Language and Speech Processing, SLSP, Pilsen, Czech Republic, pages 133-144, October 2016.
    DOI: 10.1007/978-3-319-45925-7_11 View at publisher
  • [Publication 5]: Matti Varjokallio, Sami Virpioja and Mikko Kurimo. Morphologically Motivated Word Classes for Very Large Vocabulary Speech Recognition of Finnish and Estonian. Computer Speech & Language, volume 66, March 2021.
    DOI: 10.1016/j.csl.2020.101141 View at publisher
  • [Publication 6]: Matti Varjokallio and Mikko Kurimo. A Word-Level Token-Passing Decoder for Subword n-gram LVCSR. Proceedings of the 2014 IEEE Workshop on Spoken Language Technology, South Lake Tahoe, USA, pages 495-500, December 2014.
    DOI: 10.1109/SLT.2014.7078624 View at publisher
  • [Publication 7]: Mikko Kurimo, Seppo Enarvi, Ottokar Tilk, Matti Varjokallio, Andre Mansikkaniemi and Tanel Alumae. Modeling Under-Resourced Languagesfor Speech Recognition. Language Resources and Evaluation, volume 51, issue 4, pages 961-987, December 2017. Full text in Acrsi/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201708036363.
    DOI: 10.1007/s10579-016-9336-9 View at publisher
  • [Publication 8]: Matti Varjokallio, Sami Virpioja and Mikko Kurimo. First-pass Techniques for Very Large Vocabulary Speech Recognition of Morphologically Rich Languages. Proceedings of the 2018 IEEE Workshop on Spoken Language Technology, Athens, Greece, pages 227-234, December 2018.
    DOI: 10.1109/SLT.2018.8639691 View at publisher
  • [Publication 9]: Minna Lehtonen, Matti Varjokallio, Henna Kivikari, Annika Hulten, Sami Virpioja, Tero Hakala, Mikko Kurimo, Krista Lagus and Riitta Salmelin. Statistical Models of Morphology Predict Eye-Tracking Measures During Visual Word Recognition. Memory & Cognition, volume 47, pages 1245-1269, October 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033442
    DOI: 10.3758/s13421-019-00931-7 View at publisher
Citation