Improving very large vocabulary language modeling and decoding for speech recognition in morphologically rich languages

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorVirpioja, Sami, Dr., University of Helsinki, Finland
dc.contributor.authorVarjokallio, Matti
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorKurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2020-12-01T10:00:06Z
dc.date.available2020-12-01T10:00:06Z
dc.date.defence2020-12-16
dc.date.issued2020
dc.description.abstractIn the automatic speech recognition of agglutinative and morphologically rich languages, the recognition vocabulary may, in many tasks, need to cover several millions of word forms. This poses challenges for the search component of the speech recognizer, as in many cases, real-time recognition speed would be preferred, and the number of possible recognition hypotheses is large. A typical modern large vocabulary speech recognizer utilizes a probabilistic language model to assign prior probabilities for the word sequences. Estimating accurate language models from a text corpus also becomes harder due to increased data sparsity. So far, the most successful approach for the speech recognition of morphologically rich languages has been to segment the words to shorter, more frequently occurring units, thus alleviating the estimability problems. Also, if all concatenations of subwords are allowed, the recognition vocabulary is unlimited. This thesis concentrates on different approaches where a limited but very large recognition vocabulary is used. This type of recognizer can, in addition to the subword-based language models, also use language models trained over words and word classes to reach improved modeling accuracy. For the case where only a subword language model is used, the thesis shows a novel way of constructing the recognition graph. In this case, the recognition vocabulary is easy to augment with new word forms by utilizing resources like dictionaries and morphological analyzers. The constrained recognition vocabulary approaches are shown to be viable choices in many speech recognition use cases. Additionally, in this case, it is shown that the search may also operate in real time and even faster than the case where the recognition vocabulary was unlimited. Also, the recognition of non-words is avoided, and the recognition accuracy may exceed the unlimited vocabulary approach if a low enough out-of-vocabulary rate is reached. In one part of the thesis, human word recognition performance is analyzed using statistical morphological models in a visual lexical decision task where the participants' eye movements were also recorded using eye tracking. Morfessor Baseline -method, which segments only the infrequent words, predicted the observations well in most of the experiments. This finding supports the corresponding model of word recognition in humans.en
dc.description.abstractMorfologisesti rikkaiden ja agglutinatiivisten kielten laajan sanaston puheentunnistuksen yksi haasteista on sanaston suuri koko. Tunnistussanaston täytyy monissa tunnistustehtävissä sisältää miljoonia sanamuotoja. Tämä on ongelmallista puheentunnistimelle, koska useissa käyttötapauksissa tavoitteena olisi reaaliaikainen tunnistus ja eri hypoteesien määrä on suuri. Tyypillinen moderni puheentunnistin käyttää todennäköisyyksiin perustuvaa kielimallia eri tunnistushypoteesien pisteytykseen. Tarkkojen kielimallien estimointi tekstikorpuksesta on myös haastavaa datan harvuuden vuoksi. Tähän asti yleisimmin käytetty lähestymistapa agglutinatiivisten kielten puheentunnistukseen on ollut segmentoida sanat lyhyemmiksi ja useammin esiintyviksi sanapaloiksi. Tällä tavalla vältetään datan harvuudesta aiheutuvat ongelmat kielimallin estimoinnissa. Mikäli kaikki sanapalojen väliset ketjut sallitaan, tunnistimen sanasto on rajoittamaton. Tämä väitöskirja keskittyy menetelmiin, joissa käytetään rajattua, mutta erittäin isoa tunnistussanastoa. Tällainen tunnistin pystyy sanapaloihin perustuvan kielimallin lisäksi hyödyntämään myös kielimalleja, joissa yksiköinä ovat kokonaiset sanat tai erilaiset sanojen luokittelut. Tapauksessa, jossa käytetään pelkästään sanapaloihin perustuvaa kielimallia, tutkitaan myös uutta tapaa konstruoida tunnistin käyttäen rajattua sanastoa. Tässä tapauksessa tunnistussanastoa on helppo laajentaa erilaisten muiden kieliresurssien kuten sanastojen tai morfologisten analysaattorien avulla. Väitöskirjassa osoitetaan, että rajatun sanaston tunnistus on varteenotettava vaihtoehto monissa tunnistustehtävissä myös morfologisesti rikkaille kielille. Tunnistin voi myös tässä tapauksessa toimia reaaliaikaisesti tai jopa nopeammin kuin rajaamattoman sanaston tunnistus. Rajatun sanaston tunnistuksessa hyvänä puolena on, että vältetään kieliopillisesti väärien sanamuotojen tunnistus. Tunnistustarkkuus voi myöskin olla parempi kuin rajoittamattoman sanaston tunnistuksessa, jos tunnistussanaston kattavuus on tarpeeksi suuri. Väitöskirjan yhdessä osassa ihmisten sanatunnistuksen tarkkuutta tutkitaan hyödyntäen tilastollisia morfologisia malleja visuaalisessa leksikaalisessa päätöstehtävässä. Tässä kokeessa myös koehenkilöiden silmänliikkeitä mitattiin silmänliikeseurannalla. Morfessor Baseline -menetelmä, joka pilkkoo vain harvinaiset sanat, ennusti mittaustuloksia hyvin eri koeasetelmissa. Tulos tukee vastaavaa mallia ihmisten sanantunnistuksessa.fi
dc.format.extent86 + app. 136
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-64-0181-2 (electronic)
dc.identifier.isbn978-952-64-0180-5 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/67489
dc.identifier.urnURN:ISBN:978-952-64-0181-2
dc.language.isoenen
dc.opnSchlüter, Ralf, Dr., RWTH Aachen University, Germany
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Matti Varjokallio, Mikko Kurimo and Sami Virpioja. Learning a Subword Vocabulary Based on Unigram Likelihood. Proceedings of the 2013 IEEE Workshop on Automatic Speech Recognition and Understanding, Olomouc, Czech Republic, pages 7-12, December 2013. DOI: 10.1109/ASRU.2013.6707697
dc.relation.haspart[Publication 2]: Matti Varjokallio and Mikko Kurimo. A Toolkit for Efficient Learning of Lexical Units for Speech Recognition. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), Reykjavik, Iceland, pages 3072-3075, May 2014
dc.relation.haspart[Publication 3]: Matti Varjokallio and Dietrich Klakow. Unsupervised Morph Segmentation and Statistical Language Models for Vocabulary Expansion. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL (Volume 2: Short Papers), Berlin, Germany, pages 175-180, August 2016. DOI: 10.18653/v1/P16-2029
dc.relation.haspart[Publication 4]: Matti Varjokallio, Mikko Kurimo and Sami Virpioja. Class n-gram Models for Very Large Vocabulary Speech Recognition of Finnish and Estonian. Proceedings of the 4th International Conference on Statistical Language and Speech Processing, SLSP, Pilsen, Czech Republic, pages 133-144, October 2016. DOI: 10.1007/978-3-319-45925-7_11
dc.relation.haspart[Publication 5]: Matti Varjokallio, Sami Virpioja and Mikko Kurimo. Morphologically Motivated Word Classes for Very Large Vocabulary Speech Recognition of Finnish and Estonian. Computer Speech & Language, volume 66, March 2021. DOI: 10.1016/j.csl.2020.101141
dc.relation.haspart[Publication 6]: Matti Varjokallio and Mikko Kurimo. A Word-Level Token-Passing Decoder for Subword n-gram LVCSR. Proceedings of the 2014 IEEE Workshop on Spoken Language Technology, South Lake Tahoe, USA, pages 495-500, December 2014. DOI: 10.1109/SLT.2014.7078624
dc.relation.haspart[Publication 7]: Mikko Kurimo, Seppo Enarvi, Ottokar Tilk, Matti Varjokallio, Andre Mansikkaniemi and Tanel Alumae. Modeling Under-Resourced Languagesfor Speech Recognition. Language Resources and Evaluation, volume 51, issue 4, pages 961-987, December 2017. Full text in Acrsi/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201708036363. DOI: 10.1007/s10579-016-9336-9
dc.relation.haspart[Publication 8]: Matti Varjokallio, Sami Virpioja and Mikko Kurimo. First-pass Techniques for Very Large Vocabulary Speech Recognition of Morphologically Rich Languages. Proceedings of the 2018 IEEE Workshop on Spoken Language Technology, Athens, Greece, pages 227-234, December 2018. DOI: 10.1109/SLT.2018.8639691
dc.relation.haspart[Publication 9]: Minna Lehtonen, Matti Varjokallio, Henna Kivikari, Annika Hulten, Sami Virpioja, Tero Hakala, Mikko Kurimo, Krista Lagus and Riitta Salmelin. Statistical Models of Morphology Predict Eye-Tracking Measures During Visual Word Recognition. Memory & Cognition, volume 47, pages 1245-1269, October 2019. Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201906033442. DOI:10.3758/s13421-019-00931-7
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries208/2020
dc.revBell, Peter, Dr., University of Edinburgh, UK
dc.revDoss, Mathew Magimai, Dr, Idiap Research Institute, Switzerland
dc.subject.keywordautomatic speech recognitionen
dc.subject.keywordmorphologically rich languagesen
dc.subject.keywordlanguage modelingen
dc.subject.keywordpsycholinguisticsen
dc.subject.keywordautomaattinen puheentunnistusfi
dc.subject.keywordmorfologisesti rikkaat kieletfi
dc.subject.keywordkielimallinnusfi
dc.subject.keywordpsykolingvistiikkafi
dc.subject.otherElectrical engineeringen
dc.titleImproving very large vocabulary language modeling and decoding for speech recognition in morphologically rich languagesen
dc.titleMenetelmiä laajan sanaston kielimallinnukseen ja puheentunnistukseen morfologisesti rikkaille kielillefi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.acrisexportstatuschecked 2020-12-29_1314
local.aalto.archiveyes
local.aalto.formfolder2020_12_01_klo_09_33
local.aalto.infraScience-IT

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526401812.pdf
Size:
1.67 MB
Format:
Adobe Portable Document Format