Language models for automatic speech recognition : construction and complexity control

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Siivola, Vesa
dc.date.accessioned 2012-02-24T08:30:45Z
dc.date.available 2012-02-24T08:30:45Z
dc.date.issued 2007-09-03
dc.identifier.isbn 978-951-22-8894-6
dc.identifier.issn 1459-7020
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/2898
dc.description.abstract The language model is one of the key components of a large vocabulary continuous speech recognition system. Huge text corpora can be used for training the language models. In this thesis, methods for extracting the essential information from the training data and expressing the information as a compact model are studied. The thesis is divided in three main parts. In the first part, the issue of choosing the best base modeling unit for the prevalent language modeling method, n-gram language modeling, is examined. The experiments are focused on morpheme-like subword units, although syllables are also tried. Rule-based grammatical methods and unsupervised statistical methods for finding morphemes are compared with the baseline word model. The Finnish cross-entropy and speech recognition experiments show that significantly more efficient models can be created using automatically induced morpheme-like subword units as the basis of the language model. In the second part, methods for choosing the n-grams that have explicit probability estimates in the n-gram model are studied. Two new methods specialized on selecting the n-grams for Kneser-Ney smoothed n-gram models are presented, one for pruning and one for growing the model. The methods are compared with entropy-based pruning and Kneser pruning. Experiments on Finnish and English text corpora show that the proposed pruning method gives considerable improvements over the previous pruning algorithms for Kneser-Ney smoothed models and also is better than entropy pruned Good-Turing smoothed model. Using the growing algorithm for creating a starting point for the pruning algorithm further improves the results. The improvements in Finnish speech recognition over the other Kneser-Ney smoothed models were significant as well. To extract more information from the training corpus, words should not be treated as independent tokens. The syntactic and semantic similarities of the words should be taken into account in the language model. The last part of this thesis explores, how these similarities can be modeled by mapping the words into continuous space representations. A language model formulated in the state-space modeling framework is presented. Theoretically, the state-space language model has several desirable properties. The state dimension should determine, how much the model is forced to generalize. The need to learn long-term dependencies should be automatically balanced with the need to remember the short-term dependencies in detail. The experiments show that training a model that fulfills all the theoretical promises is hard: the training algorithm has high computational complexity and it mainly finds local minima. These problems still need further research. en
dc.description.abstract Kielimalli on yksi avainosa suurisanastoisessa jatkuvan puheen tunnistusjärjestelmässä. Valtavia tekstiaineistoja on saatavilla kielimallien opettamiseen. Tässä väitöstyössä tutkitaan, miten opetusaineistosta löydetään oleelliset asiat ja miten ne voidaan esittää tiiviisti mallissa. Väitöstyö on jaettu kolmeen osaan. N-grammimallinnus on yleisimmin käytetty kielenmallinnustapa puheentunnistuksessa. Ensimmäisessä osassa tutkitaan, miten paras mallinnuksen perusyksikkö voidaan valita n-grammimalleille. Kokeet keskittyvät morfeemipohjaisten sanapalojen käyttöön, vaikkakin myös tavupohjaisia malleja kokeillaan. Sekä sääntöpohjaisia että ohjaamattomaan oppimiseen perustuvia menetelmiä morfeemien löytämiseksi verrataan sanoihin perustuvaan perusmalliin. Suomenkieliset ristientropiakokeet ja puheentunnistuskokeet osoittavat, että käyttämällä automaattisesti löydettyjä morfeeminkaltaisia sanapalojamallinnuksen perusyksikkönä voidaan tuottaa selvästi tehokkaampia kielimalleja. Työn toisessa osassa tutkitaan, miten voidaan parhaiten valita ne n-grammit, joiden todennäköisyydet estimoidaan malliin. Esitellään kaksi uutta algoritmia, joilla voidaan valita n-grammit Kneser-Ney-menetelmällä siloitetuille malleille. Toinen algoritmi perustuu mallin karsimiseen ja toinen mallin kasvattamiseen. Kokeet suomen- ja englanninkielisellä tekstiaineistolla osoittavat, että esitetyt menetelmät antavat huomattavat parannukset verrattuna aikaisempiin Kneser-Ney-siloitettujen mallien karsintamenetelmiin ja ovat myös parempia kuin entropiaan perustuva karsinta Good-Turing-menetelmällä siloitetulla mallilla. Käyttämällä kasvatettua mallia pohjana karsinnalle saadaan lisäparannuksia. Suomenkielisissä puheentunnistuskokeissa saavutetaan uusilla menetelmillä merkittävät parannukset verrattuna muihin karsittuihin Kneser-Ney-siloitettuihin malleihin. Opetusaineistosta pystytään erottamaan enemmän tietoa, jos sanoja ei käsitellä riippumattomina symboleina. Sanojen syntaktiset ja semanttiset samankaltaisuudet tulisi ottaa huomioon kieltä mallinnettaessa. Väitöksen viimeinen osa tarkastelee, miten näitä samankaltaisuuksia voidaan hyödyntää, jos sanat kuvataan jatkuvaan avaruuteen. Esitellään tila-avaruusmallinnukseen perustuva kielimalli. Teoriassa mallilla on lukuisia hyviä ominaisuuksia. Tilan koko määrää kuinka paljon malli yleistää. Tasapaino pitkän aikavälin riippuvuuksien ja lyhyen aikavälin tapahtumien yksityiskohtaisen mallintamisen välillä saavutetaan automaattisesti. Kokeissa havaitaan että näiden teoreettisten lupausten saavuttaminen on vaikeaa: opetusalgoritmi on laskennallisesti raskas ja löytää pääasiassa paikallisia minimejä. Nämä ongelmat kaipaavat jatkotutkimusta. fi
dc.format.extent 74, [66]
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Helsinki University of Technology en
dc.publisher Teknillinen korkeakoulu fi
dc.relation.ispartofseries Helsinki University of Technology dissertations in computer and information science. Report D en
dc.relation.ispartofseries 21 en
dc.relation.haspart Vesa Siivola, Teemu Hirsimäki, Mathias Creutz, and Mikko Kurimo. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. In Proceedings of the 8th European Conference on Speech Communication and Technology (Eurospeech 2003), pages 2293-2296, Geneva, Switzerland, September 2003. [article1.pdf] © 2003 by authors.
dc.relation.haspart Teemu Hirsimäki, Mathias Creutz, Vesa Siivola, Mikko Kurimo, Sami Virpioja, and Janne Pylkkönen. Unlimited vocabulary speech recognition with morph language models applied to Finnish. Computer Speech and Language, volume 20 (4), pages 515-541, 2006.
dc.relation.haspart Vesa Siivola and Bryan L. Pellom. Growing an n-gram language model. In Proceedings of the 9th European Conference on Speech Communication and Technology (Interspeech 2005), pages 1309-1312, Lisbon, Portugal, September 2005. [article3.pdf] © 2005 by authors.
dc.relation.haspart Vesa Siivola, Teemu Hirsimäki, and Sami Virpioja. On growing and pruning Kneser–Ney smoothed N-Gram models. IEEE Transactions on Audio, Speech, and Language Processing, volume 15 (5), pages 1617-1624, 2007. [article4.pdf] © 2007 IEEE. By permission.
dc.relation.haspart Vesa Siivola. Language modeling based on neural clustering of words. Technical report IDIAP-COM 00-02, IDIAP, Martigny, Switzerland, 2000.
dc.relation.haspart Vesa Siivola and Antti Honkela. A state-space method for language modeling. In Proceedings of the 8th IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2003), pages 548-553, St. Thomas, U.S. Virgin Islands, November 2003. [article6.pdf] © 2003 IEEE. By permission.
dc.subject.other Education en
dc.subject.other Computer science en
dc.title Language models for automatic speech recognition : construction and complexity control en
dc.title Kielimallit automaattisessa puheentunnistuksessa: luonti ja kompleksisuuden hallinta fi
dc.type G5 Artikkeliväitöskirja fi
dc.description.version reviewed en
dc.contributor.department Department of Computer Science and Engineering en
dc.contributor.department Tietotekniikan osasto fi
dc.subject.keyword language model en
dc.subject.keyword speech recognition en
dc.subject.keyword subword unit en
dc.subject.keyword morpheme segmentation en
dc.subject.keyword variable order n-gram model en
dc.subject.keyword pruning en
dc.subject.keyword growing en
dc.subject.keyword state-space language model en
dc.subject.keyword kielimalli fi
dc.subject.keyword puheentunnistus fi
dc.subject.keyword sanapala fi
dc.subject.keyword morfeemeihin jako fi
dc.subject.keyword vaihtelevanasteinen n-grammimalli fi
dc.subject.keyword karsiminen fi
dc.subject.keyword kasvattaminen fi
dc.subject.keyword tila-avaruuskielimalli fi
dc.identifier.urn urn:nbn:fi:tkk-009568
dc.type.dcmitype text en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.type.ontasot Doctoral dissertation (article-based) en
dc.contributor.lab Laboratory of Computer and Information Science en
dc.contributor.lab Informaatiotekniikan laboratorio fi


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account