Language models for automatic speech recognition : construction and complexity control
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Doctoral thesis (article-based)
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2007-09-03
Major/Subject
Mcode
Degree programme
Language
en
Pages
74, [66]
Series
Helsinki University of Technology dissertations in computer and information science. Report D, 21
Abstract
The language model is one of the key components of a large vocabulary continuous speech recognition system. Huge text corpora can be used for training the language models. In this thesis, methods for extracting the essential information from the training data and expressing the information as a compact model are studied. The thesis is divided in three main parts. In the first part, the issue of choosing the best base modeling unit for the prevalent language modeling method, n-gram language modeling, is examined. The experiments are focused on morpheme-like subword units, although syllables are also tried. Rule-based grammatical methods and unsupervised statistical methods for finding morphemes are compared with the baseline word model. The Finnish cross-entropy and speech recognition experiments show that significantly more efficient models can be created using automatically induced morpheme-like subword units as the basis of the language model. In the second part, methods for choosing the n-grams that have explicit probability estimates in the n-gram model are studied. Two new methods specialized on selecting the n-grams for Kneser-Ney smoothed n-gram models are presented, one for pruning and one for growing the model. The methods are compared with entropy-based pruning and Kneser pruning. Experiments on Finnish and English text corpora show that the proposed pruning method gives considerable improvements over the previous pruning algorithms for Kneser-Ney smoothed models and also is better than entropy pruned Good-Turing smoothed model. Using the growing algorithm for creating a starting point for the pruning algorithm further improves the results. The improvements in Finnish speech recognition over the other Kneser-Ney smoothed models were significant as well. To extract more information from the training corpus, words should not be treated as independent tokens. The syntactic and semantic similarities of the words should be taken into account in the language model. The last part of this thesis explores, how these similarities can be modeled by mapping the words into continuous space representations. A language model formulated in the state-space modeling framework is presented. Theoretically, the state-space language model has several desirable properties. The state dimension should determine, how much the model is forced to generalize. The need to learn long-term dependencies should be automatically balanced with the need to remember the short-term dependencies in detail. The experiments show that training a model that fulfills all the theoretical promises is hard: the training algorithm has high computational complexity and it mainly finds local minima. These problems still need further research.Kielimalli on yksi avainosa suurisanastoisessa jatkuvan puheen tunnistusjärjestelmässä. Valtavia tekstiaineistoja on saatavilla kielimallien opettamiseen. Tässä väitöstyössä tutkitaan, miten opetusaineistosta löydetään oleelliset asiat ja miten ne voidaan esittää tiiviisti mallissa. Väitöstyö on jaettu kolmeen osaan. N-grammimallinnus on yleisimmin käytetty kielenmallinnustapa puheentunnistuksessa. Ensimmäisessä osassa tutkitaan, miten paras mallinnuksen perusyksikkö voidaan valita n-grammimalleille. Kokeet keskittyvät morfeemipohjaisten sanapalojen käyttöön, vaikkakin myös tavupohjaisia malleja kokeillaan. Sekä sääntöpohjaisia että ohjaamattomaan oppimiseen perustuvia menetelmiä morfeemien löytämiseksi verrataan sanoihin perustuvaan perusmalliin. Suomenkieliset ristientropiakokeet ja puheentunnistuskokeet osoittavat, että käyttämällä automaattisesti löydettyjä morfeeminkaltaisia sanapalojamallinnuksen perusyksikkönä voidaan tuottaa selvästi tehokkaampia kielimalleja. Työn toisessa osassa tutkitaan, miten voidaan parhaiten valita ne n-grammit, joiden todennäköisyydet estimoidaan malliin. Esitellään kaksi uutta algoritmia, joilla voidaan valita n-grammit Kneser-Ney-menetelmällä siloitetuille malleille. Toinen algoritmi perustuu mallin karsimiseen ja toinen mallin kasvattamiseen. Kokeet suomen- ja englanninkielisellä tekstiaineistolla osoittavat, että esitetyt menetelmät antavat huomattavat parannukset verrattuna aikaisempiin Kneser-Ney-siloitettujen mallien karsintamenetelmiin ja ovat myös parempia kuin entropiaan perustuva karsinta Good-Turing-menetelmällä siloitetulla mallilla. Käyttämällä kasvatettua mallia pohjana karsinnalle saadaan lisäparannuksia. Suomenkielisissä puheentunnistuskokeissa saavutetaan uusilla menetelmillä merkittävät parannukset verrattuna muihin karsittuihin Kneser-Ney-siloitettuihin malleihin. Opetusaineistosta pystytään erottamaan enemmän tietoa, jos sanoja ei käsitellä riippumattomina symboleina. Sanojen syntaktiset ja semanttiset samankaltaisuudet tulisi ottaa huomioon kieltä mallinnettaessa. Väitöksen viimeinen osa tarkastelee, miten näitä samankaltaisuuksia voidaan hyödyntää, jos sanat kuvataan jatkuvaan avaruuteen. Esitellään tila-avaruusmallinnukseen perustuva kielimalli. Teoriassa mallilla on lukuisia hyviä ominaisuuksia. Tilan koko määrää kuinka paljon malli yleistää. Tasapaino pitkän aikavälin riippuvuuksien ja lyhyen aikavälin tapahtumien yksityiskohtaisen mallintamisen välillä saavutetaan automaattisesti. Kokeissa havaitaan että näiden teoreettisten lupausten saavuttaminen on vaikeaa: opetusalgoritmi on laskennallisesti raskas ja löytää pääasiassa paikallisia minimejä. Nämä ongelmat kaipaavat jatkotutkimusta.Description
Keywords
language model, speech recognition, subword unit, morpheme segmentation, variable order n-gram model, pruning, growing, state-space language model, kielimalli, puheentunnistus, sanapala, morfeemeihin jako, vaihtelevanasteinen n-grammimalli, karsiminen, kasvattaminen, tila-avaruuskielimalli
Other note
Parts
- Vesa Siivola, Teemu Hirsimäki, Mathias Creutz, and Mikko Kurimo. Unlimited vocabulary speech recognition based on morphs discovered in an unsupervised manner. In Proceedings of the 8th European Conference on Speech Communication and Technology (Eurospeech 2003), pages 2293-2296, Geneva, Switzerland, September 2003. [article1.pdf] © 2003 by authors.
- Teemu Hirsimäki, Mathias Creutz, Vesa Siivola, Mikko Kurimo, Sami Virpioja, and Janne Pylkkönen. Unlimited vocabulary speech recognition with morph language models applied to Finnish. Computer Speech and Language, volume 20 (4), pages 515-541, 2006.
- Vesa Siivola and Bryan L. Pellom. Growing an n-gram language model. In Proceedings of the 9th European Conference on Speech Communication and Technology (Interspeech 2005), pages 1309-1312, Lisbon, Portugal, September 2005. [article3.pdf] © 2005 by authors.
- Vesa Siivola, Teemu Hirsimäki, and Sami Virpioja. On growing and pruning Kneser–Ney smoothed N-Gram models. IEEE Transactions on Audio, Speech, and Language Processing, volume 15 (5), pages 1617-1624, 2007. [article4.pdf] © 2007 IEEE. By permission.
- Vesa Siivola. Language modeling based on neural clustering of words. Technical report IDIAP-COM 00-02, IDIAP, Martigny, Switzerland, 2000.
- Vesa Siivola and Antti Honkela. A state-space method for language modeling. In Proceedings of the 8th IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 2003), pages 548-553, St. Thomas, U.S. Virgin Islands, November 2003. [article6.pdf] © 2003 IEEE. By permission.