Towards Efficient and Robust Automatic Speech Recognition: Decoding Techniques and Discriminative Training
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2013-03-22
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2013
Major/Subject
Mcode
Degree programme
Language
en
Pages
145 + app. 60
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 44/2013
Abstract
Automatic speech recognition has been widely studied and is already being applied in everyday use. Nevertheless, the recognition performance is still a bottleneck in many practical applications of large vocabulary continuous speech recognition. Either the recognition speed is not sufficient, or the errors in the recognition result limit the applications. This thesis studies two aspects of speech recognition, decoding and training of acoustic models, to improve speech recognition performance in different conditions. A major part of this thesis studies discriminative training of acoustic models. The emphasis is on the most popular algorithm for discriminative model estimation, the extended Baum-Welch algorithm. The thesis points out theoretical connections of the algorithm to general constrained optimization. It also proposes new control methods for the algorithm, which are shown to improve the robustness of the acoustic models in several large vocabulary speech recognition tasks. Discriminative training methods are widely applied in the state-of-the-art speech recognizers which utilize the prevalent hidden Markov models for acoustic modeling. Therefore the proposed methods have many immediate practical applications. The speech recognition system developed at the Aalto university was utilized and significantly improved during the research of this thesis. The thesis gives an overview of that system and describes the decoder of the system in more detail. In speech recognition systems, the decoder combines the information from the statistical models of acoustics and language to implement the search for the word sequence which best matches the input speech. The thesis proposes new methods for improving the speed of this search, without incurring losses to the recognition accuracy.Automaattinen puheentunnistus, eli puheen muuttaminen tekstiksi, on laajasti tutkittu ongelma. Tutkimus on jo saavuttanut pisteen jossa puheentunnistuksella on monia jokapäiväisiä sovelluskohteita. Kuitenkin puutteet tunnistuksen tarkkuudessa haittaavat edelleen puheentunnistuksen käyttöä, varsinkin pyrittäessä tunnistamaan laajan sanaston luonnollista puhetta. Myös tunnistuksen nopeus voi olla riittämätöntä jos vaatimuksena on reaaliaikainen tunnistus. Tämä väitöskirja käsittelee kahta puheentunnistuksen osaongelmaa: dekoodausta ja akustista mallinnusta. Parannukset näissä auttavat sekä tarkentamaan tunnistustulosta että tuottamaan tuloksen nopeammin. Väitöskirjan pääaihe on akustisten mallien diskriminatiivinen opetus, erityisesti siihen käytettävä laajennettu Baum-Welch algoritmi. Uutena teoreettisena tuloksena väitöskirja esittää tämän algoritmin yhteyden yleiseen rajoitettuun optimointiin. Algoritmin kontrollointiin esitetään useita vaihtoehtoisia menetelmiä, jotka parantavat akustisten mallien toimintaa erityisesti häiriöisissä ympäristöissä. Akustisten mallien parannukset on testattu empiirisesti useilla laajan sanaston tunnistustehtävillä. Koska diskriminatiivista opetusta käytetään yleisesti puheentunnistimien akustisten mallien opetukseen, on esitetyillä parannuksilla monia välittömiä sovelluksia. Tässä työssä on käytetty Aalto-yliopistossa kehitettyä puheentunnistusjärjestelmää, jota myös kehitettiin ja parannettiin väitöstutkimuksen yhteydessä. Väitöskirja sisältää yleiskatsauksen tästä järjestelmästä, sekä tarkemman kuvauksen siinä käytetystä dekooderista. Puheentunnistimen dekooderi on osa, joka puheen akustiikkaa ja kieltä kuvaavien tilastollisten mallien avulla etsii sanajonon, joka parhaiten vastaa syötteeksi annettua puhetta. Väitöskirja esittää uusia menetelmiä dekooderin nopeuttamiseen niin, ettei tunnistustarkkuus tämän vuoksi heikkene.Description
Supervising professor
Oja, Erkki, Prof., Aalto University, FinlandThesis advisor
Kurimo, Mikko, Prof., Aalto University, FinlandKeywords
automatic speech recognition, decoder, acoustic modeling, discriminative training, extended Baum-Welch, puheentunnistus, dekooderi, akustinen mallinnus, diskriminatiivinen opetus
Other note
Parts
- [Publication 1]: Janne Pylkkönen. An Efficient One-pass Decoder for Finnish Large Vocabulary Continuous Speech Recognition. In Proceedings of the 2nd Baltic Conference on Human Language Technologies (HLT’2005), Tallinn, Estonia, pp. 167–172, April 2005.
- [Publication 2]: Janne Pylkkönen. New Pruning Criteria for Efficient Decoding. In Proceedings of the 9th European Conference on Speech Communication and Technology (Interspeech’2005 - Eurospeech), Lisboa, Portugal, pp. 581–584, September 2005.
- [Publication 3]: Teemu Hirsimäki, Janne Pylkkönen, and Mikko Kurimo. Importance of High-Order N-gram Models in Morph-Based Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing, Volume 17, Number 4, pp. 724-732, May 2009.
- [Publication 4]: Janne Pylkkönen. Investigations on Discriminative Training in Large Scale Acoustic Model Estimation. In Proceedings of the 10th Annual Conference of the International Speech Communication Association (Interspeech 2009), Brighton, UK, pp. 220–223, September 2009.
- [Publication 5]: Janne Pylkkönen and Mikko Kurimo. Improving Discriminative Training for Robust Acoustic Models in Large Vocabulary Continuous Speech Recognition. In Proceedings of the 13th Annual Conference of the Inter-national Speech Communication Association (Interspeech 2012), Portland, Oregon, USA, September 2012.
- [Publication 6]: Janne Pylkkönen and Mikko Kurimo. Optimization-Based Control for the Extended Baum-Welch Algorithm. In Proceedings of the 13th Annual Conference of the International Speech Communication Association (Interspeech 2012), Portland, Oregon, USA, September 2012.
- [Publication 7]: Janne Pylkkönen and Mikko Kurimo. Analysis of Extended Baum-Welch and Constrained Optimization for Discriminative Training of HMMs. IEEE Transactions on Audio, Speech, and Language Processing, Volume 20, Number 9, pp. 2409–2419, November 2012.