Title: | Feature Enhancement and Uncertainty Estimation for Recognition of Noisy and Reverberant Speech Piirteiden korjaus ja epävarmuuden arviointi melua ja kohinaa sisältävän puheen tunnistuksessa |
Author(s): | Kallasjoki, Heikki |
Date: | 2016 |
Language: | en |
Pages: | 114 + app. 114 |
Department: | Signaalinkäsittelyn ja akustiikan laitos Department of Signal Processing and Acoustics |
ISBN: | 978-952-60-6666-0 (electronic) 978-952-60-6665-3 (printed) |
Series: | Aalto University publication series DOCTORAL DISSERTATIONS, 31/2016 |
ISSN: | 1799-4942 (electronic) 1799-4934 (printed) 1799-4934 (ISSN-L) |
Supervising professor(s): | Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland |
Thesis advisor(s): | Palomäki, Kalle, Doc., Aalto University, Department of Signal Processing and Acoustics, Finland |
Subject: | Acoustics |
Keywords: | automatic speech recognition, noise robust ASR, non-negative matrix factorization, observation uncertainty, speech dereverberation, automaattinen puheentunnistus, melusietoinen puheentunnistus, ei-negatiivinen matriisihajotelma, havaintojen epävarmuus |
Archive | yes |
|
|
Abstract:Puheen automaattista muuttamista tekstiksi on tutkittu laajasti, ja sillä on jo monia mittavia kaupallisia sovelluskohteita. Puutteet järjestelmien kyvyssä sietää häiriöitä vaikeuttavat kuitenkin edelleen niiden käyttöä monissa uudenlaisissa käyttötarkoituksissa. Vaikka ihmiset pystyvät ongelmitta ymmärtämään puhetta erilaisissa ympäristöissä, melun ja pinnoista heijastuvien äänien aiheuttamat häiriöt puhesignaalissa heikentävät merkittävästi tavanomaisten järjestelmien tarkkuutta. Tämä väitöskirja tutkii menetelmiä, joiden tarkoitus on vähentää tällaisten häiriöiden vaikutusta, ja auttaa siten parantamaan puheentunnistuksen laatua haastavissa olosuhteissa. Väitöskirjan pääaiheena ovat algoritmit, joilla voidaan muokata puhesignaalin käyttämiä piirteitä siten, että melu ja kaiku vaikuttavat niihin vähemmän. |
|
Parts:[Publication 1]: Heikki Kallasjoki, Kalle J. Palomaki, Carlo Magi, Paavo Alku and Mikko Kurimo. Noise robust LVCSR feature extraction based on stabilized weighted linear prediction. In Proceedings of the 13th International Conference on Speech and Computer (SPECOM 2009), pages 221–225, St. Petersburg, Russia, June 2009.[Publication 2]: Jouni Pohjalainen, Heikki Kallasjoki, Paavo Alku, Kalle J. Palomaki and Mikko Kurimo. Weighted linear prediction for speech analysis in noisy conditions. In Proceedings of the 10th Annual Conference of the International Speech Communication Association (Interspeech 2009), pages 1315–1318, Brighton, UK, September 2009.[Publication 3]: Heikki Kallasjoki, Ulpu Remes, Jort F. Gemmeke, Tuomas Virtanen and Kalle Palomaki. Uncertainty measures for improving exemplarbased source separation. In Proceedings of the 12th Annual Conference of the International Speech Communication Association (Interspeech 2011), pages 469–472, Florence, Italy, August 2011.[Publication 4]: Heikki Kallasjoki, Sami Keronen, Guy J. Brown, Jort F. Gemmeke, Ulpu Remes and Kalle J. Palomaki. Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments. In proceedings of the 1st International Workshop on Machine Listening in Multisource Environments (CHiME 2011), pages 58-63, Florence, Italy, September 2011.[Publication 5]: Sami Keronen, Heikki Kallasjoki, Ulpu Remes, Guy J. Brown, Jort F. Gemmeke, Kalle J. Palomaki. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment. Computer Speech and Language, volume 27, issue 3, pages 798–819, May 2013. doi:10.1016/j.csl.2012.06.005 View at Publisher [Publication 6]: Heikki Kallasjoki, Jort F. Gemmeke and Kalle J. Palomaki. Estimating uncertainty to improve exemplar-based feature enhancement for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 22, issue 2, pages 368–380, February 2014. DOI: 10.1109/TASLP.2013.2292328 View at Publisher [Publication 7]: Heikki Kallasjoki, Jort F. Gemmeke, Kalle J. Palomaki, Amy V. Beeston, Guy J. Brown. Recognition of reverberant speech by missing data imputation and NMF feature enhancement. In Proceedings of the REVERB Workshop, Florence, Italy, May 2014.[Publication 8]: Kalle J. Palomaki, Heikki Kallasjoki. Reverberation robust speech recognition by matching distributions of spectrally and temporally decorrelated features. In Proceedings of the REVERB Workshop, Florence, Italy, May 2014.[Publication 9]: Sami Keronen, Heikki Kallasjoki, Kalle J. Palomaki, Guy J. Brown, Jort F. Gemmeke. Feature enhancement of reverberant speech by distribution matching and non-negative matrix factorization. EURASIP Journal on Advances in Signal Processing, volume 2015, article 76, August 2015. DOI: 10.1186/s13634-015-0259-1 View at Publisher |
|
|
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Page content by: Aalto University Learning Centre | Privacy policy of the service | About this site