Feature Enhancement and Uncertainty Estimation for Recognition of Noisy and Reverberant Speech

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2016-04-15
Date
2016
Major/Subject
Mcode
Degree programme
Language
en
Pages
114 + app. 114
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 31/2016
Abstract
The task of automatic speech recognition has received considerable research attention and many systems have seen large-scale commercial deployment. However, lack of robustness is still a barrier to their use in novel applications. While human listeners are adept in understanding spoken language in diverse environments, the signal distortion caused by noise and reflected sounds severely degrades the accuracy of conventional systems. This thesis studies methods of reducing the effects of such distortions, improving the performance of speech recognition in challenging conditions. The emphasis of this thesis is on algorithms that enhance the sequence of input features observed by a speech recognition system, with the aim of making them more invariant to noise and reverberation. Research on several ways of addressing the problem is included. Weighted linear prediction is considered as a method to incorporate robustness in spectral modeling used for speech feature extraction. To counteract additive noise, improvements are proposed to algorithms based on the missing data framework and the use of non-negative matrix factorization as a tool for separating sound sources. Speech corrupted by reverberation is addressed by extending the source separation model to account for convolutional distortion. Further, a method of transforming the corrupted features based on matching their distribution to that of uncorrupted speech is presented. The positive impact of the proposed approaches on speech recognition performance is confirmed and quantified by experimental evaluation on large vocabulary continuous speech recognition tasks. Complementing the work, methods to extract and utilize information about the varying uncertainty of the enhanced features are investigated. While no system is capable of perfectly removing all traces of noise from the speech features, it is often possible to estimate the local accuracy of the processed speech. This information can be used in the decoding stage of a speech recognition system, to de-emphasize the regions of the input where the uncertainty is high, and the input features are more likely to be incorrect. This thesis proposes and evaluates heuristic uncertainty metrics compatible with the missing data and non-negative matrix factorization feature enhancement systems.

Puheen automaattista muuttamista tekstiksi on tutkittu laajasti, ja sillä on jo monia mittavia kaupallisia sovelluskohteita. Puutteet järjestelmien kyvyssä sietää häiriöitä vaikeuttavat kuitenkin edelleen niiden käyttöä monissa uudenlaisissa käyttötarkoituksissa. Vaikka ihmiset pystyvät ongelmitta ymmärtämään puhetta erilaisissa ympäristöissä, melun ja pinnoista heijastuvien äänien aiheuttamat häiriöt puhesignaalissa heikentävät merkittävästi tavanomaisten järjestelmien tarkkuutta. Tämä väitöskirja tutkii menetelmiä, joiden tarkoitus on vähentää tällaisten häiriöiden vaikutusta, ja auttaa siten parantamaan puheentunnistuksen laatua haastavissa olosuhteissa. Väitöskirjan pääaiheena ovat algoritmit, joilla voidaan muokata puhesignaalin käyttämiä piirteitä siten, että melu ja kaiku vaikuttavat niihin vähemmän. Väitöskirjan tutkimus kohdistuu useisiin tapoihin ratkaista tämä ongelma. Painotettua lineaariprediktiota tutkitaan menetelmänä huomioida häiriönsietävyys puheentunnistuksen piirteiden käyttämissä spektrimalleissa. Additiivisen melun vaimentamiseksi väitöskirjassa esitetään parannuksia algoritmeihin, jotka perustuvat puuttuvan tiedon käsittelyyn sekä ei-negatiivisen matriisihajotelman käyttöön äänilähteiden erottelussa. Kaiuntaa sisältävän puheen ongelmaa käsitellään laajentamalla äänilähteiden erottelussa käytettyä matriisihajotelmaa siten, että se sisältää myös konvoluutioon pohjautuvan häiriön mallin. Lisäksi esitellään menetelmä kaiunnan vaikutuksen vähentämiseksi muokkaamalla piirteiden jakaumaa vastaamaan paremmin kaiuttoman puheen jakaumaa. Ehdotettujen lähestymistapojen positiivinen vaikutus puheentunnistuksen tarkkuuteen selvitetään kokeilla, joissa tehtävänä on laajan sanaston jatkuvan puheen tunnistus. Piirteiden muokkauksen lisäksi väitöskirjassa tutkitaan tapoja saada ja hyödyntää tietoa siitä, miten luotettavia tuloksena saadut piirteet ovat. Vaikka mikään järjestelmä ei pysty täysin poistamaan kaikkia melun jälkiä puheen piirteistä, on usein mahdollista arvioida paikallisesti, kuinka tarkkoja käsitellyt piirteet ovat. Tätä arviota voidaan hyödyntää puheentunnistuksen dekoodausvaiheessa vähentämällä epäluotettavien alueiden painoarvoa. Väitöskirjassa esitetään ja arvioidaan sellaisia piirteiden luotettavuuden heuristisia mittareita, jotka ovat yhteensopivia puuttuvaan tietoon sekä ei-negatiivisen matriisihajotelman käyttöön perustuvien menetelmien kanssa.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Palomäki, Kalle, Doc., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
automatic speech recognition, noise robust ASR, non-negative matrix factorization, observation uncertainty, speech dereverberation, automaattinen puheentunnistus, melusietoinen puheentunnistus, ei-negatiivinen matriisihajotelma, havaintojen epävarmuus
Other note
Parts
  • [Publication 1]: Heikki Kallasjoki, Kalle J. Palomaki, Carlo Magi, Paavo Alku and Mikko Kurimo. Noise robust LVCSR feature extraction based on stabilized weighted linear prediction. In Proceedings of the 13th International Conference on Speech and Computer (SPECOM 2009), pages 221–225, St. Petersburg, Russia, June 2009.
  • [Publication 2]: Jouni Pohjalainen, Heikki Kallasjoki, Paavo Alku, Kalle J. Palomaki and Mikko Kurimo. Weighted linear prediction for speech analysis in noisy conditions. In Proceedings of the 10th Annual Conference of the International Speech Communication Association (Interspeech 2009), pages 1315–1318, Brighton, UK, September 2009.
  • [Publication 3]: Heikki Kallasjoki, Ulpu Remes, Jort F. Gemmeke, Tuomas Virtanen and Kalle Palomaki. Uncertainty measures for improving exemplarbased source separation. In Proceedings of the 12th Annual Conference of the International Speech Communication Association (Interspeech 2011), pages 469–472, Florence, Italy, August 2011.
  • [Publication 4]: Heikki Kallasjoki, Sami Keronen, Guy J. Brown, Jort F. Gemmeke, Ulpu Remes and Kalle J. Palomaki. Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments. In proceedings of the 1st International Workshop on Machine Listening in Multisource Environments (CHiME 2011), pages 58-63, Florence, Italy, September 2011.
  • [Publication 5]: Sami Keronen, Heikki Kallasjoki, Ulpu Remes, Guy J. Brown, Jort F. Gemmeke, Kalle J. Palomaki. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment. Computer Speech and Language, volume 27, issue 3, pages 798–819, May 2013. doi:10.1016/j.csl.2012.06.005
  • [Publication 6]: Heikki Kallasjoki, Jort F. Gemmeke and Kalle J. Palomaki. Estimating uncertainty to improve exemplar-based feature enhancement for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 22, issue 2, pages 368–380, February 2014.
    DOI: 10.1109/TASLP.2013.2292328 View at publisher
  • [Publication 7]: Heikki Kallasjoki, Jort F. Gemmeke, Kalle J. Palomaki, Amy V. Beeston, Guy J. Brown. Recognition of reverberant speech by missing data imputation and NMF feature enhancement. In Proceedings of the REVERB Workshop, Florence, Italy, May 2014.
  • [Publication 8]: Kalle J. Palomaki, Heikki Kallasjoki. Reverberation robust speech recognition by matching distributions of spectrally and temporally decorrelated features. In Proceedings of the REVERB Workshop, Florence, Italy, May 2014.
  • [Publication 9]: Sami Keronen, Heikki Kallasjoki, Kalle J. Palomaki, Guy J. Brown, Jort F. Gemmeke. Feature enhancement of reverberant speech by distribution matching and non-negative matrix factorization. EURASIP Journal on Advances in Signal Processing, volume 2015, article 76, August 2015.
    DOI: 10.1186/s13634-015-0259-1 View at publisher
Citation