Feature Enhancement and Uncertainty Estimation for Recognition of Noisy and Reverberant Speech

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Palomäki, Kalle, Doc., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.author Kallasjoki, Heikki
dc.date.accessioned 2016-02-23T10:01:24Z
dc.date.available 2016-02-23T10:01:24Z
dc.date.issued 2016
dc.identifier.isbn 978-952-60-6666-0 (electronic)
dc.identifier.isbn 978-952-60-6665-3 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/19777
dc.description.abstract The task of automatic speech recognition has received considerable research attention and many systems have seen large-scale commercial deployment. However, lack of robustness is still a barrier to their use in novel applications. While human listeners are adept in understanding spoken language in diverse environments, the signal distortion caused by noise and reflected sounds severely degrades the accuracy of conventional systems. This thesis studies methods of reducing the effects of such distortions, improving the performance of speech recognition in challenging conditions. The emphasis of this thesis is on algorithms that enhance the sequence of input features observed by a speech recognition system, with the aim of making them more invariant to noise and reverberation. Research on several ways of addressing the problem is included. Weighted linear prediction is considered as a method to incorporate robustness in spectral modeling used for speech feature extraction. To counteract additive noise, improvements are proposed to algorithms based on the missing data framework and the use of non-negative matrix factorization as a tool for separating sound sources. Speech corrupted by reverberation is addressed by extending the source separation model to account for convolutional distortion. Further, a method of transforming the corrupted features based on matching their distribution to that of uncorrupted speech is presented. The positive impact of the proposed approaches on speech recognition performance is confirmed and quantified by experimental evaluation on large vocabulary continuous speech recognition tasks. Complementing the work, methods to extract and utilize information about the varying uncertainty of the enhanced features are investigated. While no system is capable of perfectly removing all traces of noise from the speech features, it is often possible to estimate the local accuracy of the processed speech. This information can be used in the decoding stage of a speech recognition system, to de-emphasize the regions of the input where the uncertainty is high, and the input features are more likely to be incorrect. This thesis proposes and evaluates heuristic uncertainty metrics compatible with the missing data and non-negative matrix factorization feature enhancement systems. en
dc.description.abstract Puheen automaattista muuttamista tekstiksi on tutkittu laajasti, ja sillä on jo monia mittavia kaupallisia sovelluskohteita. Puutteet järjestelmien kyvyssä sietää häiriöitä vaikeuttavat kuitenkin edelleen niiden käyttöä monissa uudenlaisissa käyttötarkoituksissa. Vaikka ihmiset pystyvät ongelmitta ymmärtämään puhetta erilaisissa ympäristöissä, melun ja pinnoista heijastuvien äänien aiheuttamat häiriöt puhesignaalissa heikentävät merkittävästi tavanomaisten järjestelmien tarkkuutta. Tämä väitöskirja tutkii menetelmiä, joiden tarkoitus on vähentää tällaisten häiriöiden vaikutusta, ja auttaa siten parantamaan puheentunnistuksen laatua haastavissa olosuhteissa. Väitöskirjan pääaiheena ovat algoritmit, joilla voidaan muokata puhesignaalin käyttämiä piirteitä siten, että melu ja kaiku vaikuttavat niihin vähemmän. Väitöskirjan tutkimus kohdistuu useisiin tapoihin ratkaista tämä ongelma. Painotettua lineaariprediktiota tutkitaan menetelmänä huomioida häiriönsietävyys puheentunnistuksen piirteiden käyttämissä spektrimalleissa. Additiivisen melun vaimentamiseksi väitöskirjassa esitetään parannuksia algoritmeihin, jotka perustuvat puuttuvan tiedon käsittelyyn sekä ei-negatiivisen matriisihajotelman käyttöön äänilähteiden erottelussa. Kaiuntaa sisältävän puheen ongelmaa käsitellään laajentamalla äänilähteiden erottelussa käytettyä matriisihajotelmaa siten, että se sisältää myös konvoluutioon pohjautuvan häiriön mallin. Lisäksi esitellään menetelmä kaiunnan vaikutuksen vähentämiseksi muokkaamalla piirteiden jakaumaa vastaamaan paremmin kaiuttoman puheen jakaumaa. Ehdotettujen lähestymistapojen positiivinen vaikutus puheentunnistuksen tarkkuuteen selvitetään kokeilla, joissa tehtävänä on laajan sanaston jatkuvan puheen tunnistus. Piirteiden muokkauksen lisäksi väitöskirjassa tutkitaan tapoja saada ja hyödyntää tietoa siitä, miten luotettavia tuloksena saadut piirteet ovat. Vaikka mikään järjestelmä ei pysty täysin poistamaan kaikkia melun jälkiä puheen piirteistä, on usein mahdollista arvioida paikallisesti, kuinka tarkkoja käsitellyt piirteet ovat. Tätä arviota voidaan hyödyntää puheentunnistuksen dekoodausvaiheessa vähentämällä epäluotettavien alueiden painoarvoa. Väitöskirjassa esitetään ja arvioidaan sellaisia piirteiden luotettavuuden heuristisia mittareita, jotka ovat yhteensopivia puuttuvaan tietoon sekä ei-negatiivisen matriisihajotelman käyttöön perustuvien menetelmien kanssa. fi
dc.format.extent 114 + app. 114
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 31/2016
dc.relation.haspart [Publication 1]: Heikki Kallasjoki, Kalle J. Palomaki, Carlo Magi, Paavo Alku and Mikko Kurimo. Noise robust LVCSR feature extraction based on stabilized weighted linear prediction. In Proceedings of the 13th International Conference on Speech and Computer (SPECOM 2009), pages 221–225, St. Petersburg, Russia, June 2009.
dc.relation.haspart [Publication 2]: Jouni Pohjalainen, Heikki Kallasjoki, Paavo Alku, Kalle J. Palomaki and Mikko Kurimo. Weighted linear prediction for speech analysis in noisy conditions. In Proceedings of the 10th Annual Conference of the International Speech Communication Association (Interspeech 2009), pages 1315–1318, Brighton, UK, September 2009.
dc.relation.haspart [Publication 3]: Heikki Kallasjoki, Ulpu Remes, Jort F. Gemmeke, Tuomas Virtanen and Kalle Palomaki. Uncertainty measures for improving exemplarbased source separation. In Proceedings of the 12th Annual Conference of the International Speech Communication Association (Interspeech 2011), pages 469–472, Florence, Italy, August 2011.
dc.relation.haspart [Publication 4]: Heikki Kallasjoki, Sami Keronen, Guy J. Brown, Jort F. Gemmeke, Ulpu Remes and Kalle J. Palomaki. Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments. In proceedings of the 1st International Workshop on Machine Listening in Multisource Environments (CHiME 2011), pages 58-63, Florence, Italy, September 2011.
dc.relation.haspart [Publication 5]: Sami Keronen, Heikki Kallasjoki, Ulpu Remes, Guy J. Brown, Jort F. Gemmeke, Kalle J. Palomaki. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment. Computer Speech and Language, volume 27, issue 3, pages 798–819, May 2013. doi:10.1016/j.csl.2012.06.005
dc.relation.haspart [Publication 6]: Heikki Kallasjoki, Jort F. Gemmeke and Kalle J. Palomaki. Estimating uncertainty to improve exemplar-based feature enhancement for noise robust speech recognition. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 22, issue 2, pages 368–380, February 2014. DOI: 10.1109/TASLP.2013.2292328
dc.relation.haspart [Publication 7]: Heikki Kallasjoki, Jort F. Gemmeke, Kalle J. Palomaki, Amy V. Beeston, Guy J. Brown. Recognition of reverberant speech by missing data imputation and NMF feature enhancement. In Proceedings of the REVERB Workshop, Florence, Italy, May 2014.
dc.relation.haspart [Publication 8]: Kalle J. Palomaki, Heikki Kallasjoki. Reverberation robust speech recognition by matching distributions of spectrally and temporally decorrelated features. In Proceedings of the REVERB Workshop, Florence, Italy, May 2014.
dc.relation.haspart [Publication 9]: Sami Keronen, Heikki Kallasjoki, Kalle J. Palomaki, Guy J. Brown, Jort F. Gemmeke. Feature enhancement of reverberant speech by distribution matching and non-negative matrix factorization. EURASIP Journal on Advances in Signal Processing, volume 2015, article 76, August 2015. DOI: 10.1186/s13634-015-0259-1
dc.subject.other Acoustics en
dc.title Feature Enhancement and Uncertainty Estimation for Recognition of Noisy and Reverberant Speech en
dc.title Piirteiden korjaus ja epävarmuuden arviointi melua ja kohinaa sisältävän puheen tunnistuksessa fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.contributor.school School of Electrical Engineering en
dc.contributor.department Signaalinkäsittelyn ja akustiikan laitos fi
dc.contributor.department Department of Signal Processing and Acoustics en
dc.subject.keyword automatic speech recognition en
dc.subject.keyword noise robust ASR en
dc.subject.keyword non-negative matrix factorization en
dc.subject.keyword observation uncertainty en
dc.subject.keyword speech dereverberation en
dc.subject.keyword automaattinen puheentunnistus fi
dc.subject.keyword melusietoinen puheentunnistus fi
dc.subject.keyword ei-negatiivinen matriisihajotelma fi
dc.subject.keyword havaintojen epävarmuus fi
dc.identifier.urn URN:ISBN:978-952-60-6666-0
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.opn Kolossa, Dorothea, prof., Ruhr-Universität Bochum, Germany
dc.rev Kinnunen, Tomi, doc., University of Eastern Finland, Finland
dc.rev Vincent, Emmanuel, dr., Inria, France
dc.date.defence 2016-04-15


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account