Feature Enhancement and Uncertainty Estimation for Recognition of Noisy and Reverberant Speech

School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2016-04-15
Aalto University publication series DOCTORAL DISSERTATIONS, 31/2016
The task of automatic speech recognition has received considerable research attention and many systems have seen large-scale commercial deployment. However, lack of robustness is still a barrier to their use in novel applications. While human listeners are adept in understanding spoken language in diverse environments, the signal distortion caused by noise and reflected sounds severely degrades the accuracy of conventional systems. This thesis studies methods of reducing the effects of such distortions, improving the performance of speech recognition in challenging conditions. The emphasis of this thesis is on algorithms that enhance the sequence of input features observed by a speech recognition system, with the aim of making them more invariant to noise and reverberation. Research on several ways of addressing the problem is included. Weighted linear prediction is considered as a method to incorporate robustness in spectral modeling used for speech feature extraction. To counteract additive noise, improvements are proposed to algorithms based on the missing data framework and the use of non-negative matrix factorization as a tool for separating sound sources. Speech corrupted by reverberation is addressed by extending the source separation model to account for convolutional distortion. Further, a method of transforming the corrupted features based on matching their distribution to that of uncorrupted speech is presented. The positive impact of the proposed approaches on speech recognition performance is confirmed and quantified by experimental evaluation on large vocabulary continuous speech recognition tasks. Complementing the work, methods to extract and utilize information about the varying uncertainty of the enhanced features are investigated. While no system is capable of perfectly removing all traces of noise from the speech features, it is often possible to estimate the local accuracy of the processed speech. This information can be used in the decoding stage of a speech recognition system, to de-emphasize the regions of the input where the uncertainty is high, and the input features are more likely to be incorrect. This thesis proposes and evaluates heuristic uncertainty metrics compatible with the missing data and non-negative matrix factorization feature enhancement systems.

Puheen automaattista muuttamista tekstiksi on tutkittu laajasti, ja sillä on jo monia mittavia kaupallisia sovelluskohteita. Puutteet järjestelmien kyvyssä sietää häiriöitä vaikeuttavat kuitenkin edelleen niiden käyttöä monissa uudenlaisissa käyttötarkoituksissa. Vaikka ihmiset pystyvät ongelmitta ymmärtämään puhetta erilaisissa ympäristöissä, melun ja pinnoista heijastuvien äänien aiheuttamat häiriöt puhesignaalissa heikentävät merkittävästi tavanomaisten järjestelmien tarkkuutta. Tämä väitöskirja tutkii menetelmiä, joiden tarkoitus on vähentää tällaisten häiriöiden vaikutusta, ja auttaa siten parantamaan puheentunnistuksen laatua haastavissa olosuhteissa. Väitöskirjan pääaiheena ovat algoritmit, joilla voidaan muokata puhesignaalin käyttämiä piirteitä siten, että melu ja kaiku vaikuttavat niihin vähemmän. Väitöskirjan tutkimus kohdistuu useisiin tapoihin ratkaista tämä ongelma. Painotettua lineaariprediktiota tutkitaan menetelmänä huomioida häiriönsietävyys puheentunnistuksen piirteiden käyttämissä spektrimalleissa. Additiivisen melun vaimentamiseksi väitöskirjassa esitetään parannuksia algoritmeihin, jotka perustuvat puuttuvan tiedon käsittelyyn sekä ei-negatiivisen matriisihajotelman käyttöön äänilähteiden erottelussa. Kaiuntaa sisältävän puheen ongelmaa käsitellään laajentamalla äänilähteiden erottelussa käytettyä matriisihajotelmaa siten, että se sisältää myös konvoluutioon pohjautuvan häiriön mallin. Lisäksi esitellään menetelmä kaiunnan vaikutuksen vähentämiseksi muokkaamalla piirteiden jakaumaa vastaamaan paremmin kaiuttoman puheen jakaumaa. Ehdotettujen lähestymistapojen positiivinen vaikutus puheentunnistuksen tarkkuuteen selvitetään kokeilla, joissa tehtävänä on laajan sanaston jatkuvan puheen tunnistus. Piirteiden muokkauksen lisäksi väitöskirjassa tutkitaan tapoja saada ja hyödyntää tietoa siitä, miten luotettavia tuloksena saadut piirteet ovat. Vaikka mikään järjestelmä ei pysty täysin poistamaan kaikkia melun jälkiä puheen piirteistä, on usein mahdollista arvioida paikallisesti, kuinka tarkkoja käsitellyt piirteet ovat. Tätä arviota voidaan hyödyntää puheentunnistuksen dekoodausvaiheessa vähentämällä epäluotettavien alueiden painoarvoa. Väitöskirjassa esitetään ja arvioidaan sellaisia piirteiden luotettavuuden heuristisia mittareita, jotka ovat yhteensopivia puuttuvaan tietoon sekä ei-negatiivisen matriisihajotelman käyttöön perustuvien menetelmien kanssa.
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Palomäki, Kalle, Doc., Aalto University, Department of Signal Processing and Acoustics, Finland
automatic speech recognition, noise robust ASR, non-negative matrix factorization, observation uncertainty, speech dereverberation, automaattinen puheentunnistus, melusietoinen puheentunnistus, ei-negatiivinen matriisihajotelma, havaintojen epävarmuus
