Statistical methods for incomplete speech data
Loading...
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Doctoral thesis (article-based)
| Defence date: 2016-09-02
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2016
Major/Subject
Mcode
Degree programme
Language
en
Pages
87 + app. 80
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 149/2016
Abstract
Speech can be represented as an observation matrix where each node corresponds to a certain speech feature. However when speech is mixed with environmental sounds, some features cannot be observed and the observation matrix remains incomplete. The missing values are a problem because incomplete observations can support incorrect conclusions and because most applications cannot process incomplete data. Methods that are used to handle incomplete observations are called missing-data methods. This thesis presents on overview on missing-data methods and discusses their application in noise-robust automatic speech recognition. Hence we assume that the speech observations are incomplete due to environmental sounds. The methods studied in this work substitute unobserved feature values with estimates calculated based on the incomplete observations and statistical dependencies between the observed and unobserved features. This is called missing-data imputation. The main research directions include imputation methods that utilise temporal dependencies between observations and imputation methods that associate feature estimates with uncertainties. The experiments conducted in this work indicate that temporal dependencies and imputation uncertainties improve automatic speech recognition performance when speech is corrupted with environmental noise. The thesis also discusses narrowband telephone speech and bandwidth extension. Narrowband speech can be considered incomplete since observations associated with certain features are not included in the narrowband transmission. Bandwidth extension means that the narrowband observations are converted into wideband observations which include more features. The bandwidth extension methods evaluated in this work estimate wideband observations based on narrowband observations and statistical dependencies between narrowband and wideband features.Puhe voidaan esittää havaintomatriisina, missä yksittäiset havainnot vastaavat puheen eri ominaisuuksia tai piirteitä eri ajanhetkillä. Kun puheeseen sekoittuu muita ääniä, kaikkien piirteiden havaitseminen ei kuitenkaan onnistu. Tällöin havaintomatriisista ei tule kokonaista. Puuttuvat havainnot hankaloittavat puheaineiston käyttöä, koska osittaisen tiedon perusteella saatetaan tehdä vääriä päätelmiä. Useimmat sovellukset eivät myöskään käsittele osittaista havaintoaineistoa. Osittaisen havaintoaineiston käsittelyyn soveltuvia menetelmiä kutsutaan puuttuvan tiedon menetelmiksi. Tässä väitöskirjassa tutustutaan puuttuvan tiedon menetelmiin ja menetelmien käyttöön melusietoisessa automaattisessa puheentunnistuksessa. Työssä tutkittava puhe on siis taustamelun takia osittain havaitsematta. Puheen käsittelyyn käytetään puuttuvan tiedon paikkaamiseen eli imputointiin perustuvia menetelmiä. Imputointimenetelmät käyttävät osittaista havaintomatriisia sekä havaintomatriisin piirteiden välisiä tilastollisia riippuvuuksia puuttuvan osuuden estimointiin. Tässä työssä tutkitaan erityisesti aikariippuvuuksien käyttöä puuttuvan havaintotiedon estimoinnissa sekä estimoinnin luotettavuuden arviointia. Estimoinnin luotettavuuden arviointia kutsutaan havainnon epävarmuuden mallintamiseksi. Puheentunnistuskokeet osoittavat sekä aikariippuvuuksien että epävarmuuksien käytön parantavan puheentunnistustarkkuutta, kun havaittuun puheeseen on sekoittunut taustamelua. Melusietoisen puheentunnistuksen lisäksi väitöskirjassa käsitellään puheen taajuuskaistan keinotekoista laajentamista. Esimerkiksi kapeakaistaisen puhelinverkon välittämää puhetta voidaan pitää osittain havaittuna, koska kapeakaistaisessa tiedonsiirrossa välitetään ainostaan osa puheen piirteistä. Taajuuskaistan laajentamisella tarkoitetaan kapeakaistaisen puheen muuntamista laajakaistaiseksi. Kapeakaistaista puhetta kuvaavaan havaintomatriisin lisätään tällöin laajakaistaista puhetta kuvaavia piirteitä. Piirteiden arvot estimoidaan havaitun kapeakaistaisen puheen perusteella käyttäen hyväksi tilastollisia riippuvuuksia kapeakaistaisen ja laajakaistaisen puheen välillä.Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, FinlandThesis advisor
Palomäki, Kalle, Docent, Aalto University, Department of Signal Processing and Acoustics, FinlandKeywords
automatic speech recognition, missing-data methods, noise robustness, observation uncertainties, automaattinen puheentunnistus, havaintojen epävarmuus, melusietoisuus, puuttuvan tiedon menetelmät
Parts
-
[Publication 1]: Jort F. Gemmeke, Bert Cranen and Ulpu Remes. Sparse imputation for large vocabulary noise robust ASR. Computer Speech & Language, volume 25, issue 2, pp. 462–479, April 2011.
DOI: 10.1016/j.csl.2010.06.004 View at publisher
- [Publication 2]: Jort F. Gemmeke, Ulpu Remes and Kalle J. Palomäki. Observation uncertainty measures for sparse imputation. In INTERSPEECH, Makuhari, Chiba, Japan, pp. 2262–2265, September 2010.
-
[Publication 3]: Ulpu Remes, Kalle J. Palomäki, Tapani Raiko, Antti Honkela and Mikko Kurimo. Missing-feature reconstruction with a bounded nonlinear state-space model. IEEE Signal Processing Letters, volume 18, issue 10, pp. 563–566, October 2011.
DOI: 10.1109/LSP.2011.2163508 View at publisher
- [Publication 4]: Ulpu Remes, Yoshihiko Nankaku and Keiichi Tokuda. GMM-based missing-feature reconstruction on multi-frame windows. In INTERSPEECH, Florence, Italy, pp. 1665–1668, August 2011.
- [Publication 5]: Ulpu Remes. Bounded conditional mean imputation with an approximate posterior. In INTERSPEECH, Lyon, France, pp. 3007–3011, August 2013.
-
[Publication 6]: Ulpu Remes, Ana Ramírez López, Kalle Palomäki and Mikko Kurimo. Bounded conditional mean imputation with observation uncertainties and acoustic model adaptation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 23, issue 7, pp. 1198–1208, July 2015.
DOI: 10.1109/TASLP.2015.2424322 View at publisher
-
[Publication 7]: Hannu Pulakka, Ulpu Remes, Kalle Palomäki, Mikko Kurimo and Paavo Alku. Speech bandwidth extension using Gaussian mixture model-based estimation of the highband mel spectrum. In ICASSP, Prague, Czech Republic, pp. 5100–5103, May 2011.
DOI: 10.1109/ICASSP.2011.5947504 View at publisher
-
[Publication 8]: Hannu Pulakka, Ulpu Remes, Santeri Yrttiaho, Kalle Palomäki, Mikko Kurimo and Paavo Alku. Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and Gaussian mixture model. IEEE Transactions on Audio, Speech, and Language Processing, volume 20, issue 8, pp. 2219–2231, October 2012.
DOI: 10.1109/TASL.2012.2199110 View at publisher