Statistical methods for incomplete speech data
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Palomäki, Kalle, Docent, Aalto University, Department of Signal Processing and Acoustics, Finland | |
dc.contributor.author | Remes, Ulpu | |
dc.contributor.department | Signaalinkäsittelyn ja akustiikan laitos | fi |
dc.contributor.department | Department of Signal Processing and Acoustics | en |
dc.contributor.school | Sähkötekniikan korkeakoulu | fi |
dc.contributor.school | School of Electrical Engineering | en |
dc.contributor.supervisor | Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland | |
dc.date.accessioned | 2016-08-24T09:01:17Z | |
dc.date.available | 2016-08-24T09:01:17Z | |
dc.date.defence | 2016-09-02 | |
dc.date.issued | 2016 | |
dc.description.abstract | Speech can be represented as an observation matrix where each node corresponds to a certain speech feature. However when speech is mixed with environmental sounds, some features cannot be observed and the observation matrix remains incomplete. The missing values are a problem because incomplete observations can support incorrect conclusions and because most applications cannot process incomplete data. Methods that are used to handle incomplete observations are called missing-data methods. This thesis presents on overview on missing-data methods and discusses their application in noise-robust automatic speech recognition. Hence we assume that the speech observations are incomplete due to environmental sounds. The methods studied in this work substitute unobserved feature values with estimates calculated based on the incomplete observations and statistical dependencies between the observed and unobserved features. This is called missing-data imputation. The main research directions include imputation methods that utilise temporal dependencies between observations and imputation methods that associate feature estimates with uncertainties. The experiments conducted in this work indicate that temporal dependencies and imputation uncertainties improve automatic speech recognition performance when speech is corrupted with environmental noise. The thesis also discusses narrowband telephone speech and bandwidth extension. Narrowband speech can be considered incomplete since observations associated with certain features are not included in the narrowband transmission. Bandwidth extension means that the narrowband observations are converted into wideband observations which include more features. The bandwidth extension methods evaluated in this work estimate wideband observations based on narrowband observations and statistical dependencies between narrowband and wideband features. | en |
dc.description.abstract | Puhe voidaan esittää havaintomatriisina, missä yksittäiset havainnot vastaavat puheen eri ominaisuuksia tai piirteitä eri ajanhetkillä. Kun puheeseen sekoittuu muita ääniä, kaikkien piirteiden havaitseminen ei kuitenkaan onnistu. Tällöin havaintomatriisista ei tule kokonaista. Puuttuvat havainnot hankaloittavat puheaineiston käyttöä, koska osittaisen tiedon perusteella saatetaan tehdä vääriä päätelmiä. Useimmat sovellukset eivät myöskään käsittele osittaista havaintoaineistoa. Osittaisen havaintoaineiston käsittelyyn soveltuvia menetelmiä kutsutaan puuttuvan tiedon menetelmiksi. Tässä väitöskirjassa tutustutaan puuttuvan tiedon menetelmiin ja menetelmien käyttöön melusietoisessa automaattisessa puheentunnistuksessa. Työssä tutkittava puhe on siis taustamelun takia osittain havaitsematta. Puheen käsittelyyn käytetään puuttuvan tiedon paikkaamiseen eli imputointiin perustuvia menetelmiä. Imputointimenetelmät käyttävät osittaista havaintomatriisia sekä havaintomatriisin piirteiden välisiä tilastollisia riippuvuuksia puuttuvan osuuden estimointiin. Tässä työssä tutkitaan erityisesti aikariippuvuuksien käyttöä puuttuvan havaintotiedon estimoinnissa sekä estimoinnin luotettavuuden arviointia. Estimoinnin luotettavuuden arviointia kutsutaan havainnon epävarmuuden mallintamiseksi. Puheentunnistuskokeet osoittavat sekä aikariippuvuuksien että epävarmuuksien käytön parantavan puheentunnistustarkkuutta, kun havaittuun puheeseen on sekoittunut taustamelua. Melusietoisen puheentunnistuksen lisäksi väitöskirjassa käsitellään puheen taajuuskaistan keinotekoista laajentamista. Esimerkiksi kapeakaistaisen puhelinverkon välittämää puhetta voidaan pitää osittain havaittuna, koska kapeakaistaisessa tiedonsiirrossa välitetään ainostaan osa puheen piirteistä. Taajuuskaistan laajentamisella tarkoitetaan kapeakaistaisen puheen muuntamista laajakaistaiseksi. Kapeakaistaista puhetta kuvaavaan havaintomatriisin lisätään tällöin laajakaistaista puhetta kuvaavia piirteitä. Piirteiden arvot estimoidaan havaitun kapeakaistaisen puheen perusteella käyttäen hyväksi tilastollisia riippuvuuksia kapeakaistaisen ja laajakaistaisen puheen välillä. | fi |
dc.format.extent | 87 + app. 80 | |
dc.format.mimetype | application/pdf | en |
dc.identifier.isbn | 978-952-60-6937-1 (electronic) | |
dc.identifier.isbn | 978-952-60-6936-4 (printed) | |
dc.identifier.issn | 1799-4942 (electronic) | |
dc.identifier.issn | 1799-4934 (printed) | |
dc.identifier.issn | 1799-4934 (ISSN-L) | |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/21548 | |
dc.identifier.urn | URN:ISBN:978-952-60-6937-1 | |
dc.language.iso | en | en |
dc.opn | Van hamme, Hugo, Prof., KU Leuven, Belgium | |
dc.publisher | Aalto University | en |
dc.publisher | Aalto-yliopisto | fi |
dc.relation.haspart | [Publication 1]: Jort F. Gemmeke, Bert Cranen and Ulpu Remes. Sparse imputation for large vocabulary noise robust ASR. Computer Speech & Language, volume 25, issue 2, pp. 462–479, April 2011. DOI: 10.1016/j.csl.2010.06.004 | |
dc.relation.haspart | [Publication 2]: Jort F. Gemmeke, Ulpu Remes and Kalle J. Palomäki. Observation uncertainty measures for sparse imputation. In INTERSPEECH, Makuhari, Chiba, Japan, pp. 2262–2265, September 2010. | |
dc.relation.haspart | [Publication 3]: Ulpu Remes, Kalle J. Palomäki, Tapani Raiko, Antti Honkela and Mikko Kurimo. Missing-feature reconstruction with a bounded nonlinear state-space model. IEEE Signal Processing Letters, volume 18, issue 10, pp. 563–566, October 2011. DOI: 10.1109/LSP.2011.2163508 | |
dc.relation.haspart | [Publication 4]: Ulpu Remes, Yoshihiko Nankaku and Keiichi Tokuda. GMM-based missing-feature reconstruction on multi-frame windows. In INTERSPEECH, Florence, Italy, pp. 1665–1668, August 2011. | |
dc.relation.haspart | [Publication 5]: Ulpu Remes. Bounded conditional mean imputation with an approximate posterior. In INTERSPEECH, Lyon, France, pp. 3007–3011, August 2013. | |
dc.relation.haspart | [Publication 6]: Ulpu Remes, Ana Ramírez López, Kalle Palomäki and Mikko Kurimo. Bounded conditional mean imputation with observation uncertainties and acoustic model adaptation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 23, issue 7, pp. 1198–1208, July 2015. DOI: 10.1109/TASLP.2015.2424322 | |
dc.relation.haspart | [Publication 7]: Hannu Pulakka, Ulpu Remes, Kalle Palomäki, Mikko Kurimo and Paavo Alku. Speech bandwidth extension using Gaussian mixture model-based estimation of the highband mel spectrum. In ICASSP, Prague, Czech Republic, pp. 5100–5103, May 2011. DOI: 10.1109/ICASSP.2011.5947504 | |
dc.relation.haspart | [Publication 8]: Hannu Pulakka, Ulpu Remes, Santeri Yrttiaho, Kalle Palomäki, Mikko Kurimo and Paavo Alku. Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and Gaussian mixture model. IEEE Transactions on Audio, Speech, and Language Processing, volume 20, issue 8, pp. 2219–2231, October 2012. DOI: 10.1109/TASL.2012.2199110 | |
dc.relation.ispartofseries | Aalto University publication series DOCTORAL DISSERTATIONS | en |
dc.relation.ispartofseries | 149/2016 | |
dc.rev | Barker, Jon, Dr., University of Sheffield, UK | |
dc.rev | Fernandez Astudillo, Ramon, Dr., INESC-ID, Portugal | |
dc.subject.keyword | automatic speech recognition | en |
dc.subject.keyword | missing-data methods | en |
dc.subject.keyword | noise robustness | en |
dc.subject.keyword | observation uncertainties | en |
dc.subject.keyword | automaattinen puheentunnistus | fi |
dc.subject.keyword | havaintojen epävarmuus | fi |
dc.subject.keyword | melusietoisuus | fi |
dc.subject.keyword | puuttuvan tiedon menetelmät | fi |
dc.subject.other | Acoustics | en |
dc.title | Statistical methods for incomplete speech data | en |
dc.title | Tilastollisia menetelmiä osittain havaitun puheen käsittelyyn | fi |
dc.type | G5 Artikkeliväitöskirja | fi |
dc.type.dcmitype | text | en |
dc.type.ontasot | Doctoral dissertation (article-based) | en |
dc.type.ontasot | Väitöskirja (artikkeli) | fi |
local.aalto.archive | yes | |
local.aalto.formfolder | 2016_08_23_klo_16_44 |