Statistical methods for incomplete speech data

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorPalomäki, Kalle, Docent, Aalto University, Department of Signal Processing and Acoustics, Finland
dc.contributor.authorRemes, Ulpu
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorKurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
dc.date.accessioned2016-08-24T09:01:17Z
dc.date.available2016-08-24T09:01:17Z
dc.date.defence2016-09-02
dc.date.issued2016
dc.description.abstractSpeech can be represented as an observation matrix where each node corresponds to a certain speech feature. However when speech is mixed with environmental sounds, some features cannot be observed and the observation matrix remains incomplete. The missing values are a problem because incomplete observations can support incorrect conclusions and because most applications cannot process incomplete data. Methods that are used to handle incomplete observations are called missing-data methods.  This thesis presents on overview on missing-data methods and discusses their application in noise-robust automatic speech recognition. Hence we assume that the speech observations are incomplete due to environmental sounds. The methods studied in this work substitute unobserved feature values with estimates calculated based on the incomplete observations and statistical dependencies between the observed and unobserved features. This is called missing-data imputation. The main research directions include imputation methods that utilise temporal dependencies between observations and imputation methods that associate feature estimates with uncertainties. The experiments conducted in this work indicate that temporal dependencies and imputation uncertainties improve automatic speech recognition performance when speech is corrupted with environmental noise.  The thesis also discusses narrowband telephone speech and bandwidth extension. Narrowband speech can be considered incomplete since observations associated with certain features are not included in the narrowband transmission. Bandwidth extension means that the narrowband observations are converted into wideband observations which include more features. The bandwidth extension methods evaluated in this work estimate wideband observations based on narrowband observations and statistical dependencies between narrowband and wideband features.en
dc.description.abstractPuhe voidaan esittää havaintomatriisina, missä yksittäiset havainnot vastaavat puheen eri ominaisuuksia tai piirteitä eri ajanhetkillä. Kun puheeseen sekoittuu muita ääniä, kaikkien piirteiden havaitseminen ei kuitenkaan onnistu. Tällöin havaintomatriisista ei tule kokonaista. Puuttuvat havainnot hankaloittavat puheaineiston käyttöä, koska osittaisen tiedon perusteella saatetaan tehdä vääriä päätelmiä. Useimmat sovellukset eivät myöskään käsittele osittaista havaintoaineistoa. Osittaisen havaintoaineiston käsittelyyn soveltuvia menetelmiä kutsutaan puuttuvan tiedon menetelmiksi.  Tässä väitöskirjassa tutustutaan puuttuvan tiedon menetelmiin ja menetelmien käyttöön melusietoisessa automaattisessa puheentunnistuksessa. Työssä tutkittava puhe on siis taustamelun takia osittain havaitsematta. Puheen käsittelyyn käytetään puuttuvan tiedon paikkaamiseen eli imputointiin perustuvia menetelmiä. Imputointimenetelmät käyttävät osittaista havaintomatriisia sekä havaintomatriisin piirteiden välisiä tilastollisia riippuvuuksia puuttuvan osuuden estimointiin. Tässä työssä tutkitaan erityisesti aikariippuvuuksien käyttöä puuttuvan havaintotiedon estimoinnissa sekä estimoinnin luotettavuuden arviointia. Estimoinnin luotettavuuden arviointia kutsutaan havainnon epävarmuuden mallintamiseksi. Puheentunnistuskokeet osoittavat sekä aikariippuvuuksien että epävarmuuksien käytön parantavan puheentunnistustarkkuutta, kun havaittuun puheeseen on sekoittunut taustamelua.  Melusietoisen puheentunnistuksen lisäksi väitöskirjassa käsitellään puheen taajuuskaistan keinotekoista laajentamista. Esimerkiksi kapeakaistaisen puhelinverkon välittämää puhetta voidaan pitää osittain havaittuna, koska kapeakaistaisessa tiedonsiirrossa välitetään ainostaan osa puheen piirteistä. Taajuuskaistan laajentamisella tarkoitetaan kapeakaistaisen puheen muuntamista laajakaistaiseksi. Kapeakaistaista puhetta kuvaavaan havaintomatriisin lisätään tällöin laajakaistaista puhetta kuvaavia piirteitä. Piirteiden arvot estimoidaan havaitun kapeakaistaisen puheen perusteella käyttäen hyväksi tilastollisia riippuvuuksia kapeakaistaisen ja laajakaistaisen puheen välillä.fi
dc.format.extent87 + app. 80
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-6937-1 (electronic)
dc.identifier.isbn978-952-60-6936-4 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/21548
dc.identifier.urnURN:ISBN:978-952-60-6937-1
dc.language.isoenen
dc.opnVan hamme, Hugo, Prof., KU Leuven, Belgium
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Jort F. Gemmeke, Bert Cranen and Ulpu Remes. Sparse imputation for large vocabulary noise robust ASR. Computer Speech & Language, volume 25, issue 2, pp. 462–479, April 2011. DOI: 10.1016/j.csl.2010.06.004
dc.relation.haspart[Publication 2]: Jort F. Gemmeke, Ulpu Remes and Kalle J. Palomäki. Observation uncertainty measures for sparse imputation. In INTERSPEECH, Makuhari, Chiba, Japan, pp. 2262–2265, September 2010.
dc.relation.haspart[Publication 3]: Ulpu Remes, Kalle J. Palomäki, Tapani Raiko, Antti Honkela and Mikko Kurimo. Missing-feature reconstruction with a bounded nonlinear state-space model. IEEE Signal Processing Letters, volume 18, issue 10, pp. 563–566, October 2011. DOI: 10.1109/LSP.2011.2163508
dc.relation.haspart[Publication 4]: Ulpu Remes, Yoshihiko Nankaku and Keiichi Tokuda. GMM-based missing-feature reconstruction on multi-frame windows. In INTERSPEECH, Florence, Italy, pp. 1665–1668, August 2011.
dc.relation.haspart[Publication 5]: Ulpu Remes. Bounded conditional mean imputation with an approximate posterior. In INTERSPEECH, Lyon, France, pp. 3007–3011, August 2013.
dc.relation.haspart[Publication 6]: Ulpu Remes, Ana Ramírez López, Kalle Palomäki and Mikko Kurimo. Bounded conditional mean imputation with observation uncertainties and acoustic model adaptation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, volume 23, issue 7, pp. 1198–1208, July 2015. DOI: 10.1109/TASLP.2015.2424322
dc.relation.haspart[Publication 7]: Hannu Pulakka, Ulpu Remes, Kalle Palomäki, Mikko Kurimo and Paavo Alku. Speech bandwidth extension using Gaussian mixture model-based estimation of the highband mel spectrum. In ICASSP, Prague, Czech Republic, pp. 5100–5103, May 2011. DOI: 10.1109/ICASSP.2011.5947504
dc.relation.haspart[Publication 8]: Hannu Pulakka, Ulpu Remes, Santeri Yrttiaho, Kalle Palomäki, Mikko Kurimo and Paavo Alku. Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and Gaussian mixture model. IEEE Transactions on Audio, Speech, and Language Processing, volume 20, issue 8, pp. 2219–2231, October 2012. DOI: 10.1109/TASL.2012.2199110
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries149/2016
dc.revBarker, Jon, Dr., University of Sheffield, UK
dc.revFernandez Astudillo, Ramon, Dr., INESC-ID, Portugal
dc.subject.keywordautomatic speech recognitionen
dc.subject.keywordmissing-data methodsen
dc.subject.keywordnoise robustnessen
dc.subject.keywordobservation uncertaintiesen
dc.subject.keywordautomaattinen puheentunnistusfi
dc.subject.keywordhavaintojen epävarmuusfi
dc.subject.keywordmelusietoisuusfi
dc.subject.keywordpuuttuvan tiedon menetelmätfi
dc.subject.otherAcousticsen
dc.titleStatistical methods for incomplete speech dataen
dc.titleTilastollisia menetelmiä osittain havaitun puheen käsittelyynfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.archiveyes
local.aalto.formfolder2016_08_23_klo_16_44

Files

Original bundle

Now showing 1 - 2 of 2
No Thumbnail Available
Name:
isbn9789526069371.pdf
Size:
456.04 KB
Format:
Adobe Portable Document Format
No Thumbnail Available
Name:
Errata_remes_ulpu_DD_149_2016_publication_P5.pdf
Size:
93.67 KB
Format:
Adobe Portable Document Format