Subspace Methods for Gaussian Mixture Models in Automatic Speech Recognition

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author

Date

2007

Major/Subject

Informaatiotekniikka

Mcode

T-61

Degree programme

Language

en

Pages

76 s. + liitt. 5

Series

Abstract

Laadukas akustinen mallinnus on yksi keskeinen tekijä puheentunnistuksessa. Puhesignaalista lasketaan tyypillisesti korkeaulotteisia piirrevektoreja, joihin yritetään tiivistää puheentunnistuksen kannalta oleellinen tieto. Tyypillisin menetelmä puheen akustiikan mallinnukseen on kätketty Markov-malli, jossa tilojen emissiotodennäköisyysjakaumat ovat piirrevektoreihin sovitettuja Gaussin mikstuurimalleja. Piirrevektorin komponenttien välinen tilastollinen riippumattomuus helpottaa jakaumien mallinnusta. Perinteisesti tämä ominaisuus on oletettu piirrevektoreista, koska tässä tapauksessa mikstuurimalli piirteiden jakaumalle on helpompi opettaa ja akustisten todennäköisyyksien laskeminen nopeutuu. Oletus tilastollisesta riippumattomuudesta pätee koko järjestelmän tasolla kohtalaisesti, mutta tilatasolla piirteiden väliset riippuvuudet voivat olla suuriakin. Tässä työssä tutkitaankin menetelmiä, joissa Gaussin parametreja mallinnetaan koko järjestelmälle yhteisessä aliavaruudessa. Tällaiset menetelmät säilyttävät kyvyn mallintaa piirteiden välisiä riippuvuuksia kuitenkin mahdollistaen pienen parametrimäärän ja pitäen todennäköisyyksien laskemisen edullisena. Menetelmiä testattiin sekä suomenkielisessä että englanninkielisessä laajan sanaston jatkuvassa puheentunnistuksessa. Molemmilla kielillä löydettiin erilaisia malliyhdistelmiä, jotka samoilla parametrimäärillä baseline-tuloksiin verrattaessa paransivat tunnistustarkkuutta huomattavasti tai vastaavasti saavuttivat saman tunnistustarkkuuden vähemmällä parametrimäärällä.

Description

Supervisor

Oja, Erkki

Thesis advisor

Kurimo, Mikko

Keywords

automatic speech recognition, automaattinen puheentunnistus, acoustic modeling, akustinen mallinnus, Gaussian mixture model, Gaussin mikstuurimalli, multivariate normal distribution, moniulotteinen normaalijakauma, subspace method, aliavaruusmenetelmä

Other note

Citation