Subspace Methods for Gaussian Mixture Models in Automatic Speech Recognition
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology |
Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Authors
Date
2007
Department
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Language
en
Pages
76 s. + liitt. 5
Series
Abstract
Laadukas akustinen mallinnus on yksi keskeinen tekijä puheentunnistuksessa. Puhesignaalista lasketaan tyypillisesti korkeaulotteisia piirrevektoreja, joihin yritetään tiivistää puheentunnistuksen kannalta oleellinen tieto. Tyypillisin menetelmä puheen akustiikan mallinnukseen on kätketty Markov-malli, jossa tilojen emissiotodennäköisyysjakaumat ovat piirrevektoreihin sovitettuja Gaussin mikstuurimalleja. Piirrevektorin komponenttien välinen tilastollinen riippumattomuus helpottaa jakaumien mallinnusta. Perinteisesti tämä ominaisuus on oletettu piirrevektoreista, koska tässä tapauksessa mikstuurimalli piirteiden jakaumalle on helpompi opettaa ja akustisten todennäköisyyksien laskeminen nopeutuu. Oletus tilastollisesta riippumattomuudesta pätee koko järjestelmän tasolla kohtalaisesti, mutta tilatasolla piirteiden väliset riippuvuudet voivat olla suuriakin. Tässä työssä tutkitaankin menetelmiä, joissa Gaussin parametreja mallinnetaan koko järjestelmälle yhteisessä aliavaruudessa. Tällaiset menetelmät säilyttävät kyvyn mallintaa piirteiden välisiä riippuvuuksia kuitenkin mahdollistaen pienen parametrimäärän ja pitäen todennäköisyyksien laskemisen edullisena. Menetelmiä testattiin sekä suomenkielisessä että englanninkielisessä laajan sanaston jatkuvassa puheentunnistuksessa. Molemmilla kielillä löydettiin erilaisia malliyhdistelmiä, jotka samoilla parametrimäärillä baseline-tuloksiin verrattaessa paransivat tunnistustarkkuutta huomattavasti tai vastaavasti saavuttivat saman tunnistustarkkuuden vähemmällä parametrimäärällä.Description
Supervisor
Oja, ErkkiThesis advisor
Kurimo, MikkoKeywords
automatic speech recognition, automaattinen puheentunnistus, acoustic modeling, akustinen mallinnus, Gaussian mixture model, Gaussin mikstuurimalli, multivariate normal distribution, moniulotteinen normaalijakauma, subspace method, aliavaruusmenetelmä