Implementation of isolated word speech recognizer on a digital sitnal processor

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Helsinki University of Technology | Diplomityö
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2002
Major/Subject
Laitteistotekniikka
Mcode
S-88
Degree programme
Language
fi
Pages
66
Series
Abstract
Tässä diplomityössä tarkastellaan puheentunnistimen toteutusvaihtoehtoja. Tunnistin on erillään puhuttujen sanojen puheentunnistin, joka käyttää toimintoihinsa yhtä kiinteänpilkun laskentaa suorittavaa signaaliprosessoria. Toteutuksen tarvitseman signaaliprosessoriohjelman muistin määrä ja laskennan tarve ovat rajoitettuja, mikä on otettava huomioon vaihtoehtoja tarkasteltaessa. Kätkettyä Markov- paradigmaa (HMM) hyödyntävän tunnistimen toteuttamiseen valitaan kaksi eri Markov-mallin variaatiota. Diskreetti Markov- malli (DHMM) ja puolijatkuvan sekajakauman Markov- malli (SCHMM) vaikuttavat tunnistimen tarvitsemaan laskennan ja muistin määrään. Myös tunnistimen opetukseen tarvittavan datan määrä, ja siten tunnistimen käytettävyys, riippuu valitusta HMM-mallin tyypistä. Mallin ja sen parametroinnin ohella toinen puheentunnistimelle tärkeä toiminto on esikäsittely, jonka tarkoituksena on johtaa aikatason puhesignaalista piirrekuvaus, jonka luokittelu olisi mahdollisimman helppoa. Puheäänen laajan vaihtelevuuden takia tulisi piirrekuvauksen kyetä erottelemaan ne puhesignaalin ominaisuudet, jotka ovat kaikkein oleellisimpia tunnistuksen kannalta. Esikäsittelyn menetelminä työssä verrataan Mel-kepstrikertoimia (MFCC) ja Bark-kepstrikertoimia (BFCC), jotka molemmat hyödyntävät ihmisen kuuloaistia mallintavaa auditorista mallia. Puheentunnistimen toiminta huononee usein kuitenkin taustakohinan lisääntyessä. Taustakohinan ja -melun vaikutuksen vähentäminen on mahdollista joukolla kohinasietoisuutta parantavia menetelmiä. Tässä työssä kokeillaan kohinaspektrin vähennystä sekä puhuja-adaptaatiota MAP-menetelmällä. Parhaimman toteutusvaihtoehdon löytämiseksi arvioidaan kiinteänpilkun laskennan, sekä muisti- ja laskentakuorman tarve eri toteutusvaihtoehdoilla sekä tunnistimen toiminta mallinnetaan simulaatioiden avulla. Tulokset esitetään menetelmien vertailun, sekä tunnistimen käytettävyyttä parantavien lisäominaisuuksien, kuten sanahylkäyksen, osalta.
Description
Supervisor
Laine, Unto K.
Thesis advisor
Lipasti, Lauri
Keywords
isolated word, puheentunnistus, speech recognition, sanatunnistus, pattern recognition, hahmontunnistus, digital signal processor, kiinteänpilkun laskenta, fixed-point calculation, Markov- malli, hidden Markov -model, signaaliprosessori, DHMM, DHMM, SCHMM, SCHMM, discrete MAP-adaptation, MFCC, MFCC speech feature, BFCC, BFCC, diskreetti MAP-adaptaatio, OPD-word rejection, OPD-hylkäysfunktio
Other note
Citation