aalto1 untyped-item.component.html

Erillisten sanojen puhentunnistimen toteutus signaaliprosessorilla

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Helsinki University of Technology | Master's thesis
Electronic archive copy is available via Aalto Thesis Database.
Checking the digitized thesis and permission for publishing
Instructions for the author
Location:

Date

Major/Subject

Mcode

S-88

Degree programme

Language

fi

Pages

66

Series

Abstract

Tässä diplomityössä tarkastellaan puheentunnistimen toteutusvaihtoehtoja. Tunnistin on erillään puhuttujen sanojen puheentunnistin, joka käyttää toimintoihinsa yhtä kiinteänpilkun laskentaa suorittavaa signaaliprosessoria. Toteutuksen tarvitseman signaaliprosessoriohjelman muistin määrä ja laskennan tarve ovat rajoitettuja, mikä on otettava huomioon vaihtoehtoja tarkasteltaessa. Kätkettyä Markov- paradigmaa (HMM) hyödyntävän tunnistimen toteuttamiseen valitaan kaksi eri Markov-mallin variaatiota. Diskreetti Markov- malli (DHMM) ja puolijatkuvan sekajakauman Markov- malli (SCHMM) vaikuttavat tunnistimen tarvitsemaan laskennan ja muistin määrään. Myös tunnistimen opetukseen tarvittavan datan määrä, ja siten tunnistimen käytettävyys, riippuu valitusta HMM-mallin tyypistä. Mallin ja sen parametroinnin ohella toinen puheentunnistimelle tärkeä toiminto on esikäsittely, jonka tarkoituksena on johtaa aikatason puhesignaalista piirrekuvaus, jonka luokittelu olisi mahdollisimman helppoa. Puheäänen laajan vaihtelevuuden takia tulisi piirrekuvauksen kyetä erottelemaan ne puhesignaalin ominaisuudet, jotka ovat kaikkein oleellisimpia tunnistuksen kannalta. Esikäsittelyn menetelminä työssä verrataan Mel-kepstrikertoimia (MFCC) ja Bark-kepstrikertoimia (BFCC), jotka molemmat hyödyntävät ihmisen kuuloaistia mallintavaa auditorista mallia. Puheentunnistimen toiminta huononee usein kuitenkin taustakohinan lisääntyessä. Taustakohinan ja -melun vaikutuksen vähentäminen on mahdollista joukolla kohinasietoisuutta parantavia menetelmiä. Tässä työssä kokeillaan kohinaspektrin vähennystä sekä puhuja-adaptaatiota MAP-menetelmällä. Parhaimman toteutusvaihtoehdon löytämiseksi arvioidaan kiinteänpilkun laskennan, sekä muisti- ja laskentakuorman tarve eri toteutusvaihtoehdoilla sekä tunnistimen toiminta mallinnetaan simulaatioiden avulla. Tulokset esitetään menetelmien vertailun, sekä tunnistimen käytettävyyttä parantavien lisäominaisuuksien, kuten sanahylkäyksen, osalta.

Description

Supervisor

Laine, Unto K.

Thesis advisor

Lipasti, Lauri

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By