Topic adaptation for speech recognition in multimodal environment
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Kurimo, Mikko | |
dc.contributor.author | Ruokolainen, Teemu | |
dc.contributor.school | Informaatio- ja luonnontieteiden tiedekunta | fi |
dc.contributor.supervisor | Oja, Erkki | |
dc.date.accessioned | 2012-03-06T13:38:23Z | |
dc.date.available | 2012-03-06T13:38:23Z | |
dc.date.issued | 2009 | |
dc.description.abstract | Automaattinen puheentunnistusjärjestelmä koostuu kahdesta peruskomponentista, akustisesta ja kielimallista. Kielimallin aiheadaptoinnilla otetaan huomioon puheen aihe nostamalla aiheelle tyypillisten sanojen todenn äköisyyksiä. Aiheadaptoinnin avulla pyritään parantamaan aiheen kannalta oleellisten sanojen tunnistamista.Aiheadaptoinnin mahdollinen hyöty riippuu oikean aiheen haun onnistumisesta. Mikäli käytettävissä oleva, aiheeseen liittyvä avainsanalista on riittävän suuri, voidaan olettaa, että aihehaku tapahtuu onnistuneesti. Yleensä avainsanat on saatu tekstimuotoisista dokumenteista tai puheentunnistimen itsensä tuottamasta tunnistustuloksesta. Multimodaalisten käyttöliittymien kehittymisen myötä on kuitenkin kiinnostavaa tutkia tilannetta, jossa avainsanat ovat peräisin yleiseltä modaaliselta lähteeltä. Tällöin avainsanalistan riittävää kokoa tai luotettavuutta ei voida olettaa. Tässä työssä käsitellään aiheadaptointia käyttäen pienikokoisia ja mahdollisesti epäluotettavia aihekohtaisia avainsanalistoja. Aihehakujen onnistumista ja puheentunnistustuloksia arvioidaan suuren sanaston jatkuvan puheen tunnistuksessa käyttäen englanninkielistä uutisaineistoa. Tulokset osoittavat, että onnistunut aihehaku on mahdollista tehdä pienellä avainsanamäärällä. Aihehaku ei kuitenkaan vaikuttanut parantavasti tai huonontavasti puheentunnistustulokseen kokonaisuudessaan. | fi |
dc.description.abstract | Automatic speech recognition system consists of two basic elements, the acoustic model and the language model. In topic adaptation of the language model, we take into account the underlying topic of speech by elevating the probabilites of the subvocabulary characteristic to its topic. Via topic adaptation, we aim at improving the recognition of topically important words. The potential benefit of topic adaptation relies on the success of retrieving the underlying topic correctly. Given a sufficiently large amount of keywords related to the topic, we can be confident that the retrieved topic is accurate. Traditionally, the keywords are extracted from a textual document or the transcription provided by the recognizer itself. However, due to the development of multimodal interfaces, we are interested in a scenario where the keywords are provided by an abstract modal source and no guarantees of the sufficient size or reliability of the keywords can be assumed. In this work, we discuss the prospect of topic adaptation using small-sized and potentially unreliable topical keyword lists. The topic retrieval and speech recognition results are evaluated in large vocabulary continuous speech recognition task with English newswire data. The results indicate that successful topic retrieval using small-sized cues is feasible. However, topic adaptation did not either improve or degrade the speech recognition performance on the whole. | en |
dc.format.extent | 5 + 58 | |
dc.format.mimetype | application/pdf | |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/3068 | |
dc.identifier.urn | URN:NBN:fi:aalto-201203071299 | |
dc.language.iso | en | en |
dc.programme | Tietotekniikan tutkinto-ohjelma | fi |
dc.programme.major | Informaatiotekniikka | fi |
dc.programme.mcode | T-61 | |
dc.publisher | Teknillinen korkeakoulu | fi |
dc.publisher | Helsinki University of Technology | en |
dc.rights.accesslevel | openAccess | |
dc.subject.keyword | aiheadaptaatio | fi |
dc.subject.keyword | aihehaku | fi |
dc.subject.keyword | topic adaptation | en |
dc.subject.keyword | topic retrieval | en |
dc.title | Topic adaptation for speech recognition in multimodal environment | en |
dc.title | Puheentunnistuksen aiheadaptaatio multimodaalisessa ympäristössä | fi |
dc.type | G2 Pro gradu, diplomityö | fi |
dc.type.dcmitype | text | en |
dc.type.okm | G2 Pro gradu, diplomityö | |
dc.type.ontasot | Diplomityö | fi |
dc.type.ontasot | Master's thesis | en |
dc.type.publication | masterThesis | |
local.aalto.digifolder | Aalto_39194 | |
local.aalto.idinssi | 38422 | |
local.aalto.openaccess | yes |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- urn100010.pdf
- Size:
- 387.71 KB
- Format:
- Adobe Portable Document Format