Topic adaptation for speech recognition in multimodal environment

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKurimo, Mikko
dc.contributor.authorRuokolainen, Teemu
dc.contributor.schoolInformaatio- ja luonnontieteiden tiedekuntafi
dc.contributor.supervisorOja, Erkki
dc.date.accessioned2012-03-06T13:38:23Z
dc.date.available2012-03-06T13:38:23Z
dc.date.issued2009
dc.description.abstractAutomaattinen puheentunnistusjärjestelmä koostuu kahdesta peruskomponentista, akustisesta ja kielimallista. Kielimallin aiheadaptoinnilla otetaan huomioon puheen aihe nostamalla aiheelle tyypillisten sanojen todenn äköisyyksiä. Aiheadaptoinnin avulla pyritään parantamaan aiheen kannalta oleellisten sanojen tunnistamista.Aiheadaptoinnin mahdollinen hyöty riippuu oikean aiheen haun onnistumisesta. Mikäli käytettävissä oleva, aiheeseen liittyvä avainsanalista on riittävän suuri, voidaan olettaa, että aihehaku tapahtuu onnistuneesti. Yleensä avainsanat on saatu tekstimuotoisista dokumenteista tai puheentunnistimen itsensä tuottamasta tunnistustuloksesta. Multimodaalisten käyttöliittymien kehittymisen myötä on kuitenkin kiinnostavaa tutkia tilannetta, jossa avainsanat ovat peräisin yleiseltä modaaliselta lähteeltä. Tällöin avainsanalistan riittävää kokoa tai luotettavuutta ei voida olettaa. Tässä työssä käsitellään aiheadaptointia käyttäen pienikokoisia ja mahdollisesti epäluotettavia aihekohtaisia avainsanalistoja. Aihehakujen onnistumista ja puheentunnistustuloksia arvioidaan suuren sanaston jatkuvan puheen tunnistuksessa käyttäen englanninkielistä uutisaineistoa. Tulokset osoittavat, että onnistunut aihehaku on mahdollista tehdä pienellä avainsanamäärällä. Aihehaku ei kuitenkaan vaikuttanut parantavasti tai huonontavasti puheentunnistustulokseen kokonaisuudessaan.fi
dc.description.abstractAutomatic speech recognition system consists of two basic elements, the acoustic model and the language model. In topic adaptation of the language model, we take into account the underlying topic of speech by elevating the probabilites of the subvocabulary characteristic to its topic. Via topic adaptation, we aim at improving the recognition of topically important words. The potential benefit of topic adaptation relies on the success of retrieving the underlying topic correctly. Given a sufficiently large amount of keywords related to the topic, we can be confident that the retrieved topic is accurate. Traditionally, the keywords are extracted from a textual document or the transcription provided by the recognizer itself. However, due to the development of multimodal interfaces, we are interested in a scenario where the keywords are provided by an abstract modal source and no guarantees of the sufficient size or reliability of the keywords can be assumed. In this work, we discuss the prospect of topic adaptation using small-sized and potentially unreliable topical keyword lists. The topic retrieval and speech recognition results are evaluated in large vocabulary continuous speech recognition task with English newswire data. The results indicate that successful topic retrieval using small-sized cues is feasible. However, topic adaptation did not either improve or degrade the speech recognition performance on the whole.en
dc.format.extent5 + 58
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/3068
dc.identifier.urnURN:NBN:fi:aalto-201203071299
dc.language.isoenen
dc.programmeTietotekniikan tutkinto-ohjelmafi
dc.programme.majorInformaatiotekniikkafi
dc.programme.mcodeT-61
dc.publisherTeknillinen korkeakoulufi
dc.publisherHelsinki University of Technologyen
dc.rights.accesslevelopenAccess
dc.subject.keywordaiheadaptaatiofi
dc.subject.keywordaihehakufi
dc.subject.keywordtopic adaptationen
dc.subject.keywordtopic retrievalen
dc.titleTopic adaptation for speech recognition in multimodal environmenten
dc.titlePuheentunnistuksen aiheadaptaatio multimodaalisessa ympäristössäfi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.dcmitypetexten
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotDiplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_39194
local.aalto.idinssi38422
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
urn100010.pdf
Size:
387.71 KB
Format:
Adobe Portable Document Format