Topic adaptation for speech recognition in multimodal environment
No Thumbnail Available
URL
Journal Title
Journal ISSN
Volume Title
Informaatio- ja luonnontieteiden tiedekunta |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2009
Department
Major/Subject
Informaatiotekniikka
Mcode
T-61
Degree programme
Tietotekniikan tutkinto-ohjelma
Language
en
Pages
5 + 58
Series
Abstract
Automaattinen puheentunnistusjärjestelmä koostuu kahdesta peruskomponentista, akustisesta ja kielimallista. Kielimallin aiheadaptoinnilla otetaan huomioon puheen aihe nostamalla aiheelle tyypillisten sanojen todenn äköisyyksiä. Aiheadaptoinnin avulla pyritään parantamaan aiheen kannalta oleellisten sanojen tunnistamista.Aiheadaptoinnin mahdollinen hyöty riippuu oikean aiheen haun onnistumisesta. Mikäli käytettävissä oleva, aiheeseen liittyvä avainsanalista on riittävän suuri, voidaan olettaa, että aihehaku tapahtuu onnistuneesti. Yleensä avainsanat on saatu tekstimuotoisista dokumenteista tai puheentunnistimen itsensä tuottamasta tunnistustuloksesta. Multimodaalisten käyttöliittymien kehittymisen myötä on kuitenkin kiinnostavaa tutkia tilannetta, jossa avainsanat ovat peräisin yleiseltä modaaliselta lähteeltä. Tällöin avainsanalistan riittävää kokoa tai luotettavuutta ei voida olettaa. Tässä työssä käsitellään aiheadaptointia käyttäen pienikokoisia ja mahdollisesti epäluotettavia aihekohtaisia avainsanalistoja. Aihehakujen onnistumista ja puheentunnistustuloksia arvioidaan suuren sanaston jatkuvan puheen tunnistuksessa käyttäen englanninkielistä uutisaineistoa. Tulokset osoittavat, että onnistunut aihehaku on mahdollista tehdä pienellä avainsanamäärällä. Aihehaku ei kuitenkaan vaikuttanut parantavasti tai huonontavasti puheentunnistustulokseen kokonaisuudessaan.Automatic speech recognition system consists of two basic elements, the acoustic model and the language model. In topic adaptation of the language model, we take into account the underlying topic of speech by elevating the probabilites of the subvocabulary characteristic to its topic. Via topic adaptation, we aim at improving the recognition of topically important words. The potential benefit of topic adaptation relies on the success of retrieving the underlying topic correctly. Given a sufficiently large amount of keywords related to the topic, we can be confident that the retrieved topic is accurate. Traditionally, the keywords are extracted from a textual document or the transcription provided by the recognizer itself. However, due to the development of multimodal interfaces, we are interested in a scenario where the keywords are provided by an abstract modal source and no guarantees of the sufficient size or reliability of the keywords can be assumed. In this work, we discuss the prospect of topic adaptation using small-sized and potentially unreliable topical keyword lists. The topic retrieval and speech recognition results are evaluated in large vocabulary continuous speech recognition task with English newswire data. The results indicate that successful topic retrieval using small-sized cues is feasible. However, topic adaptation did not either improve or degrade the speech recognition performance on the whole.Description
Supervisor
Oja, ErkkiThesis advisor
Kurimo, MikkoKeywords
aiheadaptaatio, aihehaku, topic adaptation, topic retrieval