Automatic Speech Recognition for Human-Robot Interaction Using an Under-Resourced Language

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorSmit, Peter
dc.contributor.advisorJokinen, Kristiina
dc.contributor.authorLeinonen, Juho
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorKurimo, Mikko
dc.date.accessioned2015-09-18T08:44:58Z
dc.date.available2015-09-18T08:44:58Z
dc.date.issued2015-08-24
dc.description.abstractAutomatic speech recognition will soon be a part of everyday life. Even today many people use the speech recognizer in their smartphones, whether it is Google Now or Siri. Commercial applications have existed for years for automatic dictation, and command-based voice user interfaces. The abundance of software divides languages in two; in well-resourced languages there is no shortage of products, while under-resourced languages might not even receive academic interest. In this thesis, an automatic speech recognizer is built for North Sami, which is a morphologically rich under-resourced language in the Uralic family. These properties create challenges for the recognition process, of which this thesis will concentrate on the issue of out-of-vocabulary words. The use of whole words is compared with word fragments, morphs, and tests are conducted to optimize other language model variables such as vocabulary size and context length. The experiments show that morph-based language models solve the problem of out-of-vocabulary words and significantly improve the recognition results without slowing the process too much. In addition, increasing context length improves the morph models, while adding supervision to generating them does not. As such, this thesis recommends a high order morph model generated with unsupervised methods to be used with North Sami.en
dc.description.abstractAutomaattinen puheentunnistus on piakkoin osa kaikkien ihmisten arkea. Jo nyt monet käyttävät älypuhelimissa mukana olevaa puheentunnistinta, oli kyse sitten Google Now:sta tai Siristä. Kaupallisia sovelluksia on ollut jo vuosia automaattisen sanelun, sekä käskypohjaisen käyttöliittymän toteutukseen. Tuotteiden runsaus jakaa kielet osiin, suuriresurssisissa kielissä kaupallisista sovelluksista ei ole pulaa, kun taas vähäresurssiset kielet eivät välttämättä saa edes akateemista huomiota. Tässä diplomityössä rakennetaan automaattinen puheentunnistin pohjoissaamelle, joka on vähäresurssinen ja morfologisesti rikas uralilaiseen kieliperheeseen kuuluva kieli. Nämä ominaisuudet luovat haasteita tunnistukseen, joista tämä diplomityö keskittyy erityisesti sanakirjan ulkopuolisten sanojen synnyttämiin ongelmiin. Kokonaisten sanojen ja sanapalasten, morfien, käyttöä puheentunnistimen kielimallissa verrataan keskenään, ja testeillä optimoidaan myös muita kielimallien muuttujia, kuten sanakirjan kokoa ja kontekstipituuksia. Kokeet osoittavat, että morfi-pohjainen kielimalli ratkaisee sanakirjan ulkopuolisten sanojen ongelman, ja parantaa huomattavasti tunnistustuloksia hidastamatta prosessia liikaa. Lisäksi, kontekstipituuden suurentaminen parantaa morfi-malleja, kun taas ohjauksen lisääminen ei. Näin ollen, korkean asteen morfi-mallia, joka on luotu ohjaamattomasti, suositellaan käytettäväksi saamen kieleen.fi
dc.format.extent52+8
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/17772
dc.identifier.urnURN:NBN:fi:aalto-201509184387
dc.language.isoenen
dc.locationP1fi
dc.programmeAUT - Automaatio- ja systeemitekniikka (TS2005)fi
dc.programme.majorAutomaatio- ja systeemitekniikkafi
dc.programme.mcodeAS3001fi
dc.rights.accesslevelopenAccess
dc.subject.keywordspeech recognitionen
dc.subject.keywordlanguage modellingen
dc.subject.keywordn-gram modelsen
dc.subject.keywordmorphologyen
dc.subject.keywordunder-resourced languagesen
dc.titleAutomatic Speech Recognition for Human-Robot Interaction Using an Under-Resourced Languageen
dc.titleAutomaattinen puheentunnistus ihmisen ja robotin kanssakäymiseen kielellä jolle on niukasti opetusresurssejafi
dc.typeG2 Pro gradu, diplomityöen
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
dc.type.publicationmasterThesis
local.aalto.idinssi52104
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Leinonen_Juho_2015.pdf
Size:
1.29 MB
Format:
Adobe Portable Document Format