Akustisten mallien adaptointi kielten yli puhujariippumattomassa puheentunnistuksessa

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKurimo, Mikko
dc.contributor.authorKarhila, Reima
dc.contributor.schoolElektroniikan, tietoliikenteen ja automaation tiedekuntafi
dc.contributor.supervisorAlku, Paavo
dc.date.accessioned2012-03-12T07:14:32Z
dc.date.available2012-03-12T07:14:32Z
dc.date.issued2010
dc.description.abstractLaadukas puheentunnistus vaatii tunnistussysteemiltä kykyä mukautua puhujan ääneen ja puhetapaan. Suurin osa puheentunnistusjärjestelmistä on rakennettu kielellisesti yhtenäisten ryhmien käyttöön. Kun erilaisista kielellisistä taustoista tulevat ihmiset muodostavat enemmän ja enemmän käyttäjäryhmiä, tarve lisääntyy tehokkaalle monikieliselle puheentunnistukselle, joka ottaa huomioon murteiden ja painotusten lisäksi myös eri kielet. Tässä työssä tutkittiin, miten englannin ja suomen puheen akustisia malleja voidaan yhdistellä ja näin rakentaa monikielinen puheentunnistin. Työssä tutkittiin myös miten puhuja-adaptaatio toimii näissä järjestelmissä kielten sisällä ja kielirajan yli niin, että yhden kielen puhedataa käytetään adaptaatioon toisella kielellä. Puheentunnistimia rakennettiin suurilla suomen- ja englanninkielisillä puhekorpuksilla ja testattiin sekä yksi- että kaksikielisellä aineistolla. Tulosten perusteella voidaan todeta, että englannin ja suomen akustisten mallien yhdistelemisessä turvallisen klusteroinnin raja on niin alhaalla, että yhdistely ei juurikaan kannata tunnistimen tehokkuuden parantamiseksi. Tuloksista nähdään myös, että äidinkielenä puhutun suomen tunnistamista voitiin parantaa käyttämällä vieraana kielenä puhutun englannin dataa. Tämä mekanismi toimi vain yksisuuntaisesti: Vieraana kielenä puhutun englannin tunnistusta ei voinut parantaa äidinkielenä puhutun suomen datan avulla.fi
dc.description.abstractFor good quality speech recognition, the ability of the recognition system to adapt itself to each speaker's voice and speaking style is more than necessary. Most of speech recognition systems are developed for very specific purposes for a linguistically homogenous group. However, as user groups are formed out of people from differing linguistic backgrounds, there is an ever-growing demand for efficient multi-lingual speech technology that takes into account not only varying dialects and accents but also different languages. This thesis investigated how the acoustic models for English and Finnish can be efficiently combined to create a multilingual speech recognition system. Also how these combined systems perform speaker adaptation within languages and across languages using data from one language to improve recognition of the same speaker speaking another language was investigated. Recognition systems were trained based on large Finnish and English corpora, and tested both on monolingual and bilingual material. This study shows that the thresholds for safe merging of the model sets of Finnish and English are so low that the merging can hardly be motivated from the point of view of efficiency. Also it was found out that the recognition of native Finnish can be improved with the use of English speech data from the same speaker. This only works one-way, as the foreign English recognition could not be significantly improved with the help of Finnish speech data.en
dc.format.extent[12] + 124
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/3280
dc.identifier.urnURN:NBN:fi:aalto-201203131511
dc.language.isoenen
dc.locationP1fi
dc.programme.majorAkustiikka ja äänenkäsittelytekniikkafi
dc.programme.mcodeS-89
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.rights.accesslevelopenAccess
dc.subject.keywordautomatic speech recognitionen
dc.subject.keywordmulti-lingual acoustic modellingen
dc.subject.keywordacoustic model adaptationen
dc.subject.keywordcross-lingual speaker adaptationen
dc.subject.keywordpuheentunnistusfi
dc.subject.keywordmonikielinen akustinen mallinnusfi
dc.subject.keywordakustisten mallien adaptaatiofi
dc.subject.keywordkielten yli tapahtuva puhuja-adaptaatiofi
dc.titleAkustisten mallien adaptointi kielten yli puhujariippumattomassa puheentunnistuksessafi
dc.titleCross-lingual acoustic model adaptation for speaker-independent speech recognitionen
dc.typeG2 Pro gradu, diplomityöfi
dc.type.dcmitypetexten
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotDiplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_89739
local.aalto.idinssi40199
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
urn100277.pdf
Size:
3.06 MB
Format:
Adobe Portable Document Format