Tämä diplomityö käsittelee automaattiseen puheentunnistukseen liittyvää adaptaatiota.
Adaptaatio tarkoittaa olemassa olevan puheentunnistusjärjestelmän sopeuttamista uusiin olosuhteisiin, kuten uuden käyttäjän ääneen tai uudessa käyttöympäristössä esiintyvään taustakohinaan.
Työssä käsitelty suomenkielinen puheentunnistusjärjestelmä perustuu kätkettyihin Markov-malleihin.
Järjestelmän sopeuttamista uuteen puhujaan on tutkittu suorittamalla adaptaatiokokeita käyttäen kolmea testiääntä.
Adaptaatio on tapahtunut ohjatusti sekä MLLR-adaptaatiomenetelmää että bayesilaista (MAP-)menetelmää hyväksi käyttäen.
Suomenkielen äänteiden pituuserojen merkitys on otettu huomioon puheentunnistusjärjestelmässämme.
Uusi adaptaatiomuoto, pituusadaptaatio, on kehitetty ja testattu.
Pituusadaptaatio on tarpeellinen, jotta järjestelmää voidaan sopeuttaa uuteen puhenopeuteen.
Adaptaatiossa käytetyn puheaineiston valintaa on myös tutkittu.
Tavoitteena on ollut löytää aineiston optimaalinen foneettinen profiili.
Foneettisella profiililla tarkoitetaan eri äänteiden esiintymien suhteellista osuutta kaikista aineistossa olevista äänteistä.
Uusi dynaaminen menetelmä adaptaatioaineiston foneettisen profiilin valitsemiseksi on kehitetty ja testattu.
Dynaamisen menetelmän tavoitteena on uuden puhujan äänen erityispiirteiden huomioonottaminen.
Tämä tapahtuu siten, että adaptaatioaineisto sisältää suhteessa enemmän äänteitä, joita järjestelmän on vaikea tunnistaa, kuin jo varsin hyvän tunnistustarkkuuden saavuttaneita äänteitä.
Tehdyt kokeet osoittavat, että adaptaatioaineiston kokoonpano vaikuttaa selvästi adaptoidun puheentunnistusjärjestelmän tunnistustarkkuuteen.
Kuitenkin jää epäselväksi missä määrin adaptaatioaineiston profiilin dynaaminen valinta toimii paremmin kuin etukäteen suoritettu valinta, missä aineisto sisältää äänteitä suhteessa niiden esiintymistiheyteen kielessä.
Kokeiden perusteella pituusadaptaation vaikutus ei näytä merkittävältä.