Spontaneous conversational Finnish is a challenging type of speech to recognise due to frequent dysfluencies in sentence structure and the use of various informal wordforms. This thesis work was an effort to improve the speech recognition accuracy for conversational Finnish. The purpose was to evaluate recent acoustic and language modelling methods on conversational Finnish. The main experiments include devaluating the effect of different speaker embedding approaches and comparing Transformer-XL and recurrent neural language models, using word and subword vocabularies. Combining the best acoustic and language models built during this thesis work improved the word error rate by 4.9 absolute percentages compared to the previous best result.
Puhekielistä suomea on vaikea mallintaa arkikielisten ilmaisujen sekä katkonaistenlauseiden takia. Tämän diplomityön tarkoitus oli parantaa puheentunnistusjärjestelmien tarkkuutta puhekieliselle suomelle. Tavoitteena oli arvioida viimeaikaisten kielen- ja akustiikanmallintamismenetelmien hyödyllisyyttä puhekielisen suomen tunnistamisessa. Työn tärkeimpiä kokeita ovat puhujan suhteen mukautettujen akustiikkapiirteiden vertailu (i-vektorit ja x-vektorit) sekä Transformer-kielimallien ja takaisinkytkettyjen hermoverkkokielimallien vertailu. Yhteensä kieli- ja akustiikka-mallikokeet pienensivät puheentunnistusjärjestelmän sanavirheastetta 4.9 prosenttiyksikköä verrattuna aiempiin tuloksiin.