Speech Recognition for Conversational Finnish

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Department

Mcode

ELEC3031

Language

en

Pages

59+8

Series

Abstract

Spontaneous conversational Finnish is a challenging type of speech to recognise due to frequent dysfluencies in sentence structure and the use of various informal wordforms. This thesis work was an effort to improve the speech recognition accuracy for conversational Finnish. The purpose was to evaluate recent acoustic and language modelling methods on conversational Finnish. The main experiments include devaluating the effect of different speaker embedding approaches and comparing Transformer-XL and recurrent neural language models, using word and subword vocabularies. Combining the best acoustic and language models built during this thesis work improved the word error rate by 4.9 absolute percentages compared to the previous best result.

Puhekielistä suomea on vaikea mallintaa arkikielisten ilmaisujen sekä katkonaistenlauseiden takia. Tämän diplomityön tarkoitus oli parantaa puheentunnistusjärjestelmien tarkkuutta puhekieliselle suomelle. Tavoitteena oli arvioida viimeaikaisten kielen- ja akustiikanmallintamismenetelmien hyödyllisyyttä puhekielisen suomen tunnistamisessa. Työn tärkeimpiä kokeita ovat puhujan suhteen mukautettujen akustiikkapiirteiden vertailu (i-vektorit ja x-vektorit) sekä Transformer-kielimallien ja takaisinkytkettyjen hermoverkkokielimallien vertailu. Yhteensä kieli- ja akustiikka-mallikokeet pienensivät puheentunnistusjärjestelmän sanavirheastetta 4.9 prosenttiyksikköä verrattuna aiempiin tuloksiin.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Grosz, Tamas
Singh, Mittul

Other note

Citation