Comparison of discriminative and generative ASR models for pronunciation scoring

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Master's thesis

Date

2020-05-18

Department

Major/Subject

Signal, Speech and Language Processing

Mcode

ELEC3031

Degree programme

CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)

Language

en

Pages

56 + 3

Series

Abstract

This thesis explores the difference between generative and discriminative hybrid speech recognition models, and compares how they perform when applied to pronunciation evaluation, specifically Goodness of Pronunciation scoring. It expands on the work of Hu et al. (2013). The effects of error modeling are also investigated. For the purpose of comparison, multiple GMM and DNN models with different features are trained for speech-to-text. These models are then evaluated by classifying annotated speech samples as either correctly or incorrectly pronounced, using the Goodness of Pronunciation scores as features. Statistical methods were used to compare classifier performance. Despite outperforming GMM-HMMs in speech-to-text, DNN-HMM systems could not be shown to perform significantly better on the GOP task. Applying error modeling resulted in significant performance improvement for some of the models.

Detta diplomarbete undersöker skillnader mellan generativa och diskriminativa hybridmodeller för taligenkänning, och jämför hur väl de tillämpas för evaluering av uttal genom GOP-poängsättning. Jämförelsen omfattar även en skild poängsättningsmetod som tar i beaktande ett förväntat feluttal. Ett antal GMM- och DNN-modeller tränades och användes för att generera GOP-poäng för taldata. Dessa poäng användes för klassificering av sampel i två klasser: rätt uttalade och fel uttalade. Statistiska metoder utnyttjades för att jämföra evalueringsnoggrannheter mellan modeller. Trots att DNN-baserade modeller visade bättre resultat för taligenkänning, kunde signifikanta skillnader inte visas mellan GMM- och DNN-baserade modeller för GOP-poängsättning. Poängsättningsmetoden som tog i beaktande förväntade feluttal resulterade i signifikanta förbättringar i evalueringsnoggrannhet.

Description

Supervisor

Kurimo, Mikko

Thesis advisor

Rouhe, Aku

Keywords

goodness, pronunciation, speech, recognition, discriminative, generative

Other note

Citation