Comparison of discriminative and generative ASR models for pronunciation scoring
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2020-05-18
Department
Major/Subject
Signal, Speech and Language Processing
Mcode
ELEC3031
Degree programme
CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)
Language
en
Pages
56 + 3
Series
Abstract
This thesis explores the difference between generative and discriminative hybrid speech recognition models, and compares how they perform when applied to pronunciation evaluation, specifically Goodness of Pronunciation scoring. It expands on the work of Hu et al. (2013). The effects of error modeling are also investigated. For the purpose of comparison, multiple GMM and DNN models with different features are trained for speech-to-text. These models are then evaluated by classifying annotated speech samples as either correctly or incorrectly pronounced, using the Goodness of Pronunciation scores as features. Statistical methods were used to compare classifier performance. Despite outperforming GMM-HMMs in speech-to-text, DNN-HMM systems could not be shown to perform significantly better on the GOP task. Applying error modeling resulted in significant performance improvement for some of the models.Detta diplomarbete undersöker skillnader mellan generativa och diskriminativa hybridmodeller för taligenkänning, och jämför hur väl de tillämpas för evaluering av uttal genom GOP-poängsättning. Jämförelsen omfattar även en skild poängsättningsmetod som tar i beaktande ett förväntat feluttal. Ett antal GMM- och DNN-modeller tränades och användes för att generera GOP-poäng för taldata. Dessa poäng användes för klassificering av sampel i två klasser: rätt uttalade och fel uttalade. Statistiska metoder utnyttjades för att jämföra evalueringsnoggrannheter mellan modeller. Trots att DNN-baserade modeller visade bättre resultat för taligenkänning, kunde signifikanta skillnader inte visas mellan GMM- och DNN-baserade modeller för GOP-poängsättning. Poängsättningsmetoden som tog i beaktande förväntade feluttal resulterade i signifikanta förbättringar i evalueringsnoggrannhet.Description
Supervisor
Kurimo, MikkoThesis advisor
Rouhe, AkuKeywords
goodness, pronunciation, speech, recognition, discriminative, generative