Speaker recognition for Voice User Interface
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2020-06-15
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
AEE - Master’s Programme in Automation and Electrical Engineering (TS2013)
Language
en
Pages
39+6
Series
Abstract
Speech processing has been a major interest for academic, commercial and military communities for centuries. It allows more natural human-machine interaction than mouse-keyboard systems and may even replace them in many applications in the future. Speaker recognition, one of many applications of speech processing, is in growing demand. Speaker recognition can be used to identify speaker based on model, or validate that speaker is the person claimed to be. It allows various applications tailored for individual users in for example in education and banking. The goal of this thesis is to evaluate two different speaker recognition systems for Voice User Interface (VUI). For time and resource constrains, no VUI is developed during thesis, but focus is on speaker recognition when noise has corrupted speech samples. The speech samples are first evaluated with Voice Activity Detection (VAD) algorithm, after which noise is added and Mel Frequency Cepstral Coefficients (MFCC) are calculated and normalized. Systems evaluated in the thesis, have been developed during previous studies and MFCC coefficients are present as inputs for these systems. The first system is Gaussian Mixture Model - Universal Background Model (GMM-UBM) developed by Microsoft Research team, which is based on Gaussian mixtures trained into speaker independent model. The second algorithm is based on X-vectors build from neural networks and developed by Chau Luu. The data-set used for training was Voxceleb2 collected from Youtube and evaluation was test-sets from Voxceleb1 and Voxceleb2 as well as kid voice samples collected by speech recognition research team from Aalto University. The results shows that training GMM-UBM was successful and handling resource management can be done with little training. However, the x-vector model training was not as successful as GMM-UBM model training and it does require more knowledge from neural networks and computer processing.Puheen prosessointi on ollut merkittävä tutkimusalue jo useiden vuosikymmenien ajan ja se kiinnostaa niin tutkijoita kuin yrityksiä. Muun muassa se mahdollistaa luonnollisemman käyttöliittymän kuin mitä hiiri ja näppäimistö tarjoavat. Puheella toimivat käyttöjärjestelmät saattavat hyvinkin korvata etenevässä määrin perinteisiä käyttöliittymiä. Puhujantunnistus on yksi automaattisen puheen käsittelyn osa-alue ja tämä tutkielma keskittyy siihen. Puhujantunnistus voidaan toteuttaa rakentamalla puhenäytteestä malli, joka yksilöi puhujan. Puhujantunnistus mahdollistaa muun muassa yksilöidyn palvelun vaikkapa pankkialalla tai opetuksessa. Tämän tutkielman tavoitteena on verrata kahta eri algoritmia puheella toimivan käyttöjärjestelmän tueksi. Itse käyttöjärjestelmää ei kehitetty ajan ja resurssien puutteen vuoksi. Tutkimuskysymyksenä on, miten taustamelu vaikuttaa puhujantunnistuksen onnistumiseen. Ääninäytteistä poistetaan hiljaiset hetket Voice Activity Detection- algoritmin avulla. Tämän jälkeen melu lisätään näytteisiin, ja Mel Frequency Cepstral Coefficient -kertoimet lasketaan ja keskiarvoistetaan. Nämä kertoimet syötetään tutkittaviin järjestelmiin, jotka on kehitetty aikaisemmissa tutkimuksissa. Ensimmäinen tutkittava järjestelmä on Gaussian Mixture Model - Universal Background Model (GMM-UBM), jonka on kehittänyt Microsoftin puheentunnistukseen keskittynyt tutkimusryhmä. Toinen järjestelmä perustuu neuroverkoilla laskettuihin X-vektoreihin, jonka on kehittänyt Chau Luu. Algoritmien opetukseen käytettiin Voxceleb2:n development-datajoukkoa, joka on kerätty Youtubesta. Algoritmit testattiin Voxceleb1:n ja Voxceleb2:n testijoukkojen avulla, sekä lapsidatalla, joka on kerätty Aalto Yliopiston puheenkäsittelyn tutkimusryhmä. Tuloksista huomaa, että GMM-UBM järjestelmä tunnistaa puhujat paremmin kuin x-vektoreihin perustuva algoritmi. X-vektoreihin perustuva algoritmi mahdollisesti vaatisi enemmän neuroverkkojen hallintaa.Description
Supervisor
Kurimo, MikkoThesis advisor
Leinonen, JuhoKeywords
ASR, speech recognition, GMM-UBM, X-vectors, neural networks