Explainability analysis of speaker model embeddings

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2024-05-20
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
61 + 1
Series
Abstract
Speaker recognition and verification technologies rely on speaker embeddings, which are low-dimensional representations extracted from the speaker's voice. These embeddings come from the latent space, which makes them hard to interpret. This thesis explores the latent space of these deep neural speaker embeddings to find interpretable structure corresponding to speaker-related features using the space-filling vector quantizer (SFVQ). SFVQ is a vector quantizer similar to a K-Means algorithm, but differs from it by iteratively constructing the clusters as corner points of Hilbert's space-filling curve. This ensures a more structured latent space. Previously SFVQ has been successfully used to structure the latent space of phonetic content. By visualizing the structure of the latent space for embeddings of TIMIT and VoxCeleb1 datasets, we managed to get clear separation for genders and the codebooks were roughly ordered by age, and to a lesser extent, nationality. We also developed a listening tool for subjective analysis of what the codebooks vectors represent. The SFVQ shows potential in latent space analysis in other fields of science as well.

Tämä diplomityö tutkii syväoppimismallin tuottamien puhujarepresentaatioiden piilevää rakennetta tilaa täyttävän vector quantizerin (space-filling vector quantizer; SFVQ) avulla. Nämä puhujakohtaiset "Speaker Embeddingit" ovat tärkeitä puhujantunnistus- ja varmistusjärjestelmissä, sillä ne sisältävät puhujan äänen tärkeimmät ominaisuudet matalaulotteisena vektorina. Tällaiset vektorit ovat peräisin neuroverkon piilevästä avaruudesta, jonka rakennetta ja sisältöä on vaikea tulkita. Vector quantizer, esimerkiksi K-Means, on klusterointialgoritmi jolla samankaltaisia datapisteitä voi ryhmitellä. SFVQ tekee saman, mutta lisäksi klusterit ovat iteratiivisesti rakennetun tilaa täyttävän käyrän pisteitä. Tämä varmistaa sen, että käyrällä vierekkäin olevat klusterit sisältävät samankaltaisia datapisteitä. SFVQ:ta on aiemmin käytetty onnistuneesti foneemien analysointiin. Visualisoimme tämän piilevän avaruuden rakennetta TIMIT- ja VoxCeleb1-dataseteillä ja huomasimme, että sukupuoli ja ikä ovat selkeästi järjestyksessä SFVQ:n oppimissa koodikirjavektoreissa. Kehitimme lisäksi kuuntelutyökalun, jolla koodikirjaindeksien sisältämien puhujien ominaisuuksia voi analysoida subjektiivisesti. SFVQ osoittaa työkaluna potentiaalia neuroverkkojen tuottamien piilevien avaruuksien tutkimisessa myös muilla tieteenaloilla.
Description
Supervisor
Bäckström, Tom
Thesis advisor
Rech, Silas
Vali, Mohammad
Keywords
deep learning, latent space, speaker embeddings, explainability, space-filling vector quantizer
Other note
Citation