Explainability analysis of speaker model embeddings
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Rech, Silas | |
dc.contributor.advisor | Vali, Mohammad | |
dc.contributor.author | Loikkanen, Terho | |
dc.contributor.school | Perustieteiden korkeakoulu | fi |
dc.contributor.supervisor | Bäckström, Tom | |
dc.date.accessioned | 2024-05-26T17:11:30Z | |
dc.date.available | 2024-05-26T17:11:30Z | |
dc.date.issued | 2024-05-20 | |
dc.description.abstract | Speaker recognition and verification technologies rely on speaker embeddings, which are low-dimensional representations extracted from the speaker's voice. These embeddings come from the latent space, which makes them hard to interpret. This thesis explores the latent space of these deep neural speaker embeddings to find interpretable structure corresponding to speaker-related features using the space-filling vector quantizer (SFVQ). SFVQ is a vector quantizer similar to a K-Means algorithm, but differs from it by iteratively constructing the clusters as corner points of Hilbert's space-filling curve. This ensures a more structured latent space. Previously SFVQ has been successfully used to structure the latent space of phonetic content. By visualizing the structure of the latent space for embeddings of TIMIT and VoxCeleb1 datasets, we managed to get clear separation for genders and the codebooks were roughly ordered by age, and to a lesser extent, nationality. We also developed a listening tool for subjective analysis of what the codebooks vectors represent. The SFVQ shows potential in latent space analysis in other fields of science as well. | en |
dc.description.abstract | Tämä diplomityö tutkii syväoppimismallin tuottamien puhujarepresentaatioiden piilevää rakennetta tilaa täyttävän vector quantizerin (space-filling vector quantizer; SFVQ) avulla. Nämä puhujakohtaiset "Speaker Embeddingit" ovat tärkeitä puhujantunnistus- ja varmistusjärjestelmissä, sillä ne sisältävät puhujan äänen tärkeimmät ominaisuudet matalaulotteisena vektorina. Tällaiset vektorit ovat peräisin neuroverkon piilevästä avaruudesta, jonka rakennetta ja sisältöä on vaikea tulkita. Vector quantizer, esimerkiksi K-Means, on klusterointialgoritmi jolla samankaltaisia datapisteitä voi ryhmitellä. SFVQ tekee saman, mutta lisäksi klusterit ovat iteratiivisesti rakennetun tilaa täyttävän käyrän pisteitä. Tämä varmistaa sen, että käyrällä vierekkäin olevat klusterit sisältävät samankaltaisia datapisteitä. SFVQ:ta on aiemmin käytetty onnistuneesti foneemien analysointiin. Visualisoimme tämän piilevän avaruuden rakennetta TIMIT- ja VoxCeleb1-dataseteillä ja huomasimme, että sukupuoli ja ikä ovat selkeästi järjestyksessä SFVQ:n oppimissa koodikirjavektoreissa. Kehitimme lisäksi kuuntelutyökalun, jolla koodikirjaindeksien sisältämien puhujien ominaisuuksia voi analysoida subjektiivisesti. SFVQ osoittaa työkaluna potentiaalia neuroverkkojen tuottamien piilevien avaruuksien tutkimisessa myös muilla tieteenaloilla. | fi |
dc.format.extent | 61 + 1 | |
dc.format.mimetype | application/pdf | en |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/128118 | |
dc.identifier.urn | URN:NBN:fi:aalto-202405263720 | |
dc.language.iso | en | en |
dc.programme | Master’s Programme in Computer, Communication and Information Sciences | fi |
dc.programme.major | Machine Learning, Data Science and Artificial Intelligence | fi |
dc.programme.mcode | SCI3044 | fi |
dc.subject.keyword | deep learning | en |
dc.subject.keyword | latent space | en |
dc.subject.keyword | speaker embeddings | en |
dc.subject.keyword | explainability | en |
dc.subject.keyword | space-filling vector quantizer | en |
dc.title | Explainability analysis of speaker model embeddings | en |
dc.title | Syväoppimismallien puhujarepresentaatioiden selitettävyysanalyysi | fi |
dc.type | G2 Pro gradu, diplomityö | fi |
dc.type.ontasot | Master's thesis | en |
dc.type.ontasot | Diplomityö | fi |
local.aalto.electroniconly | yes | |
local.aalto.openaccess | yes |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- master_Loikkanen_Terho_2024.pdf
- Size:
- 7.06 MB
- Format:
- Adobe Portable Document Format