Explainability analysis of speaker model embeddings

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorRech, Silas
dc.contributor.advisorVali, Mohammad
dc.contributor.authorLoikkanen, Terho
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorBäckström, Tom
dc.date.accessioned2024-05-26T17:11:30Z
dc.date.available2024-05-26T17:11:30Z
dc.date.issued2024-05-20
dc.description.abstractSpeaker recognition and verification technologies rely on speaker embeddings, which are low-dimensional representations extracted from the speaker's voice. These embeddings come from the latent space, which makes them hard to interpret. This thesis explores the latent space of these deep neural speaker embeddings to find interpretable structure corresponding to speaker-related features using the space-filling vector quantizer (SFVQ). SFVQ is a vector quantizer similar to a K-Means algorithm, but differs from it by iteratively constructing the clusters as corner points of Hilbert's space-filling curve. This ensures a more structured latent space. Previously SFVQ has been successfully used to structure the latent space of phonetic content. By visualizing the structure of the latent space for embeddings of TIMIT and VoxCeleb1 datasets, we managed to get clear separation for genders and the codebooks were roughly ordered by age, and to a lesser extent, nationality. We also developed a listening tool for subjective analysis of what the codebooks vectors represent. The SFVQ shows potential in latent space analysis in other fields of science as well.en
dc.description.abstractTämä diplomityö tutkii syväoppimismallin tuottamien puhujarepresentaatioiden piilevää rakennetta tilaa täyttävän vector quantizerin (space-filling vector quantizer; SFVQ) avulla. Nämä puhujakohtaiset "Speaker Embeddingit" ovat tärkeitä puhujantunnistus- ja varmistusjärjestelmissä, sillä ne sisältävät puhujan äänen tärkeimmät ominaisuudet matalaulotteisena vektorina. Tällaiset vektorit ovat peräisin neuroverkon piilevästä avaruudesta, jonka rakennetta ja sisältöä on vaikea tulkita. Vector quantizer, esimerkiksi K-Means, on klusterointialgoritmi jolla samankaltaisia datapisteitä voi ryhmitellä. SFVQ tekee saman, mutta lisäksi klusterit ovat iteratiivisesti rakennetun tilaa täyttävän käyrän pisteitä. Tämä varmistaa sen, että käyrällä vierekkäin olevat klusterit sisältävät samankaltaisia datapisteitä. SFVQ:ta on aiemmin käytetty onnistuneesti foneemien analysointiin. Visualisoimme tämän piilevän avaruuden rakennetta TIMIT- ja VoxCeleb1-dataseteillä ja huomasimme, että sukupuoli ja ikä ovat selkeästi järjestyksessä SFVQ:n oppimissa koodikirjavektoreissa. Kehitimme lisäksi kuuntelutyökalun, jolla koodikirjaindeksien sisältämien puhujien ominaisuuksia voi analysoida subjektiivisesti. SFVQ osoittaa työkaluna potentiaalia neuroverkkojen tuottamien piilevien avaruuksien tutkimisessa myös muilla tieteenaloilla.fi
dc.format.extent61 + 1
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/128118
dc.identifier.urnURN:NBN:fi:aalto-202405263720
dc.language.isoenen
dc.programmeMaster’s Programme in Computer, Communication and Information Sciencesfi
dc.programme.majorMachine Learning, Data Science and Artificial Intelligencefi
dc.programme.mcodeSCI3044fi
dc.subject.keyworddeep learningen
dc.subject.keywordlatent spaceen
dc.subject.keywordspeaker embeddingsen
dc.subject.keywordexplainabilityen
dc.subject.keywordspace-filling vector quantizeren
dc.titleExplainability analysis of speaker model embeddingsen
dc.titleSyväoppimismallien puhujarepresentaatioiden selitettävyysanalyysifi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Loikkanen_Terho_2024.pdf
Size:
7.06 MB
Format:
Adobe Portable Document Format