Learning Centre

SphereDiar - an efficient speaker diarization system for meeting data

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Rouhe, Aku
dc.contributor.author Kaseva, Tuomas
dc.date.accessioned 2019-06-23T15:19:44Z
dc.date.available 2019-06-23T15:19:44Z
dc.date.issued 2019-06-17
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/39063
dc.description.abstract The objective of speaker diarization is to determine who spoke and when in a given audio stream. This information is useful in multiple different speech related tasks such as speech recognition, automatic creation of rich transcriptions and text-to-speech synthesis. Moreover, speaker diarization can also play a central role in the creation and organization of speech-related datasets. Speaker diarization is made difficult by the immense variability in speakers and recording conditions, and the unpredictable and overlapping speaker turns of spontaneous discussion. Especially diarization of meeting data has been very challenging. Even the most advanced speaker diarization systems still struggle with this type of data. In this thesis, a novel speaker diarization system, named SphereDiar and designed for the diarization of meeting data, is proposed. This system combines three novel subsystems: the SphereSpeaker neural network for speaker modeling, a segmentation method named Homogeneity Based Segmentation and a clustering algorithm Top Two Silhouettes. The system harnesses up-to-date deep learning approaches for speaker diarization and addresses the problem of overlapping speech in this task. Experiments are performed on a dataset consisting of over 200 meetings. The experiments have two main outcomes. Firstly, the use of Homogeneity Based Segmentation is not vital for the system. Thus, the configuration of SphereDiar can be simplified by omitting segmentation. Furthermore, SphereDiar is shown to surpass the performance of two different state-of-the-art speaker diarization systems. en
dc.description.abstract Puheen diarisaatiolla tarkoitetaan automaattista prosessia, joka pyrkii selvittämään kuka puhui ja milloin. Tätä prosessia voidaan hyödyntää monissa puheen käsittelyyn liittyvissä sovelluksissa kuten puheentunnistuksessa, puheen syntetisoinnissa sekä esimerkiksi pöytäkirjojen teossa. Näiden sovellusten lisäksi puheen diarisointia voidaan käyttää myös puheeseen liittyvien datakokoelmien automaattiseen rakennukseen ja organisointiin. Puheen diarisointi on kuitenkin usein hankalaa, sillä kaikki puhujat ovat erilaisia, ja äänitysten taso ja olosuhteet voivat poiketa huomattavasti toisistaan. Näiden lisäksi spontaanissa puheessa puheenvuorot voivat vaihtua äkillisesti sekä sisältää päälle puhumista. Näin käy usein varsinkin kokousäänitteissä, jotka ovat vielä tänäkin päivänä erityisen hankalia puheen diarisoinnin kannalta. Tämä diplomityö esittelee uudenlaisen puheen diarisointijärjestelmän, joka on erikoistunut kokousäänitteisiin. Tämä järjestelmä, nimeltään SphereDiar, rakentuu kolmesta osasta: SphereSpeaker-neuroverkosta puhujan mallinnukseen, Homogeneity Based Segmentation-metodista puheen segmentointiin sekä Top Two Silhouettes-algoritmista klusterointiin. SphereDiar hyödyntää uusimpia syväoppimismetodeita, ja on kehitetty huomioimaan varsinkin päälle puhumisen vaikutus puheen diarisaatiossa. Järjestelmän suorituskykyä on arvioitu kokeissa, joissa käytettiin yli 200 kokousäänitettä. Näissä kokeissa saavutettiin kaksi keskeistä tulosta. Näistä ensimmäinen oli se, että Homogeneity Based Segmentation metodin käyttö ei ollut välttämätöntä järjestelmälle. Tästä johtuen SphereDiar voitiin yksinkertaistaa jättämällä segmentointi kokonaan pois. SphereDiaria verrattiin myös kahteen alan parhaimpiin kuuluvaan puheen diarisointijärjestelmään ja sen osoitettiin saavan parempia tuloksia näissä vertailuissa. fi
dc.format.extent 65
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.title SphereDiar - an efficient speaker diarization system for meeting data en
dc.title SphereDiar - tehokas puheen diarisointij ̈arjestelm ̈a kokous ̈a ̈anitteit ̈a varten fi
dc.type G2 Pro gradu, diplomityö fi
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.subject.keyword speaker diarization en
dc.subject.keyword speaker modeling en
dc.subject.keyword segmentation en
dc.subject.keyword clustering en
dc.subject.keyword meeting data en
dc.identifier.urn URN:NBN:fi:aalto-201906234129
dc.programme.major Signal, Speech and Language Processing fi
dc.programme.mcode ELEC3031 fi
dc.type.ontasot Master's thesis en
dc.type.ontasot Diplomityö fi
dc.contributor.supervisor Kurimo, Mikko
dc.programme CCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013) fi
dc.location P1 fi
local.aalto.electroniconly yes
local.aalto.openaccess yes


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse