The objective of speaker diarization is to determine who spoke and when in a given audio stream. This information is useful in multiple different speech related tasks such as speech recognition, automatic creation of rich transcriptions and text-to-speech synthesis. Moreover, speaker diarization can also play a central role in the creation and organization of speech-related datasets.
Speaker diarization is made difficult by the immense variability in speakers and recording conditions, and the unpredictable and overlapping speaker turns of spontaneous discussion. Especially diarization of meeting data has been very challenging. Even the most advanced speaker diarization systems still struggle with this type of data.
In this thesis, a novel speaker diarization system, named SphereDiar and designed for the diarization of meeting data, is proposed. This system combines three novel subsystems: the SphereSpeaker neural network for speaker modeling, a segmentation method named Homogeneity Based Segmentation and a clustering algorithm Top Two Silhouettes. The system harnesses up-to-date deep learning approaches for speaker diarization and addresses the problem of overlapping speech in this task.
Experiments are performed on a dataset consisting of over 200 meetings. The experiments have two main outcomes. Firstly, the use of Homogeneity Based Segmentation is not vital for the system. Thus, the configuration of SphereDiar can be simplified by omitting segmentation. Furthermore, SphereDiar is shown to surpass the performance of two different state-of-the-art speaker diarization systems.
Puheen diarisaatiolla tarkoitetaan automaattista prosessia, joka pyrkii selvittämään kuka puhui ja milloin. Tätä prosessia voidaan hyödyntää monissa puheen käsittelyyn liittyvissä sovelluksissa kuten puheentunnistuksessa, puheen syntetisoinnissa sekä esimerkiksi pöytäkirjojen teossa. Näiden sovellusten lisäksi puheen diarisointia voidaan käyttää myös puheeseen liittyvien datakokoelmien automaattiseen rakennukseen ja organisointiin.
Puheen diarisointi on kuitenkin usein hankalaa, sillä kaikki puhujat ovat erilaisia, ja äänitysten taso ja olosuhteet voivat poiketa huomattavasti toisistaan. Näiden lisäksi spontaanissa puheessa puheenvuorot voivat vaihtua äkillisesti sekä sisältää päälle puhumista. Näin käy usein varsinkin kokousäänitteissä, jotka ovat vielä tänäkin päivänä erityisen hankalia puheen diarisoinnin kannalta.
Tämä diplomityö esittelee uudenlaisen puheen diarisointijärjestelmän, joka on erikoistunut kokousäänitteisiin. Tämä järjestelmä, nimeltään SphereDiar, rakentuu kolmesta osasta: SphereSpeaker-neuroverkosta puhujan mallinnukseen, Homogeneity Based Segmentation-metodista puheen segmentointiin sekä Top Two Silhouettes-algoritmista klusterointiin. SphereDiar hyödyntää uusimpia syväoppimismetodeita, ja on kehitetty huomioimaan varsinkin päälle puhumisen vaikutus puheen diarisaatiossa.
Järjestelmän suorituskykyä on arvioitu kokeissa, joissa käytettiin yli 200 kokousäänitettä. Näissä kokeissa saavutettiin kaksi keskeistä tulosta. Näistä ensimmäinen oli se, että Homogeneity Based Segmentation metodin käyttö ei ollut välttämätöntä järjestelmälle. Tästä johtuen SphereDiar voitiin yksinkertaistaa jättämällä segmentointi kokonaan pois. SphereDiaria verrattiin myös kahteen alan parhaimpiin kuuluvaan puheen diarisointijärjestelmään ja sen osoitettiin saavan parempia tuloksia näissä vertailuissa.