aalto1 untyped-item.component.html

Speaker diarization for audio recordings of meetings

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Major/Subject

Mcode

SCI3027

Language

en

Pages

36

Series

Abstract

Analysing and collecting data from meetings is important as an increasing amount of working time is spent in them. This collected information could be used to improve the productivity of meetings by, for example, offering the individuals and teams personalized feedback. However, in order to analyse meetings effectively, it is vital to first know who spoke in them and when. This process of dividing an audio recording based on its speakers is called speaker diarization, and it can be implemented using many techniques. This thesis investigates how well current state-of-the-art speaker diarization can be adapted for meeting room conversations and what challenges are present in the scenario. The aim of this thesis is to evaluate different diarization techniques and available systems by comparing them against a set of requirements based on the meeting domain. The requirements include, for example, overlapping speech handling, system robustness and the ability to provide diarization results in real-time. The applications evaluated were chosen due to their popularity and can be categorised as open-source libraries and commercial services. Deep learning techniques, such as methods based on neural networks, have made diarization systems more accurate and robust. Key techniques identified during the thesis were methods improving the separate steps of the diarization process, methods where one neural network performs multiple steps, and a combination of these two approaches. The available open-source solutions for speaker diarization offered easier customizability, and the best option was Nvidia’s NeMo, which could be used to build a complex meeting analysis system. The commercial options were more focused on transcription, and out of them, Microsoft’s Speech-to-Text was the most adaptable for meetings. Due to deep learning, diarization systems are now better suited for meeting room conversations and the challenges associated with it.

Liike-elämässä toteutettujen kokousten äänitteitä voidaan tutkia ja niistä kerätä tietoa. Tämä on hyödyllistä, sillä se mahdollistaa esimerkiksi paulautteen antamisen osallistujille, jotta he voivat parantaa omaa toimintaansa. Kuitenkin jotta kokousten analysointi on mahdollista, täytyy ensin tietää kuka puhui äänitteellä ja milloin. Tätä prosessia kutsutaan puheen diarisaatioksi, ja se voidaan toteuttaa monilla eri menetelmillä. Tämä kandidaatintyö käsittelee puheen diarisoinnin soveltamista kokousten äänitteisiin ja siihen liittyviä nykyisiä rajoitteita. Tämä kandidaatintutkielma vertailee erilaisia yleisesti käytettyjä puheen diarisaatiotekniikoita sekä saatavilla olevia ohjelmistoja. Tavoitteena on tarjota kattava kuvaus siitä, miten eri ohjelmistot sopivat kokousten diarisointiin ja mitä syväoppimisen menetelmiä on saatavilla. Työ on toteutettu kirjallisuustutkimuksena ja vertailussa on käytetty käyttötarkoitukseen soveltuvuutta kuvaavia kriteerejä. Ohjelmistot on valittu yleisen käytön perusteella ja ne voidaan jakaa avoimen lähdekoodin kirjastoihin sekä maksullisiin palveluihin. Monet syväoppimiseen, kuten neuroverkkoihin, pohjautuvat menetelmät ovat tehneet diarisaatiosysteemeistä merkittävästi tarkempia kuin aiemmin. Ne selviävät päällekkäisestä puheesta paremmin, toimivat ympäristöllisistä tekijöistä huolimatta ja tarjoavat diarisaatiotuloksia reaaliaikaisesti. Tässä työssä havaittiin merkittäviksi tekniikoiksi diarisaatioprosessin vaiheita parantelevat menetelmät, yhden neuroverkon menetelmät sekä näiden yhdistelmä. Valitut avoimen lähdekoodin ohjelmistot tarjosivat joustavuutta tapaamisten analysoinnille ja niistä paras vaihtoehto oli Nvidian NeMo. Maksulliset palvelut olivat enemmän keskittyneitä diarisoidun tekstin tuottamiseen ja niistä Microsoftin tarjoama Speech-to-Text oli kokousten diarisointiin parhaiten soveltuva. Puheen diarisointiohjelmistot ja -tekniikat ovat kehittyneet ja niitä voidaan soveltaa kokousäänitteisiin.

Description

Supervisor

Savioja, Lauri

Thesis advisor

Gustafsson, Robin

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By