Phonation type classification from sustained vowels in singing with voc2vec pre-trained features

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

35

Series

Abstract

The singing voice is an important part of human expression with vast cultural and economical impacts. The study of the human voice helps professionals in the music industry to improve their skills and understanding. It also helps develop technological tools for the music industry. Phonation is a fundamental part of the singing voice, encompassing a central property of the singing voice: phonation type. Phonation type classification has been conducted using spectral features such as mel-frequency cepstral coefficients (MFCCs), modulation power spectrum (MPS), or wavelet scattering network (WSN) features. The rise of large, pre-trained foundation models can offer a solution, as the problem is relatively low-resource. This thesis studies the feasibility of using the voc2vec pre-trained model as a feature extractor for the task of phonation type classification in singing. A single-hidden-layer feed forward neural network (SLFN) is used as a classifier head. Voc2vec is pre-trained on non-verbal datasets with various types of vocalizations, including affective and spontaneous vocalizations, such as laughter and sneezes, as well as different singing techniques. This makes it a possible candidate for classifying different types of phonation.

Laulu on tärkeä osa kulttuuria, ja sillä on suuri yhteiskunnallinen ja taloudellinen vaikutus. Lauluäänen tutkimus auttaa musiikin ammattilaisia parantamaan kykyjään sekä ymmärrystään. Se auttaa myös kehittämään teknologisia apuvälineitä musiikkialan käyttöön. Fonaatio on perustavanlaatuinen osa lauluääntä, ja se sisältää yhden lauluäänen keskeisimmistä ominaisuuksista, fonaatiotyypin. Automaattinen fonaatiotyypin määritys on tehtävä, jossa on käytetty spektraalisia piirteitä, kuten Mel-taajuuskepstrikertoimia (engl. Mel-frequency cepstral coefficients, MFCCs), modulaatiotehospektriä (engl. modulation power spectrum, MPS) ja aallokesirontaverkkoa (engl. wavelet scattering network, WSN). Suuret esikoulutetut mallit voivat tarjota ratkaisun, sillä fonaatiotyyppeihin liittyvää opetusdataa ei ole paljon saatavilla. Tämä opinnäytetyö tutkii esikoulutetun voc2vec-transformerimallin käyttöä piirre-erottimena fonaatiotyypin määritykseen. Luokittimena käytetään yhden kätketyn kerroksen neuroverkkoa. Voc2vec on esikoulutettu käyttäen non-verbaalisia data-aineistoja, jotka sisältävät spontaaneja äännähdyksiä, kuten naurua, aivastuksia sekä erilaisia laulutekniikoita. Moninaiset äännähdystyypit tekevät voc2vec-mallista lupaavan ehdokkaan piirre-erottimena fonaatiotyypin määrityksessä.

Description

Supervisor

Alku, Paavo

Thesis advisor

Alku, Paavo

Other note

Citation