Classification of Vocal Intensity Category from Multi-sensor Recordings of Speech

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2023-06-12
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
57 + 2
Series
Abstract
Vocal intensity is a crucial characteristic of speech. The intensity is regulated in the expression of emotions and with the purpose to propagate speech over longer distances. The regulation process is complex and affects many spectral and temporal speech characteristics. The inclusion of vocal intensity information enhances the performance of para-linguistic data sets; however, most speech data sets lack this information. In this study, a large speech data set of 50 speakers was created each speaker repeating 25 sentences with five intensity categories: whisper, soft, normal, loud, and very loud. The calibration information was included. The recordings involved seven sensors where both air-conducting (AC) and bone-conducting (BC) sensors were used. The calibration data enabled an accurate computation of sound pressure level (SPL). SPL value can be used to quantify the vocal intensity of the speaker. Two different labeling methods were developed. Subjective labels of the intensity categories follow the individual interpretation of the speaker while objective labels are based on the computed SPL values. The intensity information of the speech samples was deliberately removed before conducting the experiments. This was achieved by normalizing each spoken sentence sample, simulating a scenario where speech is represented in an arbitrary amplitude scale. This study explores four classifiers: 1D-CNN, SVM, MLP, and 2D-CNN. The SVM model appeared to outperform other models when utilizing subjective labels, whereas objective labels yielded better results with MLP and 2D-CNN models. The microphone positioned outside the headset (MC2) and the voice pickup sensor for bone conduction (VPU) produced the best results. Interestingly, the classifiers were able to predict intensity categories solely using BC speech data. Furthermore, the performance of the models was enhanced with the use of objective labels, as evidenced by an accuracy difference of 12% between the best models using subjective and objective labels. Moreover, multi-sensor models yielded better results than single-sensor models. The combination of MC2 and VPU sensors, along with the MLP model, yielded the best performance, achieving an accuracy of 80%.

Äänenvoimakkuus on puheen tärkeä ominaisuus. Voimakkuutta säädetään tunteiden ilmaisemisessa ja puheen välittämisessä pidemmille etäisyyksille. Säätelyprosessi on monimutkainen ja se vaikuttaa moniin spektraalisiin ja hetkellisiin puheen ominaisuuksiin. Äänenvoimakkuustiedon sisällyttäminen paralingvistisiin puheaineistoihin parantaa niiden suorituskykyä, mutta useimmat aineistot eivät sisällä tätä tietoa. Tässä tutkimuksessa luotiin suuri puheaineisto koostuen 50 puhujasta, joista jokainen toisti 25 lausetta viidellä puheen voimakkuuskategorialla: kuiskaus, hiljainen, normaali, kova ja erittäin kova. Puheen kalibrointitiedot sisällytettiin. Tallennukset sisälsivät seitsemän anturia, joissa käytettiin sekä ilmanjohtuvia (AC) että luujohtuvia (BC) antureita. Kalibrointitiedot mahdollistivat äänenpaineen tason (SPL) tarkan laskennan. SPL-arvoa voidaan käyttää puhujan äänenvoimakkuuden mittaamiseen. Kaksi erilaista luokitustapaa kehitettiin. Intensiteettikategorioiden subjektiiviset luokitukset noudattavat puhujan yksilöllistä tulkintaa, kun taas objektiiviset luokitukset perustuvat laskettuihin SPL-arvoihin. Puheen intensiteettitiedot poistettiin tarkoituksella ennen kokeita. Tämä saavutettiin normalisoimalla jokainen ääninäyte simuloiden tilannetta, jossa puhe esitetään mielivaltaisessa amplitudiskaalassa. Tässä tutkimuksessa tutkittiin neljää koneoppimismallia: 1D-CNN, SVM, MLP ja 2D-CNN. SVM-malli osoittautui tehokkaammaksi kuin muut mallit käytettäessä subjektiivista luokitusta, kun taas objektiiviset luokitukset tuottivat parempia tuloksia MLP- ja 2D-CNN-malleilla. MC2- ja VPU-anturit tuottivat parhaat tulokset. Koneoppimismallit osoittivat kykynsä ennustaa intensiteettikategorioita pelkästään luujohtuvasta puheesta. Lisäksi mallien suorituskyky parani, kun käytettiin objektiivista luokitusta, mikä näkyi 12 %:n tarkkuuserona parhaiden mallien välillä, jotka käyttivät subjektiivisia ja objektiivisia luokituksia. Lisäksi monianturimallit tuottivat parempia tuloksia kuin yksianturimallit, erityisesti silloin kun yhdistettiin MC2- ja VPU-antureiden dataa. Tämä yhdistelmä, yhdessä MLP-mallin kanssa, tuotti parhaan suorituskyvyn, saavuttaen 80 % tarkkuuden.
Description
Supervisor
Alku, Paavo
Thesis advisor
Kodali, Manila
Reddy Kadiri, Sudarsana
Keywords
speech, vocal intensity, convolutional neural network, support vector machine, multi-sensor
Other note
Citation