Detection and Multi-class Classification of Voice Disorders from Speech Recordings

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2022-01-24
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence (Macadamia)
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
98+1
Series
Abstract
Automatic detection of voice disorders from speech signal has the potential to improve the reliability of medical diagnosis. Most of the earlier studies have focused on the binary detection of disorders without a discrimination between different disorder types. In this thesis, a systematic examination of different speaking tasks, audio features, and classifiers was conducted in the contexts of binary detection and multi-class classification. The goal was to find the system that achieves the best classification performance, and to study the complementary information between different speaking tasks and features. The examined speaking tasks were the sustained pronunciation of a vowel and a pronunciation of a sentence. The examined features included a set of cepstral coefficients and perturbation measures. Several commonly used classifiers were included. The primary multi-class classifier in this thesis was a hierarchical classifier, that has not been studied often in the domain. The hierarchy is a sequence of increasingly detailed classifications, which is based on a practical scenario. First, the classification was performed between healthy and disordered speech, followed by the classification between hyper functional dysphonia and vocal fold paresis. The results indicate that the proposed hierarchical system performs comparably or better than the traditionally used multi-class systems, achieving the multi-class classification accuracies of 59.00 % and 62.31 % for female and male speakers, respectively. The best accuracies in the first step of the hierarchy were 78.58 % and 79.87 % for female and male speakers, respectively. In the classification between the disorder types, the best accuracies were 66.20 % and 73.11 % for female and male speakers, respectively. In addition, this thesis reports several findings regarding the performances of different speaking tasks, features and classifiers.

Äänihäiriöiden automaattinen havaitseminen puhesignaalista voi parantaa lääketieteellisen diagnoosin luotettavuutta. Suurin osa aiemmista tutkimuksista on keskittynyt häiriöiden binääriseen havaitsemiseen ilman luokittelua eri häiriötyyppien välillä. Tässä opinnäytetyössä tarkasteltiin systemaattisesti erilaisia puhetehtäviä, äänisignaalista johdettuja piirrevektoreita ja luokittimia moniluokkaisen luokituksen yhteydessä. Tavoitteena oli löytää järjestelmä, jolla saavutetaan paras luokittelutarkkuus, ja tutkia eri puhetehtävien ja piirrevektoreiden välillä esiintyvää komplementaarista informaatiota. Tarkasteltavina puhetehtävinä olivat vokaalin ja lauseen ääntäminen. Tutkitut piirrevektorit sisälsivät joukon kepstraalikertoimia ja häiriömittareita. Mukana oli useita yleisesti käytettyjä luokittimia. Tässä opinnäytetyössä ensisijainen moniluokkaluokitin oli hierarkinen luokitin, jota ei ole yleisesti tutkittu äänihäiriöiden tunnistamisen yhteydessä. Käytetty hierarkia on sarja yhä yksityiskohtaisempia luokituksia, jotka perustuvat käytännön skenaarioon. Ensin luokittelu suoritettiin terveen ja häiriintyneen puheen välillä, jota seurasi luokittelu hyperfunktionaalisen dysfonian ja äänihuulihalvauksen välillä. Tulokset osoittavat, että hierarkkinen järjestelmä suoriutuu vertailukelpoisesti tai paremmin kuin perinteisesti käytetyt moniluokkajärjestelmät. Sen saavuttama moniluokkainen luokitustarkkuus oli 59,00 % naisille ja 62,31 % miehille. Parhaat tarkkuudet hierarkian ensimmäisessä vaiheessa olivat 78,58 % naisille ja 79,87 % miehille. Häiriötyyppien välisessä luokittelussa parhaat tarkkuudet olivat 66,20 % naisille ja 73,11 % miehille. Lisäksi tässä opinnäytetyössä raportoidaan useita havaintoja liittyen eri puhetehtävien, piirrevektoreiden ja luokittelijoiden suorituskykyyn.
Description
Supervisor
Alku, Paavo
Thesis advisor
Kadiri, Sudarsana
Keywords
voice disorders, multi-class classification, hierarchical classifier, hyperfunctional dysphonia, vocal fold paresis
Other note
Citation