Automatic detection of adventitious respiratory sounds using deep learning

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2022-01-24
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
57
Series
Abstract
Adventitious respiratory sounds are one of the most reliable and common indicators of pulmonary diseases. Automatic algorithms can increase the reliability and accessibility of their detection, and, consequently, research into such methods has been rapidly increasing. The state-of-the-art results today have been achieved using deep learning models. However, their performance is still lacking, there is no consensus on which methods perform the best, and it is not clear how different parts of the machine learning pipeline impact the results in this task. This thesis researched how the different parts of the pipeline impact the results and which methods are recommended to understand better how the automatic detection of adventitious respiratory sounds can be made more reliable with deep learning. These parts include data preprocessing, feature extraction, model architectures, data augmentation and balancing, and pretraining. The focus was on spectrograms as the input features and convolutional neural networks (CNNs) and Transformers as the model architectures. The first key finding was that deep learning could be applied to respiratory sound classification, the best model achieving an average score of 68.7\%. Each part of the pipeline had a significant impact, although some methods recommended by other studies, such as filtering and smart padding, had a minimal impact or were even detrimental. Mel-spectrograms outperformed the other spectrograms, and their effectiveness could be improved by combining three separate spectrograms into one three-channel input. CNNs were generally superior to Transformers, but both architectures showed potential. Data augmentation and pretraining were both highly impactful, improving the average score by 3.9\% and 6.1\%, respectively. Although the main limitation in performance for these models seemed to be the small amount of data, it was shown that advancements in other applications, such as image classification and speech recognition, also benefited the classification of respiratory sounds.

Odottamattomat hengitysäänet ovat yksi luotettavimmista ja yleisimmistä keuhkosairauksien indikaattoreista. Automaattiset algoritmit voivat lisätä niiden havaitsemisen luotettavuutta ja käyttömahdollisuuksia, minkä seurauksena kyseisten menetelmien tutkimus on lisääntynyt nopeasti. Tämän päivän parhaimmat tulokset on saavutettu syväoppimismalleilla. Niiden suorituskyky on kuitenkin edelleen puutteellinen, ei ole yksimielisyyttä, mitkä menetelmät toimivat parhaiten, eikä ole selvää, kuinka koneoppimisliukuhihnan eri osat vaikuttavat tämän sovelluksen tuloksiin. Tässä työssä tutkittiin, miten liukuhihnan eri osat vaikuttavat tuloksiin ja mitä menetelmiä suositellaan, jotta ymmärrettäisiin paremmin, kuinka odottamattomien hengitysäänien automaattista havaitsemista voidaan saada luotettavammaksi syväoppimisella. Näitä osia ovat aineiston esikäsittely, piirreominaisuuksien irrottaminen, malliarkkitehtuurit, aineiston täydennys ja tasapainottaminen sekä esikoulutus. Piirreominaisuuksissa työ keskittyi spektrogrammeihin ja malliarkkitehtuureissa konvolutionaalisiin neuroverkkoihin ja Transformer-neuroverkkoihin. Ensimmäinen keskeinen havainto oli, että syväoppimista pystyttiin soveltamaan hengitysäänien luokitteluun, ja paras malli saavutti keskiarvotuloksen 68,7\%. Kullakin liukuhihnan osalla oli merkittävä vaikutus, mutta joillakin muiden tutkimusten suosittelemilla menetelmillä, kuten suodatuksella ja älykkäällä paikkauksella, oli vähäinen vaikutus tai ne olivat jopa haitallisia. Mel-spektrogrammit suoriutuivat paremmin kuin muut spektrogrammit, ja niiden tehokkuutta pystyttiin parantamaan yhdistämällä kolme erillistä spektrogrammia yhdeksi kolmikanavaiseksi syötteeksi. Konvolutionaaliset neuroverkot olivat luotettavampia kuin Transformer-neuroverkot, mutta molemmissa arkkitehtuureissa oli potentiaalia. Aineiston täydennyksellä ja esikoulutuksella oli molemmilla erittäin suuri vaikutus, ja ne vastaavasti paransivat keskiarvotulosta 3,9\% ja 6,1\%. Vaikka mallien suorituskyvyn suurin rajoitus vaikutti olevan pieni aineistomäärä, työssä osoitettiin, että muiden sovellusten, kuten kuvien luokittelun ja puheentunnistuksen, edistysaskeleet hyödyttivät myös hengitysäänien luokittelua.
Description
Supervisor
Marttinen, Pekka
Thesis advisor
Kouros, Alexis
Keywords
deep learning, respiratory sound classification, audio classification, signal processing, spectrogram
Other note
Citation