Identifying mislabelled data in extreme multi-label text classification
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-08-19
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
36+3
Series
Abstract
Data annotations in datasets used for machine learning are often produced by human annotation or other noisy processes. Systematic label errors may be introduced to datasets due to biases in the data generation or processing. This means that the given labels in most datasets contain label errors. Mislabels can reduce predictive performance and undermine machine learning models' generalization ability. This thesis investigates mislabel detection in the context of an extreme multi-label text classification task. This is a setting where each text document is annotated with several labels chosen from a set of thousands of options. Experiments are carried out to test one mislabel detection method on a dataset used for automatic medical coding. Automatic medical coding is the task of predicting medical diagnosis or procedure codes based on medical records. The employed method, confident learning, uses the predicted probabilities of a trained model. Cases where the model confidently disagrees with a given label are detected as potential label errors. The mislabel detection is evaluated against a keyword-search-based ground truth on a subset of labels. Furthermore, the effect of cleaning the training set is investigated by re-training the model after correcting label errors. The results suggest that confident learning can spot cases where an erroneous extra label is present with high precision. However, the method is too unreliable to fully automatically clean the dataset. The re-training results show that a model trained on cleaned data is more conservative, having a lower false positive rate, but performs worse overall.Koneoppimiseen käytettävien tietojoukkojen annotaatiot tuotetaan usein ihmisten tekemänä annotointina tai muulla häiriöalttiilla menetelmällä. Lisäksi systemaattisia merkintävirheitä voi päätyä aineistoihin datan luonti- tai käsittelyvaiheessa. Tämä tarkoittaa, että suurimmassa osassa aineistoista annetut merkinnät sisältävät virheellisiä annotaatioita. Virheelliset merkinnät voivat heikentää koneoppimismallien suoritus- ja yleistyskykyä. Tämä opinnäytetyö tutkii virheellisten merkintöjen havaitsemista äärimmäisen monen luokan tekstinluokittelutehtävässä (engl. extreme multi-label text classification). Tämä on tilanne, jossa jokainen tekstidokumentti anotoidaan useilla luokilla, jotka valitaan tuhansien vaihtoehtojen joukosta. Erästä virheellis- ten merkintöjen tunnistusmenetelmää kokeillaan automaattiseen lääketieteelliseen koodaukseen (engl. automatic medical coding) käytetyllä aineistolla. Automaattinen lääketieteellinen koodaus on lääketieteellisten diagnoosi- ja toimenpidekoodien en- nustamista lääketieteellisten asiakirjojen perusteella. Käytetty menetelmä, itsevarma oppiminen (engl. confident learning), perustuu koulutetun mallin ennustettujen to- dennäköisyyksien käyttöön. Tapaukset, joissa malli on itsevarma, mutta eri mieltä annetun merkinnän kanssa, havaitaan mahdollisina annotaatiovirheinä. Virheellisten merkintöjen havaitsemista arvioidaan vertaamalla osajoukolle luokista suoritetun avainsanahakuun perustuvan luokittelun tuloksiin. Lisäksi tutkitaan koulutusdatan puhdistamisen vaikutusta uudelleenkouluttamalla malli annotaatiovirheiden korjaami- sen jälkeen. Tulokset viittaavat siihen, että itsevarma oppiminen pystyy luotettavasti havaitsemaan tapauksia, joissa virheellinen ylimääräinen merkintä on läsnä. Mene- telmä ei kuitenkaan ole tarpeeksi luotettava, jotta aineisto voitaisiin puhdistaa täysin automaattisesti. Uudelleenkoulutuksen tulokset osoittavat, että puhdistetulla datalla koulutettu malli on konservatiivisempi ja sen väärien positiivisten tapausten määrä on pienempi, mutta kokonaisuudessaan se suoriutuu heikommin kuin alkuperäisellä datalla koulutettu malli.Description
Supervisor
Rousu, JuhoThesis advisor
Edin, JoakimKeywords
mislabel detection, extreme multi-label classification, automatic medical coding, confident learning, text classification