Identifying mislabelled data in extreme multi-label text classification

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-08-19

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

36+3

Series

Abstract

Data annotations in datasets used for machine learning are often produced by human annotation or other noisy processes. Systematic label errors may be introduced to datasets due to biases in the data generation or processing. This means that the given labels in most datasets contain label errors. Mislabels can reduce predictive performance and undermine machine learning models' generalization ability. This thesis investigates mislabel detection in the context of an extreme multi-label text classification task. This is a setting where each text document is annotated with several labels chosen from a set of thousands of options. Experiments are carried out to test one mislabel detection method on a dataset used for automatic medical coding. Automatic medical coding is the task of predicting medical diagnosis or procedure codes based on medical records. The employed method, confident learning, uses the predicted probabilities of a trained model. Cases where the model confidently disagrees with a given label are detected as potential label errors. The mislabel detection is evaluated against a keyword-search-based ground truth on a subset of labels. Furthermore, the effect of cleaning the training set is investigated by re-training the model after correcting label errors. The results suggest that confident learning can spot cases where an erroneous extra label is present with high precision. However, the method is too unreliable to fully automatically clean the dataset. The re-training results show that a model trained on cleaned data is more conservative, having a lower false positive rate, but performs worse overall.

Koneoppimiseen käytettävien tietojoukkojen annotaatiot tuotetaan usein ihmisten tekemänä annotointina tai muulla häiriöalttiilla menetelmällä. Lisäksi systemaattisia merkintävirheitä voi päätyä aineistoihin datan luonti- tai käsittelyvaiheessa. Tämä tarkoittaa, että suurimmassa osassa aineistoista annetut merkinnät sisältävät virheellisiä annotaatioita. Virheelliset merkinnät voivat heikentää koneoppimismallien suoritus- ja yleistyskykyä. Tämä opinnäytetyö tutkii virheellisten merkintöjen havaitsemista äärimmäisen monen luokan tekstinluokittelutehtävässä (engl. extreme multi-label text classification). Tämä on tilanne, jossa jokainen tekstidokumentti anotoidaan useilla luokilla, jotka valitaan tuhansien vaihtoehtojen joukosta. Erästä virheellis- ten merkintöjen tunnistusmenetelmää kokeillaan automaattiseen lääketieteelliseen koodaukseen (engl. automatic medical coding) käytetyllä aineistolla. Automaattinen lääketieteellinen koodaus on lääketieteellisten diagnoosi- ja toimenpidekoodien en- nustamista lääketieteellisten asiakirjojen perusteella. Käytetty menetelmä, itsevarma oppiminen (engl. confident learning), perustuu koulutetun mallin ennustettujen to- dennäköisyyksien käyttöön. Tapaukset, joissa malli on itsevarma, mutta eri mieltä annetun merkinnän kanssa, havaitaan mahdollisina annotaatiovirheinä. Virheellisten merkintöjen havaitsemista arvioidaan vertaamalla osajoukolle luokista suoritetun avainsanahakuun perustuvan luokittelun tuloksiin. Lisäksi tutkitaan koulutusdatan puhdistamisen vaikutusta uudelleenkouluttamalla malli annotaatiovirheiden korjaami- sen jälkeen. Tulokset viittaavat siihen, että itsevarma oppiminen pystyy luotettavasti havaitsemaan tapauksia, joissa virheellinen ylimääräinen merkintä on läsnä. Mene- telmä ei kuitenkaan ole tarpeeksi luotettava, jotta aineisto voitaisiin puhdistaa täysin automaattisesti. Uudelleenkoulutuksen tulokset osoittavat, että puhdistetulla datalla koulutettu malli on konservatiivisempi ja sen väärien positiivisten tapausten määrä on pienempi, mutta kokonaisuudessaan se suoriutuu heikommin kuin alkuperäisellä datalla koulutettu malli.

Description

Supervisor

Rousu, Juho

Thesis advisor

Edin, Joakim

Keywords

mislabel detection, extreme multi-label classification, automatic medical coding, confident learning, text classification

Other note

Citation