On Handling Imbalanced Data in Text Classification

Avela, Aleksi

On Handling Imbalanced Data in Text Classification

Perustieteiden korkeakoulu | Master's thesis

Author

Avela, Aleksi

Date

2021-12-14

Major/Subject

Systems and Operations Research

Mcode

SCI3055

Degree programme

Master’s Programme in Mathematics and Operations Research

Language

en

Pages

71 + 6

Abstract

Text classification is a subfield of natural language processing where the objective is to develop models that can classify new text documents into predefined categories. Usually, these models are based on machine learning techniques, that is, the algorithms learn the classification rules from a prelabeled training data set. The applications of text classification include for example junk email filters, automatic handling of applications and summarizing customer reviews. Imbalanced data refers to data sets where the observations are not evenly distributed between the categories. This can cause issues in various real-world applications, for example, when trying to detect a rare but life-threatening disease with a medical test. Data imbalance is often observed in text classification, too, and handling it may be crucial. However, text classification is also affected by the challenges that are related to modelling natural language. In this thesis, we aim at providing a comprehensive background and framework for the challenge of imbalanced data in text classification by considering the two sides, text and imbalance, both separately and together. We present some main strategies for handling data imbalance in general. Of these strategies, we focus on oversampling approaches, that is, methods that aim at balancing the classes by generating synthetic observations into the smallest category or categories. We consider some popular general oversampling methods and explain how they can be applied on text data. Moreover, we provide some critical views about oversampling in general and related to text data. Based on the discussed critique, we introduce a novel method for text oversampling that aims at considering also the sequential structure of text by using a Markov chain. We evaluate the presented methods on an imbalanced text data set and show that the oversampling methods improve the classification performance, and in addition, that our novel method, referred to as Smoothed Markov Chain Oversampling, outperforms all the other evaluated methods in the majority of the considered test statistics.

Tekstin luokittelu on ala, jossa yhdistyvät tilastotiede, tekoäly sekä kielitiede. Sen tavoitteena on tutkia ja kehittää malleja, jotka pystyvät luokittelemaan tekstidokumentteja ennalta määrättyihin luokkiin. Nämä mallit perustuvat usein koneoppimiseen, eli ne oppivat luokittelusäännöt harjoitusaineistosta, joka sisältää suuren määrän esimerkkejä dokumenteista sekä niiden luokitteluista. Esimerkiksi sähköpostisovelluksen roskapostisuodatin perustuu tekstin luokitteluun. Monissa luokittelun sovelluskohteissa aineiston sisältämät havainnot eivät ole jakautuneet tasaisesti eri luokkien kesken: tätä kutsutaan epätasaisen aineiston ongelmaksi. Usein epätasaisen aineiston ongelmaan liittyy myös se, että tavoitteena on löytää juuri harvinaisinta luokkaa edustavat tapaukset. Käytännön esimerkki epätasaisen aineiston ongelmasta sekä sen merkittävyydestä on lääketieteellinen testi, jolla pyritään tunnistamaan harvinainen, mutta vaarallinen tauti. Tässä työssä tutkitaan epätasaisen aineiston ongelmaa tekstin luokittelussa. Aihetta tarkastellaan ensin tekstin luokittelun näkökulmasta, sillä luonnollisen kielen mallintamiseen liittyy paljon omia haasteitaan. Tämän jälkeen työssä esitellään tarkemmin epätasaisen aineiston ongelmaa sekä erilaisia ratkaisustrategioita, joista keskitymme erityisesti ns. yliotantaan. Tämän lähestymistavan idea on luoda synteettisiä havaintoja harvinaiseen luokkaan, jotta havainnot olisivat jakautuneet kokonaisuutena tasaisesti luokkien välillä harjoitusaineistossa. Työssä esitellään muutamia suosittuja yliotantamenetelmiä sekä niiden soveltamista tekstin luokitteluun. Lisäksi esitämme kritiikkiä liittyen yleisesti yliotantaan sekä liittyen sen soveltamiseen tekstiaineistoihin. Esitetyn kritiikin pohjalta kehitämme uuden yliotantamenetelmän perustuen Markovin ketjuun ja vertaamme sitä aiemmin esiteltyihin menetelmiin. Menetelmien arviointi toteutetaan epätasaisella tekstiaineistolla, joka sisältää englanninkielisiä uutisotsikoita. Näytämme että kaikki tutkimamme yliotantamenetelmät parantavat luokittelutuloksia, ja että kehittämämme menetelmä suoriutuu paremmin kuin mikään muu arvioiduista menetelmistä.

Supervisor

Ilmonen, Pauliina

Thesis advisor

Lehmus, Markku

Keywords

machine learning, natural language processing, text classification, imbalanced data, oversampling, Markov chain

Permanent link to this item

https://urn.fi/URN:NBN:fi:aalto-2021121910904

Collections

[dipl] Perustieteiden korkeakoulu / SCI

Show all metadata