On Imbalanced Data and Text Classification Article-based thesis

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2025-12-05

Date

Major/Subject

Mcode

Degree programme

Language

en

Pages

66 + app. 48

Series

Aalto University publication series Doctoral Theses, 242/2025

Abstract

The vast amounts of information available today call for smart ways to analyze and make decisions based on data. One of the most prominent approaches is machine learning, that is, algorithms which utilize data for discovering patterns and learning to make optimal decisions. This thesis focuses on one important category of machine learning: classification, in which the aim is to learn rules that can be used for predicting the classes or labels of observations. On top of classification in general, this thesis considers two sub-problems of it – both separately and mixed together – which are imbalanced data and text classification. Imbalanced data refers to classification tasks where one or some of the classes are notably rarer compared to the other class(es). Observations belonging to a rare class are typically the ones that have a high value, but, without modifications, many classification algorithms struggle with finding these rare observations. Text classification refers to applying classification algorithms to tasks involving natural languagedocuments. The thesis includes an introduction to classification and the analysis of text data and three publications. The first publication presents an application of text classification for measuring the economic sentiment in Finland based on news titles. The second publication considers imbalanced data and text data together and introduces a new method for addressing both challenges simultaneously. The third publication discusses the – perhaps surprisingly challenging – question of how different classifiers should be evaluated and compared when dealing with imbalanced data.

Nykyään on saatavilla paljon informaatiota, ja siksi on tärkeää kehittää menetelmiä, joiden avulla kaikkea tätä tietoa voidaan hyödyntää järkevästi. Yksi merkittävimmistä lähestymistavoista datan hyödyntämiseen on koneoppiminen. Tämä väitöskirja keskittyy luokitteluun, joka on yksi koneoppimisen osa-alueista. Luokittelulla tarkoitetaan algoritmeja, jotka oppivat datasta sääntöjä, joita voidaan käyttää havaintojen luokkien ennustamiseen. Tämä työ käsittelee koneoppivaa luokittelua yleisesti ja lisäksi kahta erityistä siihen liittyvää ongelmaa: epätasaisen datan ja tekstin luokittelua. Epätasainen data tarkoittaa sitä, että luokittelutehtävässä yksi tai useampi luokista on huomattavasti harvinaisempi kuin toinen tai toiset. Harvinaisen luokan havainnoilla on yleensä suuri merkitys luokittelutehtävässä. Ongelma on se, että (ilman muokkauksia) monet koneoppimisalgoritmit eivät opi löytämään näitä harvinaisia havaintoja. Tekstin luokittelu puolestaan tarkoittaa luokittelutehtäviä, joissa havainnot ovat luonnollista kieltä. Tämä väitöskirja sisältää johdatuksen luokitteluun ja tekstidatan analysointiin sekä kolme tieteellistä julkaisua. Ensimmäinen julkaisu soveltaa tekstin luokittelua taloudellisen epävarmuuden mittaamiseen Suomessa hyödyntäen uutisotsikoita. Toinen julkaisu käsittelee epätasaisen datan ja tekstin luokittelua yhtenä kokonaisuutena; esittelemme uuden menetelmän, joka huomioi samanaikaisesti tekstiaineiston ja datan epätasaisuuden luokitteluun tuomia haasteita. Kolmas julkaisu käsittelee – mahdollisesti yllättävän haastavaa – kysymystä siitä, miten eri luokittelijoita tulisi arvioida ja vertailla, kun data on epätasaista.

Description

Supervising professor

Ilmonen, Pauliina, Prof., Aalto University, Department of Mathematics and Systems Analysis, Finland

Other note

Parts

  • [Publication 1]: A. Avela and M. Lehmus. Negative Economic Sentiment Index Based on Finnish News Titles. Journal of the Finnish Economic Association, 4(1), 49–63, October 2023.
    DOI: 10.33358/jfea.127453 View at publisher
  • [Publication 2]: A. Avela and P. Ilmonen. Extrapolated Markov Chain Oversampling Method for Imbalanced Text Classification. Submitted for publication, available at arXiv:2509.02332, September 2025. 10.48550/arXiv.2509.02332
  • [Publication 3]: A. Avela. On Fβ-score and Cost-Consistency in Evaluation of Imbalanced Classification. In 32nd European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning (ESANN), Bruges (Belgium) and online event, 245–250, i6doc.com, October 2024.
    DOI: 10.14428/esann/2024.ES2024-186 View at publisher

Citation