Konseptuaalinen tarkastelu konkurssin ennustamisesta binääriluokitteluongelmana koneoppimismalleilla

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Business | Bachelor's thesis

Date

2022

Major/Subject

Mcode

Degree programme

Laskentatoimi

Language

fi

Pages

27+3

Series

Abstract

Konkurssin tutkiminen on paljon tutkittu ja tärkeä aihealue rahoituksen ja laskentatoimen alalla, sillä yrityksen terveys on erittäin tärkeä asia kaikille yrityksen sidosryhmille. Tutkijat ja ammatinharjoittajat ovatkin omistautuneita kehittämään metodeja ja tekniikoita konkurssin ennustamiseksi yhä nopeammin ja tarkemmin. Viime vuosikymmeninä konkurssin ennustaminen on keskittynyt koneoppimismalleihin. Koneoppimismallien on todettu olevan tarkempia verrattuna perinteisiin ennustusmalleihin, mutta yhtä yleisesti parasta mallia ei ole pystytty löytämään. Yksi syy ennustusmallien hyvyydelle ja yleistettävyyden huonoudelle saattaa olla koneoppimismallien taipumus ylisovittua. Tämän tutkielman päätavoite on kartoittaa konkurssin ennustamisprosessia ja pohtia prosessiin liittyviä ongelmakohtia. Samalla esitellään joitakin yleisimmin käytettyjä koneoppimisalgoritmeja sekä näiden vahvuuksia ja heikkouksia. Tutkimus toteutetaan kirjallisuuskatsauksena ja se rajoittuu konkurssin ennustamisen tarkasteluun binääriluokitteluongelmana. Konkurssin ennustamisprosessi, kuten mikä tahansa datatiedeprosessi, sisältää viisi vaihetta: ongelman ymmärtäminen, aineiston alustamine, mallin kehittäminen, mallin testaaminen ja mallin käyttöönotto ja ylläpitäminen. Tässä tutkielmassa näistä keskitytään neljään ensimmäiseen. Kukin vaiheista on tärkeä, mutta ongelman ymmärtäminen on näistä tärkein. Datatiedeprosessien iteratiivisen luonteen vuoksi muihin vaiheisiin voidaan aina palata ja korjata tehtyjä virheitä, mutta ongelman asettelun olisi hyvä mennä kerralla oikein. Konkurssin ennustamisen kaksi suurinta ongelmakohtaa koneoppimista käytettäessä ovat koneoppimismallien taipumus ylisovittua ja käytetyn datan epätasapaino luokkien välillä. Ylisovittamisen ehkäisyyn on monia keinoja. Datan epätasapainoisuuteen ratkaisuna on datan tasapainottaminen joko yli- tai/ja aliotantamenetelmillä. Ongelmakohtien ja ennustusprosessin tunteminen auttavat rakentamaan parempia ennustusmalleja, kun tiedostetaan, mitä kaikkea tulisi ottaa huomioon prosessin eri vaiheissa. Koneoppimisprosessin tärkein tehtävähän on rakentaa yleistettävissä olevia malleja. Jos mallia ei pysty yleistämään, ennustustarkkuudella ei juurikaan ole merkitystä. Jatkotutkimuksena voitaisiin tästä tutkielmasta saatavia tietoja soveltaa empiiriseen aineistoon ja katsoa onko sillä vaikutusta. Toisaalta jatkotutkimuksena voitaisiin myös tarkastella koneoppimismallien käyttöä muun tyyppisten konkurssin ennustamisongelmien kohdalla. Koneoppimismallien avulla on mahdollista tutkia muun muassa konkurssin tapahtumisen todennäköisyyttä regressioanalyysilla ja sitä kauanko yrityksellä menee mennä konkurssiin tietyn rajapisteen (esim. tietyn velkaisuusasteen) jälkeen selviytymisanalyysilla.

Description

Thesis advisor

Melgin, Jari

Keywords

konkurssin ennustaminen, koneoppiminen, luokittelu, datatiedeprosessi

Other note

Citation