Konseptuaalinen tarkastelu konkurssin ennustamisesta binääriluokitteluongelmana koneoppimismalleilla
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Business |
Bachelor's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022
Department
Major/Subject
Mcode
Degree programme
Laskentatoimi
Language
fi
Pages
27+3
Series
Abstract
Konkurssin tutkiminen on paljon tutkittu ja tärkeä aihealue rahoituksen ja laskentatoimen alalla, sillä yrityksen terveys on erittäin tärkeä asia kaikille yrityksen sidosryhmille. Tutkijat ja ammatinharjoittajat ovatkin omistautuneita kehittämään metodeja ja tekniikoita konkurssin ennustamiseksi yhä nopeammin ja tarkemmin. Viime vuosikymmeninä konkurssin ennustaminen on keskittynyt koneoppimismalleihin. Koneoppimismallien on todettu olevan tarkempia verrattuna perinteisiin ennustusmalleihin, mutta yhtä yleisesti parasta mallia ei ole pystytty löytämään. Yksi syy ennustusmallien hyvyydelle ja yleistettävyyden huonoudelle saattaa olla koneoppimismallien taipumus ylisovittua. Tämän tutkielman päätavoite on kartoittaa konkurssin ennustamisprosessia ja pohtia prosessiin liittyviä ongelmakohtia. Samalla esitellään joitakin yleisimmin käytettyjä koneoppimisalgoritmeja sekä näiden vahvuuksia ja heikkouksia. Tutkimus toteutetaan kirjallisuuskatsauksena ja se rajoittuu konkurssin ennustamisen tarkasteluun binääriluokitteluongelmana. Konkurssin ennustamisprosessi, kuten mikä tahansa datatiedeprosessi, sisältää viisi vaihetta: ongelman ymmärtäminen, aineiston alustamine, mallin kehittäminen, mallin testaaminen ja mallin käyttöönotto ja ylläpitäminen. Tässä tutkielmassa näistä keskitytään neljään ensimmäiseen. Kukin vaiheista on tärkeä, mutta ongelman ymmärtäminen on näistä tärkein. Datatiedeprosessien iteratiivisen luonteen vuoksi muihin vaiheisiin voidaan aina palata ja korjata tehtyjä virheitä, mutta ongelman asettelun olisi hyvä mennä kerralla oikein. Konkurssin ennustamisen kaksi suurinta ongelmakohtaa koneoppimista käytettäessä ovat koneoppimismallien taipumus ylisovittua ja käytetyn datan epätasapaino luokkien välillä. Ylisovittamisen ehkäisyyn on monia keinoja. Datan epätasapainoisuuteen ratkaisuna on datan tasapainottaminen joko yli- tai/ja aliotantamenetelmillä. Ongelmakohtien ja ennustusprosessin tunteminen auttavat rakentamaan parempia ennustusmalleja, kun tiedostetaan, mitä kaikkea tulisi ottaa huomioon prosessin eri vaiheissa. Koneoppimisprosessin tärkein tehtävähän on rakentaa yleistettävissä olevia malleja. Jos mallia ei pysty yleistämään, ennustustarkkuudella ei juurikaan ole merkitystä. Jatkotutkimuksena voitaisiin tästä tutkielmasta saatavia tietoja soveltaa empiiriseen aineistoon ja katsoa onko sillä vaikutusta. Toisaalta jatkotutkimuksena voitaisiin myös tarkastella koneoppimismallien käyttöä muun tyyppisten konkurssin ennustamisongelmien kohdalla. Koneoppimismallien avulla on mahdollista tutkia muun muassa konkurssin tapahtumisen todennäköisyyttä regressioanalyysilla ja sitä kauanko yrityksellä menee mennä konkurssiin tietyn rajapisteen (esim. tietyn velkaisuusasteen) jälkeen selviytymisanalyysilla.Description
Thesis advisor
Melgin, JariKeywords
konkurssin ennustaminen, koneoppiminen, luokittelu, datatiedeprosessi