Konseptuaalinen tarkastelu konkurssin ennustamisesta binääriluokitteluongelmana koneoppimismalleilla

dc.contributorAalto Universityen
dc.contributorAalto-yliopistofi
dc.contributor.advisorMelgin, Jari
dc.contributor.authorLumio, Linda
dc.contributor.departmentLaskentatoimen laitosfi
dc.contributor.schoolKauppakorkeakoulufi
dc.contributor.schoolSchool of Businessen
dc.date.accessioned2023-01-01T17:00:46Z
dc.date.available2023-01-01T17:00:46Z
dc.date.issued2022
dc.description.abstractKonkurssin tutkiminen on paljon tutkittu ja tärkeä aihealue rahoituksen ja laskentatoimen alalla, sillä yrityksen terveys on erittäin tärkeä asia kaikille yrityksen sidosryhmille. Tutkijat ja ammatinharjoittajat ovatkin omistautuneita kehittämään metodeja ja tekniikoita konkurssin ennustamiseksi yhä nopeammin ja tarkemmin. Viime vuosikymmeninä konkurssin ennustaminen on keskittynyt koneoppimismalleihin. Koneoppimismallien on todettu olevan tarkempia verrattuna perinteisiin ennustusmalleihin, mutta yhtä yleisesti parasta mallia ei ole pystytty löytämään. Yksi syy ennustusmallien hyvyydelle ja yleistettävyyden huonoudelle saattaa olla koneoppimismallien taipumus ylisovittua. Tämän tutkielman päätavoite on kartoittaa konkurssin ennustamisprosessia ja pohtia prosessiin liittyviä ongelmakohtia. Samalla esitellään joitakin yleisimmin käytettyjä koneoppimisalgoritmeja sekä näiden vahvuuksia ja heikkouksia. Tutkimus toteutetaan kirjallisuuskatsauksena ja se rajoittuu konkurssin ennustamisen tarkasteluun binääriluokitteluongelmana. Konkurssin ennustamisprosessi, kuten mikä tahansa datatiedeprosessi, sisältää viisi vaihetta: ongelman ymmärtäminen, aineiston alustamine, mallin kehittäminen, mallin testaaminen ja mallin käyttöönotto ja ylläpitäminen. Tässä tutkielmassa näistä keskitytään neljään ensimmäiseen. Kukin vaiheista on tärkeä, mutta ongelman ymmärtäminen on näistä tärkein. Datatiedeprosessien iteratiivisen luonteen vuoksi muihin vaiheisiin voidaan aina palata ja korjata tehtyjä virheitä, mutta ongelman asettelun olisi hyvä mennä kerralla oikein. Konkurssin ennustamisen kaksi suurinta ongelmakohtaa koneoppimista käytettäessä ovat koneoppimismallien taipumus ylisovittua ja käytetyn datan epätasapaino luokkien välillä. Ylisovittamisen ehkäisyyn on monia keinoja. Datan epätasapainoisuuteen ratkaisuna on datan tasapainottaminen joko yli- tai/ja aliotantamenetelmillä. Ongelmakohtien ja ennustusprosessin tunteminen auttavat rakentamaan parempia ennustusmalleja, kun tiedostetaan, mitä kaikkea tulisi ottaa huomioon prosessin eri vaiheissa. Koneoppimisprosessin tärkein tehtävähän on rakentaa yleistettävissä olevia malleja. Jos mallia ei pysty yleistämään, ennustustarkkuudella ei juurikaan ole merkitystä. Jatkotutkimuksena voitaisiin tästä tutkielmasta saatavia tietoja soveltaa empiiriseen aineistoon ja katsoa onko sillä vaikutusta. Toisaalta jatkotutkimuksena voitaisiin myös tarkastella koneoppimismallien käyttöä muun tyyppisten konkurssin ennustamisongelmien kohdalla. Koneoppimismallien avulla on mahdollista tutkia muun muassa konkurssin tapahtumisen todennäköisyyttä regressioanalyysilla ja sitä kauanko yrityksellä menee mennä konkurssiin tietyn rajapisteen (esim. tietyn velkaisuusasteen) jälkeen selviytymisanalyysilla.fi
dc.format.extent27+3
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/118644
dc.identifier.urnURN:NBN:fi:aalto-202301011006
dc.language.isofien
dc.programmeLaskentatoimien
dc.subject.keywordkonkurssin ennustaminenfi
dc.subject.keywordkoneoppiminenfi
dc.subject.keywordluokittelufi
dc.subject.keyworddatatiedeprosessifi
dc.titleKonseptuaalinen tarkastelu konkurssin ennustamisesta binääriluokitteluongelmana koneoppimismalleillafi
dc.titleA conceptual review of bankruptcy prediction as a binary classification problem using machine learning modelsen
dc.typeG1 Kandidaatintyöfi
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
bachelor_Lumio_Linda_2022.pdf
Size:
621.78 KB
Format:
Adobe Portable Document Format