Distribution-based Subpopulation Framework and on Its Applications in the Aviation Industry

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorTikanmäki, Johanna
dc.contributor.authorLaihanen, Joonas
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorIlmonen, Pauliina
dc.date.accessioned2019-06-26T11:08:11Z
dc.date.available2019-06-26T11:08:11Z
dc.date.issued2019-06-18
dc.description.abstractMany real-life data sets have subpopulations in them, which have similarly shaped probability distributions for their variables. We aim to build a framework to understand the data better by examining this subpopulations structure, finding the common patterns in shapes between the subpopulations and utilizing the found distributions for applications. The framework presented in this thesis is an illustrative example how this can be done in practice. The framework is a process that plainly has four steps: the data is clustered to subpopulations, the density is estimated for each subpopulation, the common shape for the subpopulations is determined and improved estimates for the subpopulation densities are calculated. Each step provides understanding about the patterns in the data. The framework applies variety of methods and concepts from the fields of data mining and statistics, such as statistical moments and L-moments, moment diagrams, regression, model-based and hierarchical clustering, parametric families, mixture models, kernel density estimation, location-scale families and introduces a few novel ideas, definitions and algorithmic methods in order to do each step of the framework. The framework is demonstrated by applying it to case examples from the aviation industry. The main case is about understanding the passenger weight data: how the groups with a low number of samples are truly distributed, can the sample size be reduced without accuracy loss, what kind of standard weights should be used and how should the passengers be segmented and can the extreme values be estimated. We also consider how the weather affects the flight delays and further usage of the framework. Overall, the framework works well in the aviation cases: meaningful subpopulations with similar distribution structure are found, the improvements for the estimates of the distribution shapes are significant when using the found common shape and the practical goals in the aforementioned passenger weight case are met. The framework seems very prominent for understanding multivariate data sets in nature and business using the distributional subpopulation structure within the data associated to them.en
dc.description.abstractMonissa tosielämän datajoukoissa esiintyy alipopulaatioita, joilla on samanmuotoisia todennäköisyysjakaumia muuttujilleen. Pyrimme rakentamaan viitekehyksen ymmärtääksemme dataa paremmin tutkimalla näitä alipopulaatioita, etsimällä säännönmukaisuuksia niissä ja käyttämällä löydettyjä jakaumia sovelluksissa. Tässä diplomityössä esitettävä viitekehys on havainnollistava esimerkki siitä, kuinka tällainen kokonaisuus voidaan toteuttaa käytännössä. Viitekehyksessä on yksinkertaistetusti neljä vaihetta: datan klusterointi alipopulaatioihin, jakauman arvioiminen jokaiselle alipopulaatiolle, jakaumien yhteisen muodon tunnistaminen ja parannettujen arvioiden määrittäminen alipopulaatiojakaumille. Jokainen vaihe auttaa ymmärtämään datan erinäisiä säännönmukaisuuksia. Viitekehys käyttää useita metodeja ja käsitteitä tiedonlouhinnan ja tilastotieteen aloilta, kuten tilastollisia momentteja, L-momentteja, momenttikaaviota, regressiota, mallipohjaista ja hierarkista klusterointia, parametrisiä jakaumaperheitä, yhdistelmämalleja, ydinestimointia, lokaatio-skaalaus-jakaumaperheitä ja esittelee vereviä ajatuksia, määritelmiä ja algoritmeja viitekehyksen vaiheiden toteutukseen. Viitekehystä demonstroidaan soveltamalla sitä tapausesimerkkeihin lentoliiketoiminnasta. Pääesimerkkinä tutkitaan, kuinka matkustajapainodataa voidaan ymmärtää: kuinka pienen otoskoon ryhmät ovat todella jakautuneet, voiko otoskokoa pienentää tarkkuuden kärsimättä, mitä standardipainoja tulisi käyttää ja miten matkustajat tulisi segmentoida ja voidaanko ääriarvoja arvioida. Pohdimme myös sään vaikutusta lentojen myöhästymisiin ja viitekehyksen sovellettavuutta laajemmin. Yleisesti ottaen viitekehys toimii hyvin lentoliiketoiminnan ongelmissa: mielekkäitä alipopulaatioita samankaltaisilla jakaumamuodoilla löydetään, jakaumamuotoja saadaan arvioitua merkittävästi paremmin löytämällä yhteinen jakaumamuoto ja tavoite ymmärtää matkustajapainodataa toteutuu hyvin. Viitekehys vaikuttaa lupaavalta datajoukkojen ymmärtämiseen luonnossa ja liiketoiminnassa tunnistamalla alipopulaatiorakenteita sovelluskohteiden datoissa.fi
dc.format.extent84
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/39162
dc.identifier.urnURN:NBN:fi:aalto-201906264227
dc.language.isoenen
dc.programmeMaster’s Programme in Mathematics and Operations Researchfi
dc.programme.majorSystems and Operations Researchfi
dc.programme.mcodeSCI3055fi
dc.subject.keywordprobability distributionen
dc.subject.keywordsubpopulation structureen
dc.subject.keywordshape identificationen
dc.subject.keywordsubpopulation structureen
dc.subject.keywordpassenger weightsen
dc.subject.keywordaviationen
dc.titleDistribution-based Subpopulation Framework and on Its Applications in the Aviation Industryen
dc.titleJakaumapohjainen alipopulaatioviitekehys ja sen sovelluksista lentoliiketoiminnassafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Laihanen_Joonas_2019.pdf
Size:
10.7 MB
Format:
Adobe Portable Document Format