Distribution-based Subpopulation Framework and on Its Applications in the Aviation Industry
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2019-06-18
Department
Major/Subject
Systems and Operations Research
Mcode
SCI3055
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
84
Series
Abstract
Many real-life data sets have subpopulations in them, which have similarly shaped probability distributions for their variables. We aim to build a framework to understand the data better by examining this subpopulations structure, finding the common patterns in shapes between the subpopulations and utilizing the found distributions for applications. The framework presented in this thesis is an illustrative example how this can be done in practice. The framework is a process that plainly has four steps: the data is clustered to subpopulations, the density is estimated for each subpopulation, the common shape for the subpopulations is determined and improved estimates for the subpopulation densities are calculated. Each step provides understanding about the patterns in the data. The framework applies variety of methods and concepts from the fields of data mining and statistics, such as statistical moments and L-moments, moment diagrams, regression, model-based and hierarchical clustering, parametric families, mixture models, kernel density estimation, location-scale families and introduces a few novel ideas, definitions and algorithmic methods in order to do each step of the framework. The framework is demonstrated by applying it to case examples from the aviation industry. The main case is about understanding the passenger weight data: how the groups with a low number of samples are truly distributed, can the sample size be reduced without accuracy loss, what kind of standard weights should be used and how should the passengers be segmented and can the extreme values be estimated. We also consider how the weather affects the flight delays and further usage of the framework. Overall, the framework works well in the aviation cases: meaningful subpopulations with similar distribution structure are found, the improvements for the estimates of the distribution shapes are significant when using the found common shape and the practical goals in the aforementioned passenger weight case are met. The framework seems very prominent for understanding multivariate data sets in nature and business using the distributional subpopulation structure within the data associated to them.Monissa tosielämän datajoukoissa esiintyy alipopulaatioita, joilla on samanmuotoisia todennäköisyysjakaumia muuttujilleen. Pyrimme rakentamaan viitekehyksen ymmärtääksemme dataa paremmin tutkimalla näitä alipopulaatioita, etsimällä säännönmukaisuuksia niissä ja käyttämällä löydettyjä jakaumia sovelluksissa. Tässä diplomityössä esitettävä viitekehys on havainnollistava esimerkki siitä, kuinka tällainen kokonaisuus voidaan toteuttaa käytännössä. Viitekehyksessä on yksinkertaistetusti neljä vaihetta: datan klusterointi alipopulaatioihin, jakauman arvioiminen jokaiselle alipopulaatiolle, jakaumien yhteisen muodon tunnistaminen ja parannettujen arvioiden määrittäminen alipopulaatiojakaumille. Jokainen vaihe auttaa ymmärtämään datan erinäisiä säännönmukaisuuksia. Viitekehys käyttää useita metodeja ja käsitteitä tiedonlouhinnan ja tilastotieteen aloilta, kuten tilastollisia momentteja, L-momentteja, momenttikaaviota, regressiota, mallipohjaista ja hierarkista klusterointia, parametrisiä jakaumaperheitä, yhdistelmämalleja, ydinestimointia, lokaatio-skaalaus-jakaumaperheitä ja esittelee vereviä ajatuksia, määritelmiä ja algoritmeja viitekehyksen vaiheiden toteutukseen. Viitekehystä demonstroidaan soveltamalla sitä tapausesimerkkeihin lentoliiketoiminnasta. Pääesimerkkinä tutkitaan, kuinka matkustajapainodataa voidaan ymmärtää: kuinka pienen otoskoon ryhmät ovat todella jakautuneet, voiko otoskokoa pienentää tarkkuuden kärsimättä, mitä standardipainoja tulisi käyttää ja miten matkustajat tulisi segmentoida ja voidaanko ääriarvoja arvioida. Pohdimme myös sään vaikutusta lentojen myöhästymisiin ja viitekehyksen sovellettavuutta laajemmin. Yleisesti ottaen viitekehys toimii hyvin lentoliiketoiminnan ongelmissa: mielekkäitä alipopulaatioita samankaltaisilla jakaumamuodoilla löydetään, jakaumamuotoja saadaan arvioitua merkittävästi paremmin löytämällä yhteinen jakaumamuoto ja tavoite ymmärtää matkustajapainodataa toteutuu hyvin. Viitekehys vaikuttaa lupaavalta datajoukkojen ymmärtämiseen luonnossa ja liiketoiminnassa tunnistamalla alipopulaatiorakenteita sovelluskohteiden datoissa.Description
Supervisor
Ilmonen, PauliinaThesis advisor
Tikanmäki, JohannaKeywords
probability distribution, subpopulation structure, shape identification, subpopulation structure, passenger weights, aviation