# Holonomic least angle regression

##### Files
Perustieteiden korkeakoulu | Master's thesis
2017-10-03
Mathematics
SCI3054
##### Degree programme
Master’s Programme in Mathematics and Operations Research
en
69 + 6
##### Abstract
One of the main problems studied in statistic is the fitting of models. If we assume that the "true" distribution belongs to some model, we can use data and observation to find the distribution that fits the best. Ideally, we would like to explain a large dataset with as few parameters as possible. This is because models with few parameters are simpler, so computation becomes faster and interpreting the model also becomes easier. The downside is that simpler models tend to have larger errors than less simple ones. In generalized linear models each parameter corresponds to one covariate. One might then ask which of these actually useful, or the most "impactful" in our fitting procedure, and how do we actually decide which covariates to include in the model. There have been numerous attempts at automatizing this process. Most notably, the Least Angle Regression algorithm, or LARS, by Efron et al. [2004] is a computationally efficient algorithm that ranks the covariates of a linear model. The LARS algorithm was extended by Hirose and Komaki [2010] for a class of distributions in the generalized linear model by using properties of the manifold of exponential families as dually flat manifolds. However, this extension assumes that the normalizing constant of the joint distribution of observations is "easy" to compute. This is often not the case, for excample the normalizing constant may contain complicated integral. We circumvent this issue if normalizing constant satisfies a holonomic system. In this thesis, we present a modification of the holonomic gradient method [Nakayama et al., 2011] and add it to the extended LARS algorithm. We call this the holonomic extended least angle regression algorithm, or HELARS. The algorithm was implemented using the statistical software R, and was tested with real and simulated datasets.

Yksi tilastotieteen tärkeimmistä ongelmista on mallien sovittaminen. Jos oletetaan "oikean" jakauman kuuluvan tiettyyn malliin, voidaan käyttää dataa ja havaintoja apuna parhaiten sopivan mallin valitsemisessa. Parhaassa tapauksessa suuri määrä dataa voidaan selittää pienellä määrällä parametreja. Tilastolliset mallit, joilla on vähäinen määrä parametreja ovat luonnostaan yksinkertaisempia, mikä ansiosta mallista tulee laskennallisesti tehokkaampi, ja mallin tulkitseminen helpottuu. Toisaalta parametrin vähentäminen yleensä lisää mallin virhettä. Yleistetyssä lineaarisessa mallissa (generalized linear models) jokaista kovariaattia vastaa yksi parametri. Herää siis kysymys, mistä kovariaateista on eniten hyötyä analyysissä, ja miten voidaan päättää mitkä kovariaatit kannattaa sisällyttää malliin. Tämän prosessin automatisoimiseen löytyy lukuisia algoritmeja. Esimerkiksi Least Angle Regression algoritmi, eli LARS [Efron et al., 2004] on laskennallisesti tehokas algoritmi lineaarisen mallin kovariaattien järjestämiseen. Hirose ja Komaki laajensivat LARS algoritmin yleistetyn lineaarisen mallin alaluokkaan kuuluville malleille. Tämä laajennus kuitenkin olettaa, että jakauman normitusvakio voidaan laskea tehokkaasti. Usein asia ei ole näin, vaan normitusvakio voi sisältää esimerkiksi monimutkaisia integraaleja. Tämä ongelma voidaan kuitenkin kiertää, jos normitusvakio on holonomisen systeemin ratkaisu. Tämän diplomityön päätuloksena esitetään holonomisen gradienttimenetelmän [Nakayama et al., 2011] modifikaatio, and ja tämä implementoidaan laajennettuun LARS algoritmiin. Lopputuloksena saadaan holonominen LARS algoritmi, eli HELARS. Algoritmi implementoitiin R ohjelmointikielellä, ja testattiin oikealla sekä simuloidulla datalla.
##### Supervisor
Hollanti, Camilla