Sampling from scarcely defined distributions: Methods and applications in data mining

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.advisor Mannila, Heikki, Prof., Aalto University, Department of Computer Science, Finland
dc.contributor.advisor Puolamäki, Kai, Docent, Aalto University, Department of Computer Science, Finland
dc.contributor.author Kallio, Aleksi
dc.date.accessioned 2016-02-04T10:01:29Z
dc.date.available 2016-02-04T10:01:29Z
dc.date.issued 2016
dc.identifier.isbn 978-952-60-6654-7 (electronic)
dc.identifier.isbn 978-952-60-6653-0 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/19609
dc.description.abstract The importance of data is widely acknowledged in the modern society. Increasing volumes of information and growing interest in data driven decision making are creating new demands for analytical methods. In data mining applications, users are often required to operate with limited background knowledge. Specifically, one needs to analyze data and derived statistics without exact information on underlying statistical distributions. This work introduces the term scarcely defined distributions to describe such statistical distributions.  In traditional statistical testing one often makes assumptions about the source of data, such as those related to normal distribution. If data are produced by a controlled experiment and originate from a well-known source, these assumptions can be justified. In data mining strong presuppositions about the data source typically cannot be made, as the data source is not under the control of the analyst, is not well known or is too complex to understand.  The present research discusses methods and applications of data mining, in which scarcely defined distributions emerge. Several strategies are put forth that allow to analyze the dataset even when distributions are not well known, both in frequentist and information-theoretic statistical frameworks. A recurring theme is how to employ controls at the analysis phase, if the data were not produced in a controlled experiment. In most cases presented, control is achieved by adopting randomization and other empirical sampling methods that rely on large data sizes and computational power.  Data mining applications reviewed in this work are from several fields. Biomedical measurement data are explored in multiple cases, involving both microarray and high-throughput sequencing data types. In ecological and paleontological domains the analysis of presence-absence data of taxa is discussed. A common factor for all of the application areas is the complexity of the underlying processes and the biased error sources of the measurement process.  Finally, the study discusses the future trend of growing data volumes and the relevance of the proposed methods and solutions in that context. It is noted that the growing complexity and the needs for quickly adaptable methods favor the general approach taken in the thesis, while increasing data volumes and computational power makes it practically feasible. en
dc.description.abstract Datan merkittävyys on laajalta tunnustettu nyky-yhteiskunnassa. Kasvavat datavarannot ja lisääntyvä kiinnostus datapohjaista päätöksentekoa kohtaan luovat myös uusia tarpeita data-analytiikan menetelmille. Tiedonlouhinnan sovelluksessa joudutaan usein toimimaan rajallisen taustatiedon varassa. Analysoitavan datan ja siitä johdettujen tilastollisten suureiden tilastollisen piirteet eivät ole kattavasti tiedossa. Tässä työssä käytetään termiä niukasti määritelty jakauma kuvaamaan edellä mainitun tyyppisiä tilastollisia jakaumia.  Perinteisesti tilastollisessa analyysissa tehdään oletuksia datan jakaumasta, kuten esimerkiksi datan oletetaan olevan normaalijakautunutta. Jos data on tuotettu kontrolloidussa kokeessa ja peräisin hyvin tunnetusta lähteestä, niin tällaiset oletukset ovat perusteltuja. Tiedonlouhinnassa vastaavia lähtöoletuksia ei usein voida tehdä, koska datan lähde ei ole analysoijan hallinnassa, se ei ole hyvin tunnettu tai on liian monimutkainen.  Työ käy läpi tiedonlouhinnan eri menetelmiä ja sovelluksia, joissa niukasti määritellyt jakaumat ovat keskeisessä asemassa. Jakaumien kanssa työskentelyyn esitetään erilaisia ratkaisumalleja, pohjautuen sekä frekventistiseen, että informaatioteoreettiseen tilastolliseen päättelyyn. Toistuva teema on tilastollisten kontrollien toteuttaminen analyysivaiheessa, silloin kun dataa ei ole tuotettu kontrolloidussa kokeessa. Useimmissa tapauksessa kontrolli toteutetaan käyttäen satunnaistusta ja muita empiirisen otannan menetelmiä, jotka käyttävät hyväksi suuria datakokoja ja merkittävää laskentatehoa.  Tiedonlouhinnan sovelluksia käsitellään useilta eri alueilta. Biolääketieteellistä mittausdataa käsitellään useissa eri sovelluksissa, pohjautuen sekä mikrosirumittauksiin, että massiivisesti rinnakkaiseen sekvenointiin. Ekologian ja paleontologian alueelta käsitellään lajien löytöpaikkadatan analyysia. Kaikille sovellusalueille yhteinen tekijä on dataa tuottavien prosessien monimutkaisuus ja mittauksien virheiden vahvat tilastolliset vinoumat.  Lopuksi työssä käsitellään tulevaisuuden trendejä ja arvioidaan esitettyjen menetelmien ja ratkaisujen soveltuvuutta nouseviin data-analyysin tarpeisiin. Esitettyjen ratkaisujen sovellettavuus ja muokattavuus havaitaan eduksi kasvavien ja nopeasti muuttuvien tietomassojen käsittelyssä, kun taas kasvavat datamäärät ja lisääntyvä laskentateho tekevät esitytyistä ratkaisuista helposti käytettäviä. fi
dc.format.extent 72 + app. 124
dc.format.mimetype application/pdf en
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 26/2016
dc.relation.haspart [Publication 1]: Markus Ojala, Niko Vuokko, Aleksi Kallio, Niina Haiminen, Heikki Mannila. Randomization methods for assessing data analysis results on real-valued matrices. Statistical Analysis and Data Mining, 2:4. 209-230, September 2009. DOI: 10.1002/sam.10042
dc.relation.haspart [Publication 2]: Aleksi Kallio, Kai Puolamäki, Mikael Fortelius, Heikki Mannila. Correlations and co-occurrences of taxa: the role of temporal, geographic, and taxonomic restrictions. Palaeontologia Electronica, 14(1), March 2011.
dc.relation.haspart [Publication 3]: Aleksi Kallio, Niko Vuokko, Markus Ojala, Niina Haiminen, Heikki Mannila. Randomization techniques for assessing the significance of gene periodicity results. BMC Bioinformatics, 12:330, August 2011. DOI: 10.1186/1471-2105-12-330
dc.relation.haspart [Publication 4]: Laura Elo, Aleksi Kallio, Teemu Laajala, R. David Hawkins, Eija Korpelainen, Tero Aittokallio. Optimized detection of transcription factor binding sites in ChIP-seq experiments. Nucleic Acids Research, 40(1), September 2011.
dc.relation.haspart [Publication 5]: Sami Hanhijärvi and Aleksi Kallio. 2012. Biclustering gene expression data with minimum description length. Technical report. Espoo, Finland: Aalto University, School of Science, Department of Information and Computer Science. 38 pages. Aalto University publication series SCIENCE + TECHNOLOGY 9/2012. Aalto-ST-9/2012. ISBN 978-952-60-4590-0. ISSN 1799-490X.
dc.relation.haspart [Publication 6]: Aleksi Kallio. Significance testing for presence-absence data. Manuscript, 2015.
dc.subject.other Computer science en
dc.title Sampling from scarcely defined distributions: Methods and applications in data mining en
dc.title Otanta niukasti määritellyistä jakaumista: menetelmät ja sovellukset tiedonlouhinnassa fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Perustieteiden korkeakoulu fi
dc.contributor.school School of Science en
dc.contributor.department Tietotekniikan laitos fi
dc.contributor.department Department of Computer Science en
dc.subject.keyword data mining en
dc.subject.keyword statistical significance en
dc.subject.keyword probability distribution en
dc.subject.keyword null model en
dc.subject.keyword algorithmic data analysis en
dc.subject.keyword tiedonlouhinta fi
dc.subject.keyword tilastollinen merkitsevyys fi
dc.subject.keyword todennäköisyysjakauma fi
dc.subject.keyword nollamalli fi
dc.subject.keyword algoritmillinen data-analyysi fi
dc.identifier.urn URN:ISBN:978-952-60-6654-7
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Gionis, Aristides, Associate Prof., Aalto University, Department of Computer Science, Finland
dc.opn Miettinen, Pauli, Senior Researcher, Max-Planck-Institut für Informatik, Germany
dc.rev Akoglu, Leman, Assistant Prof., Stony Brook University, USA
dc.rev De Bie, Tijl, Prof., Ghent University, Belgium
dc.date.defence 2016-02-19


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account