Sampling from scarcely defined distributions: Methods and applications in data mining

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorMannila, Heikki, Prof., Aalto University, Department of Computer Science, Finland
dc.contributor.advisorPuolamäki, Kai, Docent, Aalto University, Department of Computer Science, Finland
dc.contributor.authorKallio, Aleksi
dc.contributor.departmentTietotekniikan laitosfi
dc.contributor.departmentDepartment of Computer Scienceen
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorGionis, Aristides, Associate Prof., Aalto University, Department of Computer Science, Finland
dc.date.accessioned2016-02-04T10:01:29Z
dc.date.available2016-02-04T10:01:29Z
dc.date.defence2016-02-19
dc.date.issued2016
dc.description.abstractThe importance of data is widely acknowledged in the modern society. Increasing volumes of information and growing interest in data driven decision making are creating new demands for analytical methods. In data mining applications, users are often required to operate with limited background knowledge. Specifically, one needs to analyze data and derived statistics without exact information on underlying statistical distributions. This work introduces the term scarcely defined distributions to describe such statistical distributions.  In traditional statistical testing one often makes assumptions about the source of data, such as those related to normal distribution. If data are produced by a controlled experiment and originate from a well-known source, these assumptions can be justified. In data mining strong presuppositions about the data source typically cannot be made, as the data source is not under the control of the analyst, is not well known or is too complex to understand.  The present research discusses methods and applications of data mining, in which scarcely defined distributions emerge. Several strategies are put forth that allow to analyze the dataset even when distributions are not well known, both in frequentist and information-theoretic statistical frameworks. A recurring theme is how to employ controls at the analysis phase, if the data were not produced in a controlled experiment. In most cases presented, control is achieved by adopting randomization and other empirical sampling methods that rely on large data sizes and computational power.  Data mining applications reviewed in this work are from several fields. Biomedical measurement data are explored in multiple cases, involving both microarray and high-throughput sequencing data types. In ecological and paleontological domains the analysis of presence-absence data of taxa is discussed. A common factor for all of the application areas is the complexity of the underlying processes and the biased error sources of the measurement process.  Finally, the study discusses the future trend of growing data volumes and the relevance of the proposed methods and solutions in that context. It is noted that the growing complexity and the needs for quickly adaptable methods favor the general approach taken in the thesis, while increasing data volumes and computational power makes it practically feasible.en
dc.description.abstractDatan merkittävyys on laajalta tunnustettu nyky-yhteiskunnassa. Kasvavat datavarannot ja lisääntyvä kiinnostus datapohjaista päätöksentekoa kohtaan luovat myös uusia tarpeita data-analytiikan menetelmille. Tiedonlouhinnan sovelluksessa joudutaan usein toimimaan rajallisen taustatiedon varassa. Analysoitavan datan ja siitä johdettujen tilastollisten suureiden tilastollisen piirteet eivät ole kattavasti tiedossa. Tässä työssä käytetään termiä niukasti määritelty jakauma kuvaamaan edellä mainitun tyyppisiä tilastollisia jakaumia.  Perinteisesti tilastollisessa analyysissa tehdään oletuksia datan jakaumasta, kuten esimerkiksi datan oletetaan olevan normaalijakautunutta. Jos data on tuotettu kontrolloidussa kokeessa ja peräisin hyvin tunnetusta lähteestä, niin tällaiset oletukset ovat perusteltuja. Tiedonlouhinnassa vastaavia lähtöoletuksia ei usein voida tehdä, koska datan lähde ei ole analysoijan hallinnassa, se ei ole hyvin tunnettu tai on liian monimutkainen.  Työ käy läpi tiedonlouhinnan eri menetelmiä ja sovelluksia, joissa niukasti määritellyt jakaumat ovat keskeisessä asemassa. Jakaumien kanssa työskentelyyn esitetään erilaisia ratkaisumalleja, pohjautuen sekä frekventistiseen, että informaatioteoreettiseen tilastolliseen päättelyyn. Toistuva teema on tilastollisten kontrollien toteuttaminen analyysivaiheessa, silloin kun dataa ei ole tuotettu kontrolloidussa kokeessa. Useimmissa tapauksessa kontrolli toteutetaan käyttäen satunnaistusta ja muita empiirisen otannan menetelmiä, jotka käyttävät hyväksi suuria datakokoja ja merkittävää laskentatehoa.  Tiedonlouhinnan sovelluksia käsitellään useilta eri alueilta. Biolääketieteellistä mittausdataa käsitellään useissa eri sovelluksissa, pohjautuen sekä mikrosirumittauksiin, että massiivisesti rinnakkaiseen sekvenointiin. Ekologian ja paleontologian alueelta käsitellään lajien löytöpaikkadatan analyysia. Kaikille sovellusalueille yhteinen tekijä on dataa tuottavien prosessien monimutkaisuus ja mittauksien virheiden vahvat tilastolliset vinoumat.  Lopuksi työssä käsitellään tulevaisuuden trendejä ja arvioidaan esitettyjen menetelmien ja ratkaisujen soveltuvuutta nouseviin data-analyysin tarpeisiin. Esitettyjen ratkaisujen sovellettavuus ja muokattavuus havaitaan eduksi kasvavien ja nopeasti muuttuvien tietomassojen käsittelyssä, kun taas kasvavat datamäärät ja lisääntyvä laskentateho tekevät esitytyistä ratkaisuista helposti käytettäviä.fi
dc.format.extent72 + app. 124
dc.format.mimetypeapplication/pdfen
dc.identifier.isbn978-952-60-6654-7 (electronic)
dc.identifier.isbn978-952-60-6653-0 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/19609
dc.identifier.urnURN:ISBN:978-952-60-6654-7
dc.language.isoenen
dc.opnMiettinen, Pauli, Senior Researcher, Max-Planck-Institut für Informatik, Germany
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Markus Ojala, Niko Vuokko, Aleksi Kallio, Niina Haiminen, Heikki Mannila. Randomization methods for assessing data analysis results on real-valued matrices. Statistical Analysis and Data Mining, 2:4. 209-230, September 2009. DOI: 10.1002/sam.10042
dc.relation.haspart[Publication 2]: Aleksi Kallio, Kai Puolamäki, Mikael Fortelius, Heikki Mannila. Correlations and co-occurrences of taxa: the role of temporal, geographic, and taxonomic restrictions. Palaeontologia Electronica, 14(1), March 2011
dc.relation.haspart[Publication 3]: Aleksi Kallio, Niko Vuokko, Markus Ojala, Niina Haiminen, Heikki Mannila. Randomization techniques for assessing the significance of gene periodicity results. BMC Bioinformatics, 12:330, August 2011. DOI: 10.1186/1471-2105-12-330
dc.relation.haspart[Publication 4]: Laura Elo, Aleksi Kallio, Teemu Laajala, R. David Hawkins, Eija Korpelainen, Tero Aittokallio. Optimized detection of transcription factor binding sites in ChIP-seq experiments. Nucleic Acids Research, 40(1), September 2011
dc.relation.haspart[Publication 5]: Sami Hanhijärvi and Aleksi Kallio. 2012. Biclustering gene expression data with minimum description length. Technical report. Espoo, Finland: Aalto University, School of Science, Department of Information and Computer Science. 38 pages. Aalto University publication series SCIENCE + TECHNOLOGY 9/2012. Aalto-ST-9/2012. ISBN 978-952-60-4590-0. ISSN 1799-490X
dc.relation.haspart[Publication 6]: Aleksi Kallio. Significance testing for presence-absence data. Manuscript, 2015
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries26/2016
dc.revAkoglu, Leman, Assistant Prof., Stony Brook University, USA
dc.revDe Bie, Tijl, Prof., Ghent University, Belgium
dc.subject.keyworddata miningen
dc.subject.keywordstatistical significanceen
dc.subject.keywordprobability distributionen
dc.subject.keywordnull modelen
dc.subject.keywordalgorithmic data analysisen
dc.subject.keywordtiedonlouhintafi
dc.subject.keywordtilastollinen merkitsevyysfi
dc.subject.keywordtodennäköisyysjakaumafi
dc.subject.keywordnollamallifi
dc.subject.keywordalgoritmillinen data-analyysifi
dc.subject.otherComputer scienceen
dc.titleSampling from scarcely defined distributions: Methods and applications in data miningen
dc.titleOtanta niukasti määritellyistä jakaumista: Menetelmät ja sovellukset tiedonlouhinnassafi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.archiveyes
local.aalto.formfolder2016_02_04_klo_11_08

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
isbn9789526066547.pdf
Size:
4.35 MB
Format:
Adobe Portable Document Format