Analysis of LC-MS data in untargeted nutritional metabolomics

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorHanhineva, Kati
dc.contributor.advisorPaananen, Jussi
dc.contributor.authorMattsson, Anton
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorLähdesmäki, Harri
dc.date.accessioned2019-08-25T15:08:41Z
dc.date.available2019-08-25T15:08:41Z
dc.date.issued2019-08-19
dc.description.abstractLiquid chromatography-mass spectrometry based untargeted metabolomics is a technique that can measure the levels of thousands of compounds from virtually any biological sample. This thesis was done for the research group of nutritional metabolomics at the University of Eastern Finland. While there exists software for analyzing raw LC-MS data, the output of such software often requires additional preprocessing and quality control procedures that are integral to the workflow of the research group. This thesis covers many of these steps in detail, while also providing a broad overview of metabolomics and LC-MS instrumentation. The most important steps for curating data that is output from a LC-MS data collection software are drift correction, removal of low-quality features and imputation of missing values. We use cubic spline regression to model and correct for the systematic drift of signal intensity during an LC-MS run. Next, low-quality features are identified using several quality metrics measuring the relative magnitude of analytical variation. Finally, missing values are imputed by predicting them using a random forest fit on the observed part of the dataset. The main outcome of the thesis is an R package that automates data analysis of LC-MS experiments. The package provides a simple interface for the common preprocessing steps and several statistical analysis techniques for finding the most interesting features of the data, along with an arsenal of visualizations for quality control, exploratory visualization and assessment of study results. The package is licensed under the open source MIT license and is available for anyone to use. In addition, this thesis presents a new algorithm for finding molecular features originating from the same compound.en
dc.description.abstractNestekromatografiaan ja massaspektrometriaan (liquid chromatography-mass spectrometry, LC-MS) perustuvalla kohdentamattomalla metabolomiikalla voidaan mitata tuhansien molekyylien pitoisuuksia lähes mistä tahansa biologisesta näytteestä. Tämä diplomityö tehtiin ravitsemuksellisen metabolomiikan tutkimusryhmään Itä-Suomen yliopistossa. Vaikka ryhmällä on käytössään ohjelmia LC-MS instrumenttien raakadatan käsittelyyn, ohjelmien tulostiedostojen data vaatii usein jatkokäsittelyä ja laadunvalvontaa. Nämä toimenpiteet ovat äärimmäisen tärkeitä metabolomiikkatutkimusten luotettavuuden kannalta. Tämä diplomityö antaa hyvän yleiskuvan metabolomiikasta sekä nestekromatografia-massaspektrometriasta ja käy yksityiskohtaisesti läpi tärkeimmät jatkokäsittelyvaiheet. Datan laatu varmistamisen kannalta tärkeimmät vaiheet ovat liukuman korjaus, huonolaatuisten piirteiden poisto ja puuttuvien arvojen paikkaus. LC-MS ajon aiheuttama liukuma signaalien vahvuudessa mallinnetaan ja korjataan kuutiospliniregressiolla. Huonolaatuisten signaalien tunnistuksessa käytetään useita laatumittareita, jotka mittaavat suhteellista analyyttista mittausvirhettä. Puuttuvat arvot paikataan ennustamalla ne satunnaismetsällä, joka koulutetaan datan havaituilla arvoilla. Työn tärkein tulos on R-paketti, joka automatisoi LC-MS tutkimusten analyysin. Paketti tarjoaa helppokäyttöisen rajapinnan datan käsittelyyn ja moniin tilastollisiin testeihin. Lisäksi paketissa on tarjolla suuri joukko visualisointifunktioita, joita voi käyttää sekä laadunvalvonnassa, datan tutkimisessa, että tutkimustulosten arvioinnissa. Paketti on lisensoitu avoimen lähdekoodin MIT-lisenssillä, joten se on vapaasti käytettävissä. Lisäksi, työssä esitellään uusi algoritmi saman yhdisteen aiheuttamien molekyylipiirteiden löytämiseen.fi
dc.format.extent48
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/39870
dc.identifier.urnURN:NBN:fi:aalto-201908254931
dc.language.isoenen
dc.programmeMaster’s Programme in Life Science Technologiesfi
dc.programme.majorBioinformaticsfi
dc.programme.mcodeSCI3092fi
dc.subject.keywordmetabolomicsen
dc.subject.keywordliquid chromatographyen
dc.subject.keywordmass spectrometryen
dc.subject.keyworddata analysisen
dc.subject.keywordRen
dc.titleAnalysis of LC-MS data in untargeted nutritional metabolomicsen
dc.titleLC-MS datan analysointi kohdentamattomassa ravitsemuksellisessa metabolomiikassafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Mattsson_Anton_2019.pdf
Size:
3.28 MB
Format:
Adobe Portable Document Format