Efficiency in population genetics simulations: A tale of two memory representations in the simulator Nemo

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorGuillaume, Frédéric
dc.contributor.authorAhlberg, Lauri
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.schoolSchool of Scienceen
dc.contributor.supervisorSuomela, Jukka
dc.date.accessioned2025-08-19T17:24:49Z
dc.date.available2025-08-19T17:24:49Z
dc.date.issued2025-07-29
dc.description.abstractWhen population geneticists study how mutations pass through and accumulate in populations, computer simulations are increasingly being used in favour of (or in addition to) the traditional analytic approach. Forward-in-time simulations model genetics rather explicitly and as a result are often resource intensive to run. In this work I study the efficiency, in terms of the memory and runtime requirements, of a new memory representation of the genetics of a population in the simulation software Nemo. To this end I have implemented a new system for keeping track of mutations, based on an implementation found from the literature, which I have modified to integrate it with Nemo. I conduct measurements on the overhead of running Wright--Fisher simulations with varying parameter combinations on a supercomputer and present results. My findings indicate that the new implementation has a wider range of memory and runtime requirements, meaning that for some parameter combinations the simulation performance is improved, while for others it is worse. In the new implementation the memory required for running the simulations is determined by the size of a buffer needed to store references to mutations at segregating sites. This size is determined by the simulation scenario, but in this case the relationship is 𝑂(đ‘„^2 ln(đ‘„)) in the number of individuals, and linear in both the number of simulated genetic loci and the mutation rate. The runtime is heavily dependent on the memory used, as there is extra bookkeeping involved in keeping track of an increased amount of mutations.en
dc.description.abstractKun populaatiogeneetikot tutkivat kuinka mutaatioita ilmestyy ja kertyy populaatioihin, sekĂ€ poistuu niistĂ€, tietokonesimulaatioita kĂ€ytetÀÀn yhĂ€ enenevissĂ€ mÀÀrin perinteisten analyyttisten menetelmien sÄłaan ja niiden lisĂ€ksi. Ajassa eteenpĂ€in katsovat simulaatiot mallintavat geneettisiĂ€ prosesseja varsin eksplisiittisesti, minkĂ€ seurauksena niiden ajaminen vaatii paljon laskennallisia resursseja. TĂ€ssĂ€ työssĂ€ tutkitaan uutta tapaa esittÀÀ esittÀÀ populaation perimÀÀ tietokoneen muistissa – erityisesti sen tehokkuutta sekĂ€ muistinkĂ€ytön, ettĂ€ ajoajan suhteen. TĂ€hĂ€n tarkoitukseen olen toteuttanut Nemo simulaattoriin uuden tavan pitÀÀ kirjaa mutaatioista, joka perustuu kirjallisuudesta löytyvÀÀn aiempaan toteutukseen, ja josta olen muokannut Nemoon yhteensopivan version. TĂ€ssĂ€ työssĂ€ mittaan Wright–Fisher simulaatioiden ajamisen resurssivaatimuksia supertietokoneella vaihtelevilla parametriarvoilla ja esitĂ€n saamani tulokset. Löydökseni osoittavat, ettĂ€ uuden implementaation muisti- ja ajoaikavaatimukset kattavat vanhaa laajemman vĂ€lin, mikĂ€ tarkoittaa, ettĂ€ joillakin parametrikombinaatioilla simulaation tehokkuus parantui mutta toisilla huononi. Uudessa toteutuksessa simulaatioiden ajamiseen tarvittavan muistin mÀÀrĂ€ riippuu siitĂ€, minkĂ€ kokoinen puskuri vaaditaan, jotta voidaan sĂ€ilöÀ viittaukset sellaisiin mutaatioihin, jotka ovat vain osalla populaatiosta. Vaadittava koko riippuu siitĂ€, minkĂ€lainen simulaatioskenaario milloinkin on kyseessĂ€, mutta tĂ€mĂ€n työn tapauksessa puskurin koko on 𝑂(𝑛^2 ln(𝑛)) suhteessa simuloitujen yksilöiden mÀÀrÀÀn, ja lineaarinen suhteessa niin simuloitujen geneettisten sÄłaintien mÀÀrÀÀn kuin mutaatioiden todennĂ€köisyyteen. Ajoaika riippuu vahvasti muistinkĂ€ytöstĂ€, mikĂ€ johtuu siitĂ€, ettĂ€ kun mutaatioiden mÀÀrĂ€ kasvaa, myös tarvittavan kirjanpidon laskennalliset kustannukset kasvavat.fi
dc.format.extent48
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/138197
dc.identifier.urnURN:NBN:fi:aalto-202508196427
dc.language.isoenen
dc.programmeMaster's Programme in Computer, Communication and Information Sciencesen
dc.programme.majorBioinformatics and Digital Healthen
dc.subject.keywordgeneticsen
dc.subject.keywordsimulatorsen
dc.subject.keywordefficiencyen
dc.subject.keywordcomputational biologyen
dc.subject.keywordalgorithmsen
dc.subject.keyworddata structuresen
dc.titleEfficiency in population genetics simulations: A tale of two memory representations in the simulator Nemoen
dc.titleTehokkuus populaatiogenetiikan simulaatioissa: Kertomus kahdesta muistiesityksestÀ simulaatio-ohjelmassa Nemofi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Ahlberg_Lauri_2025.pdf
Size:
1.02 MB
Format:
Adobe Portable Document Format