Efficiency in population genetics simulations: A tale of two memory representations in the simulator Nemo
| dc.contributor | Aalto-yliopisto | fi |
| dc.contributor | Aalto University | en |
| dc.contributor.advisor | Guillaume, Frédéric | |
| dc.contributor.author | Ahlberg, Lauri | |
| dc.contributor.school | Perustieteiden korkeakoulu | fi |
| dc.contributor.school | School of Science | en |
| dc.contributor.supervisor | Suomela, Jukka | |
| dc.date.accessioned | 2025-08-19T17:24:49Z | |
| dc.date.available | 2025-08-19T17:24:49Z | |
| dc.date.issued | 2025-07-29 | |
| dc.description.abstract | When population geneticists study how mutations pass through and accumulate in populations, computer simulations are increasingly being used in favour of (or in addition to) the traditional analytic approach. Forward-in-time simulations model genetics rather explicitly and as a result are often resource intensive to run. In this work I study the efficiency, in terms of the memory and runtime requirements, of a new memory representation of the genetics of a population in the simulation software Nemo. To this end I have implemented a new system for keeping track of mutations, based on an implementation found from the literature, which I have modified to integrate it with Nemo. I conduct measurements on the overhead of running Wright--Fisher simulations with varying parameter combinations on a supercomputer and present results. My findings indicate that the new implementation has a wider range of memory and runtime requirements, meaning that for some parameter combinations the simulation performance is improved, while for others it is worse. In the new implementation the memory required for running the simulations is determined by the size of a buffer needed to store references to mutations at segregating sites. This size is determined by the simulation scenario, but in this case the relationship is đ(đ„^2 ln(đ„)) in the number of individuals, and linear in both the number of simulated genetic loci and the mutation rate. The runtime is heavily dependent on the memory used, as there is extra bookkeeping involved in keeping track of an increased amount of mutations. | en |
| dc.description.abstract | Kun populaatiogeneetikot tutkivat kuinka mutaatioita ilmestyy ja kertyy populaatioihin, sekĂ€ poistuu niistĂ€, tietokonesimulaatioita kĂ€ytetÀÀn yhĂ€ enenevissĂ€ mÀÀrin perinteisten analyyttisten menetelmien sÄłaan ja niiden lisĂ€ksi. Ajassa eteenpĂ€in katsovat simulaatiot mallintavat geneettisiĂ€ prosesseja varsin eksplisiittisesti, minkĂ€ seurauksena niiden ajaminen vaatii paljon laskennallisia resursseja. TĂ€ssĂ€ työssĂ€ tutkitaan uutta tapaa esittÀÀ esittÀÀ populaation perimÀÀ tietokoneen muistissa â erityisesti sen tehokkuutta sekĂ€ muistinkĂ€ytön, ettĂ€ ajoajan suhteen. TĂ€hĂ€n tarkoitukseen olen toteuttanut Nemo simulaattoriin uuden tavan pitÀÀ kirjaa mutaatioista, joka perustuu kirjallisuudesta löytyvÀÀn aiempaan toteutukseen, ja josta olen muokannut Nemoon yhteensopivan version. TĂ€ssĂ€ työssĂ€ mittaan WrightâFisher simulaatioiden ajamisen resurssivaatimuksia supertietokoneella vaihtelevilla parametriarvoilla ja esitĂ€n saamani tulokset. Löydökseni osoittavat, ettĂ€ uuden implementaation muisti- ja ajoaikavaatimukset kattavat vanhaa laajemman vĂ€lin, mikĂ€ tarkoittaa, ettĂ€ joillakin parametrikombinaatioilla simulaation tehokkuus parantui mutta toisilla huononi. Uudessa toteutuksessa simulaatioiden ajamiseen tarvittavan muistin mÀÀrĂ€ riippuu siitĂ€, minkĂ€ kokoinen puskuri vaaditaan, jotta voidaan sĂ€ilöÀ viittaukset sellaisiin mutaatioihin, jotka ovat vain osalla populaatiosta. Vaadittava koko riippuu siitĂ€, minkĂ€lainen simulaatioskenaario milloinkin on kyseessĂ€, mutta tĂ€mĂ€n työn tapauksessa puskurin koko on đ(đ^2 ln(đ)) suhteessa simuloitujen yksilöiden mÀÀrÀÀn, ja lineaarinen suhteessa niin simuloitujen geneettisten sÄłaintien mÀÀrÀÀn kuin mutaatioiden todennĂ€köisyyteen. Ajoaika riippuu vahvasti muistinkĂ€ytöstĂ€, mikĂ€ johtuu siitĂ€, ettĂ€ kun mutaatioiden mÀÀrĂ€ kasvaa, myös tarvittavan kirjanpidon laskennalliset kustannukset kasvavat. | fi |
| dc.format.extent | 48 | |
| dc.format.mimetype | application/pdf | en |
| dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/138197 | |
| dc.identifier.urn | URN:NBN:fi:aalto-202508196427 | |
| dc.language.iso | en | en |
| dc.programme | Master's Programme in Computer, Communication and Information Sciences | en |
| dc.programme.major | Bioinformatics and Digital Health | en |
| dc.subject.keyword | genetics | en |
| dc.subject.keyword | simulators | en |
| dc.subject.keyword | efficiency | en |
| dc.subject.keyword | computational biology | en |
| dc.subject.keyword | algorithms | en |
| dc.subject.keyword | data structures | en |
| dc.title | Efficiency in population genetics simulations: A tale of two memory representations in the simulator Nemo | en |
| dc.title | Tehokkuus populaatiogenetiikan simulaatioissa: Kertomus kahdesta muistiesityksestÀ simulaatio-ohjelmassa Nemo | fi |
| dc.type | G2 Pro gradu, diplomityö | fi |
| dc.type.ontasot | Master's thesis | en |
| dc.type.ontasot | Diplomityö | fi |
| local.aalto.electroniconly | yes | |
| local.aalto.openaccess | yes |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- master_Ahlberg_Lauri_2025.pdf
- Size:
- 1.02 MB
- Format:
- Adobe Portable Document Format