Developing a machine learning model for prioritising genetic variants in rare disease diagnosis
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
Language
en
Pages
101
Series
Abstract
Rare diseases collectively affect hundreds of millions of people. However, when considered individually, each disease is rare and often difficult to diagnose. Even with next-generation sequencing (NGS) now widely used in genetic testing, many patients wait years for a diagnosis. NGS can sequence the entire exome in a single test, but it also generates hundreds of thousands of variants, so clinicians still face a heavy manual task to find the few that are truly disease-causing. This thesis presents a multimodal neural network for variant prioritisation in rare disease diagnostics. The model integrates variant- and gene-level features, different phenotype–gene similarity features, and text-derived gene description embeddings. The model was developed in collaboration with Euformatics and trained and evaluated on a neuromuscular patient cohort. Its performance was benchmarked against an XGBoost method and the phenotype-driven tool Exomiser. The neural network achieved a macro-averaged average precision (macro-AP) of 0.53, meaning it usually places the true disease-causing variants among the first few candidates for each patient. It outperformed XGBoost (macro-AP 0.24) and improved gene-level ranking compared with Exomiser, which placed causal genes on average around rank 200, whereas the neural network typically ranked them within the top 10. When evaluated with more general phenotypes, the neural network remained more robust than Exomiser. Only one patient’s result declined, whereas Exomiser’s performance decreased for all patients. This stronger prioritisation compared with Exomiser substantially reduces the number of variants that require manual review. Under an assumption of two minutes of manual review per variant, the evaluation time per patient decreases from approximately 6.4 hours to 14.5 minutes, corresponding to an estimated 26-fold reduction. These findings demonstrate that the multimodal neural network model shortens the diagnostic time by improving the accuracy of variant prioritisation in rare disease genomics.Harvinaissairaudet koskettavat maailmanlaajuisesti satoja miljoonia ihmisiä. Yksittäin tarkasteltuna kukin sairaus on kuitenkin harvinainen ja usein vaikeasti tunnistettava. Vaikka uuden sukupolven sekvensointi (NGS) on nykyisin laajasti käytössä geneettisessä diagnostiikassa, monet potilaat odottavat diagnoosia vuosia. NGS sekvensoi koko eksomin yhdellä testillä, mutta tuottaa satojatuhansia variantteja, joista vain harvat ovat patogeenisia, mikä tekee kliinisestä tulkinnasta työlästä. Tässä työssä esitetään multimodaalinen neuroverkkomalli varianttien priorisointiin harvinaissairauksien diagnostiikassa. Malli yhdistää rakenteisia variantti- ja geenitasoisia ominaisuuksia, fenotyyppi–geeni-samankaltaisuusominaisuuksia sekä geenien kuvausteksteistä johdettuja vektoreita. Malli kehitettiin yhteistyössä Euformaticsin kanssa, ja se koulutettiin ja arvioitiin neuromuskulaarisella potilasjoukolla. Mallin suorituskykyä verrattiin XGBoost menetelmään ja fenotyyppiohjattuun Exomiser-työkaluun. Neuroverkko saavutti makro-keskiarvoistetun average precision-arvon (macro-AP) 0,53, mikä tarkoittaa, että se sijoittaa todelliset tautia aiheuttavat variantit yleensä kunkin potilaan ensimmäisten kandidaattien joukkoon. Malli suoriutui selvästi paremmin kuin XGBoost (macro-AP 0,24) ja paransi geenitason sijoituksia Exomiseriin verrattuna. Exomiser sijoitti tautia aiheuttavat geenit keskimäärin sijalle 200, kun taas neuroverkko sijoitti ne tyypillisesti kymmenen parhaan joukkoon. Yleisemmillä fenotyypeillä arvioituna neuroverkko osoittautui Exomiseria vakaammaksi. Vain yhden potilaan tulokset heikkenivät, kun taas Exomiserin suorituskyky laski kaikilla potilailla. Neuroverkon Exomiseria vahvempi priorisointi pienentää merkittävästi manuaalista arviointia vaativien varianttien määrää. Olettaen, että yhden variantin manuaalinen arviointi kestää kaksi minuuttia, arviointiaika lyhenee noin 6,4 tunnista 14,5 minuuttiin potilasta kohti, mikä vastaa arviolta 26-kertaista ajansäästöä. Nämä tulokset osoittavat, että multimodaalinen neuroverkkomalli voi merkittävästi lyhentää diagnoosiaikaa parantamalla varianttien priorisoinnin tarkkuutta harvinaissairauksien diagnostiikassa.Description
Supervisor
Kivelä, MikkoThesis advisor
Matilainen, JukkaRoos, Christophe