Multimodal Tumour Type and Subtype Classification with Deep Learning
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2025-02-24
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
Degree programme
Master's Programme in Life Science Technologies
Language
en
Pages
72
Series
Abstract
Cancer was the second most common cause of death in Finland in 2023. Since early diagnosis and identifying the tissue of origin are crucial in cancer treatment and prognosis, finding new, efficient, and minimally invasive diagnostic methods is important. Tumour types in different tissues are characterised by distinct patterns of somatic mutations that have been proven to be helpful in tumour type prediction. These mutations and patterns can be detected from a blood sample by examining circulating tumour DNA (ctDNA), enabling the use of minimally invasive and accurate computational diagnostic tools for early-stage cancer detection. This thesis aims to develop and evaluate the use of deep learning for tumour-type prediction from somatic mutation data. The thesis investigates the performance of the Mutation-Attention (MuAt) deep learning model and compares its original trinucleotide-based embedding with alternative approaches, including DNABERT embeddings and one-hot encoding of individual nucleotides. Additionally, chromatin state information is integrated into the MuAt model using the EpicVAE variational autoencoder to evaluate the impact of the epigenetic information on model performance. The experiment utilises tumour site DNA data from 24 tumour types and 2578 patients from the database of the PCAWG project. The results show that the original MuAt embedding approach outperforms new approaches in 10-fold cross-validation with average and best validation accuracies of 0.882 and 0.919, respectively. Moreover, adding the chromatin state information only increased the average validation accuracy by 0.002. Further study of DNABERT embedding spaces with Uniform Manifold Approximation and Projections (UMAPs) shows the low quality of the embedding spaces and the low capability of DNABERT to distinguish the differences between mutated and reference sequences. The results also highlight the importance of genomic position information in prediction. The research demonstrates the effectiveness of the original MuAt model pipeline design, thus demonstrating the importance of good design in embedding the mutation data. Even though the tested approaches and MuAt model have limitations, this research provides a solid foundation for further studying the use of DNABERT in the case of mutation data, new embedding approaches, and developing computational methods for tumour type prediction.Syöpä oli toiseksi yleisin kuolinsyy Suomessa vuonna 2023. Koska syövän hoidon onnistumisessa ja sen parantumisessa ratkaisevaa on diagnosointi ja syövän alkuperän tunnistaminen aikaisessa vaiheessa, uusien, tehokkaiden ja mahdollisimman vähän kajoavien diagnosointimenetelmien kehittäminen on tärkeää. Eri kudostyyppien kasvaimet ilmentävät yksilöllisiä somaattisten mutaatioiden kuvioita, joiden on todettu olevan hyödyllisiä kasvaintyypin ennustamisessa. Näitä mutaatioita ja kuvioita voidaan havaita verinäytteestä tutkimalla syöpäsoluista peräisin olevaa kiertävää kasvain-DNA:ta (ctDNA). Tämä mahdollistaa tarkkojen ja vähän kajoavien laskennallisten diagnostiikkatyökalujen käytön syövän varhaisessa toteamisessa. Tämän diplomityön tavoitteena on kehittää ja tutkia syväoppimismenetelmien käyttöä kasvaintyypin ennustamisessa somaattisisten mutaatioiden perusteella. Tutkimuksessa tarkastellaan Mutation-Attention (MuAt) -syväoppimismallin suorituskykyä ja verrataan sen alkuperäistä, kolmen nukleotidin mutaatiokontekstiin perustuvaa upotusmenetelmää vaihtoehtoisiin lähestymistapoihin, kuten DNABERT-upotuksiin ja yksittäisten nukleotidien one-hot koodaukseen. Lisäksi kromatiinitilan tietoa integroidaan MuAt-malliin käyttämällä EpicVAE- mallia, jotta voidaan arvioida tämän epigeneettisen tiedon vaikutusta mallin suorituskykyyn. Työssä käytetään PCAWG-projektin tietokannasta saatua kasvaimesta peräisin olevaa DNA-dataa, joka kattaa 24 eri kasvaintyyppiä ja 2578 potilasta. Tulokset osoittavat, että alkuperäisen MuAt-mallin upotusvektorimenetelmällä saavutetaan parempia tuloksia uusiin lähestymistapoihin verrattuna 10-kertaisessa ristiinvalidoinnissa. Alkuperäisen MuAt -mallin keskimääräinen validointitarkkuus oli 0,882 ja paras validointitarkkuus 0,919. Kromatiinitilan lisääminen paransi keskimääräistä validointitarkkuutta vain 0,002 yksiköllä. DNABERT-upotusavaruuden tarkastelu Uniform Manifold Approximation and Projection (UMAP) -menetelmän avulla osoitti DNBERT:n luoman upotusavaruuden heikon laadun sekä DNABERT:n kyvyn erottaa mutataatio- ja referenssisekvenssit toisistaan. Tulokset korostavat myös mutaatioiden geneettisen sijaintitiedon merkitystä ennustamisessa. Tutkimus osoittaa, kuinka hyvin alkuperäinen MuAt-malli on suunniteltu, ja korostaa hyvän upotusvektorisoinnin tärkeyttä. Vaikka testatuilla lähestymistavoilla ja MuAt-mallilla on omat rajoitteensa, tutkimus tarjoaa vahvan pohjan jatkotyölle DNABERTin hyödyntämisessä mutaatiodatan analysoinnissa sekä uusien upotusmenetelmien ja laskennallisen kasvaintyyppien ennustamisen jatkotutkimukselle.Description
Supervisor
Lähdesmäki, HarriThesis advisor
Pitkänen, EsaKeywords
cancer, deep learning, BERT, MuAt, PCAWG, somatic mutations, tumour type prediction, VAE