Multimodal Tumour Type and Subtype Classification with Deep Learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Date

2025-02-24

Department

Major/Subject

Bioinformatics and Digital Health

Mcode

Degree programme

Master's Programme in Life Science Technologies

Language

en

Pages

72

Series

Abstract

Cancer was the second most common cause of death in Finland in 2023. Since early diagnosis and identifying the tissue of origin are crucial in cancer treatment and prognosis, finding new, efficient, and minimally invasive diagnostic methods is important. Tumour types in different tissues are characterised by distinct patterns of somatic mutations that have been proven to be helpful in tumour type prediction. These mutations and patterns can be detected from a blood sample by examining circulating tumour DNA (ctDNA), enabling the use of minimally invasive and accurate computational diagnostic tools for early-stage cancer detection. This thesis aims to develop and evaluate the use of deep learning for tumour-type prediction from somatic mutation data. The thesis investigates the performance of the Mutation-Attention (MuAt) deep learning model and compares its original trinucleotide-based embedding with alternative approaches, including DNABERT embeddings and one-hot encoding of individual nucleotides. Additionally, chromatin state information is integrated into the MuAt model using the EpicVAE variational autoencoder to evaluate the impact of the epigenetic information on model performance. The experiment utilises tumour site DNA data from 24 tumour types and 2578 patients from the database of the PCAWG project. The results show that the original MuAt embedding approach outperforms new approaches in 10-fold cross-validation with average and best validation accuracies of 0.882 and 0.919, respectively. Moreover, adding the chromatin state information only increased the average validation accuracy by 0.002. Further study of DNABERT embedding spaces with Uniform Manifold Approximation and Projections (UMAPs) shows the low quality of the embedding spaces and the low capability of DNABERT to distinguish the differences between mutated and reference sequences. The results also highlight the importance of genomic position information in prediction. The research demonstrates the effectiveness of the original MuAt model pipeline design, thus demonstrating the importance of good design in embedding the mutation data. Even though the tested approaches and MuAt model have limitations, this research provides a solid foundation for further studying the use of DNABERT in the case of mutation data, new embedding approaches, and developing computational methods for tumour type prediction.

Syöpä oli toiseksi yleisin kuolinsyy Suomessa vuonna 2023. Koska syövän hoidon onnistumisessa ja sen parantumisessa ratkaisevaa on diagnosointi ja syövän alkuperän tunnistaminen aikaisessa vaiheessa, uusien, tehokkaiden ja mahdollisimman vähän kajoavien diagnosointimenetelmien kehittäminen on tärkeää. Eri kudostyyppien kasvaimet ilmentävät yksilöllisiä somaattisten mutaatioiden kuvioita, joiden on todettu olevan hyödyllisiä kasvaintyypin ennustamisessa. Näitä mutaatioita ja kuvioita voidaan havaita verinäytteestä tutkimalla syöpäsoluista peräisin olevaa kiertävää kasvain-DNA:ta (ctDNA). Tämä mahdollistaa tarkkojen ja vähän kajoavien laskennallisten diagnostiikkatyökalujen käytön syövän varhaisessa toteamisessa. Tämän diplomityön tavoitteena on kehittää ja tutkia syväoppimismenetelmien käyttöä kasvaintyypin ennustamisessa somaattisisten mutaatioiden perusteella. Tutkimuksessa tarkastellaan Mutation-Attention (MuAt) -syväoppimismallin suorituskykyä ja verrataan sen alkuperäistä, kolmen nukleotidin mutaatiokontekstiin perustuvaa upotusmenetelmää vaihtoehtoisiin lähestymistapoihin, kuten DNABERT-upotuksiin ja yksittäisten nukleotidien one-hot koodaukseen. Lisäksi kromatiinitilan tietoa integroidaan MuAt-malliin käyttämällä EpicVAE- mallia, jotta voidaan arvioida tämän epigeneettisen tiedon vaikutusta mallin suorituskykyyn. Työssä käytetään PCAWG-projektin tietokannasta saatua kasvaimesta peräisin olevaa DNA-dataa, joka kattaa 24 eri kasvaintyyppiä ja 2578 potilasta. Tulokset osoittavat, että alkuperäisen MuAt-mallin upotusvektorimenetelmällä saavutetaan parempia tuloksia uusiin lähestymistapoihin verrattuna 10-kertaisessa ristiinvalidoinnissa. Alkuperäisen MuAt -mallin keskimääräinen validointitarkkuus oli 0,882 ja paras validointitarkkuus 0,919. Kromatiinitilan lisääminen paransi keskimääräistä validointitarkkuutta vain 0,002 yksiköllä. DNABERT-upotusavaruuden tarkastelu Uniform Manifold Approximation and Projection (UMAP) -menetelmän avulla osoitti DNBERT:n luoman upotusavaruuden heikon laadun sekä DNABERT:n kyvyn erottaa mutataatio- ja referenssisekvenssit toisistaan. Tulokset korostavat myös mutaatioiden geneettisen sijaintitiedon merkitystä ennustamisessa. Tutkimus osoittaa, kuinka hyvin alkuperäinen MuAt-malli on suunniteltu, ja korostaa hyvän upotusvektorisoinnin tärkeyttä. Vaikka testatuilla lähestymistavoilla ja MuAt-mallilla on omat rajoitteensa, tutkimus tarjoaa vahvan pohjan jatkotyölle DNABERTin hyödyntämisessä mutaatiodatan analysoinnissa sekä uusien upotusmenetelmien ja laskennallisen kasvaintyyppien ennustamisen jatkotutkimukselle.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Pitkänen, Esa

Keywords

cancer, deep learning, BERT, MuAt, PCAWG, somatic mutations, tumour type prediction, VAE

Other note

Citation