Biomarker Discovery from Multi-View Health Data Using Variations of Canonical Correlation Analysis

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-08-19

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

53

Series

Abstract

The increasing prevalence of type 2 diabetes (T2D) creates a growing public health concern. People with T2D often develop complications related to diabetes, prompting the search for biomarkers that signal an increased risk of developing complications. This thesis explores the connections between molecular risk factors and health outcomes in type 2 diabetics by employing various methods of canonical correlation analysis (CCA). This involves jointly correlating two data views: the first view representing comprehensive health data (metabolomics, clinical biochemistry markers, blood counts, and baseline characteristics) and the second view representing health outcomes, specifically complications of T2D (nephropathy, myocardial infarction, stroke, neuropathy, and retinopathy). The aim is to uncover and discern both linear and non-linear associations between these two views and potentially identify features that could function as biomarkers indicating an increased risk of developing complications. A comparative analysis of gradient-based kernel CCA (gradKCCA) and sparse CCA based on Hilbert-Schmidt independence criterion (SCCA-HSIC) was conducted utilising data from UK Biobank. For gradKCCA, we considered both linear and polynomial kernels. The findings indicate that both linear gradKCCA and SCCA-HSIC discovered reliable and relevant associations, exhibiting the highest correlation and statistical dependence as measured by Hilbert-Schmidt independence criterion (HSIC). Notably, SCCA-HSIC uncovered weak but relevant relationships that linear gradKCCA did not detect, while polynomial gradKCCA methods exhibited overfitting and failed to identify generalisable associations. All methods highlighted the significance of glycated haemoglobin, an established biomarker linked to diabetes. Furthermore, both linear gradKCCA and SCCA-HSIC identified several established biomarkers associated with specific complications (e.g., creatinine and cystatin C for kidney function), and general diabetes-related biomarkers (e.g., glucose, blood pressure). Additionally, SCCA-HSIC recognised the association between insulin resistance and branched-chain amino acids. This study presents a novel application of gradKCCA and SCCA-HSIC in analysing a large biobank dataset containing multi-view health data. The findings under-score the efficacy of SCCA-HSIC and the importance of ongoing research into the biomarkers to prevent diabetes complications and improve patient outcomes. Future research should address the limitations of the current deflation strategy, which is derived from linear CCA, to enhance non-linear methods. This research has been conducted using the UK Biobank Resource under application number 147811.

Tyypin 2 diabeteksen (T2D) lisääntyvä esiintyvyys aiheuttaa kasvavan kansanterveydellisen huolen. Diabetesta sairastaville kehittyy usein diabetekseen liittyviä komplikaatioita, luoden tarpeen etsiä biomarkkereita, jotka viittaisivat lisääntyneeseen riskiin komplikaatioiden kehittymiselle. Tämä diplomityö tutkii molekyyliriskitekijöiden ja komplikaatioiden kehittymisen välisiä yhteyksiä tyypin 2 diabeetikoilla käyttäen erilaisia kanonisen korrelaatioanalyysin (CCA) variaatioita. Tämä käsittää kahden datanäkymän yhteiskorrelaation: ensimmäinen näkymä sisältää diabeetikoilta mitattua monipuolista terveysdataa (metabolomiikka, kliiniset biokemialliset markkerit, perusverenkuva ja perustiedot) ja toinen näkymä kertoo, kehittyikö heille seurantajakson aikana T2D komplikaatioita (nefropatia, sydäninfarkti, aivohalvaus, neuropatia ja retinopatia). Tutkimuksen tavoitteena on löytää ja erottaa sekä lineaarisia että epälineaarisia yhteyksiä näiden kahden näkymän välillä ja mahdollisesti löytää biomarkkereita, jotka voisivat ennakoida lisääntynyttä riskiä komplikaatioiden kehittymiselle. Tutkimuksessa vertailtiin CCA:n harvaa gradienttipohjaista ydinfunktiolaajennusta (gradKCCA) ja CCA:n harvaa Hilbert-Schmidtin riippumattomuuskriteeriin perustuvaa laajennusta (SCCA-HSIC) käyttämällä UK Biobankin dataa. GradKCCA:lle vertailimme sekä lineaarisia että polynomisia ydinfunktioita. Tulokset osoittavat, että vertailtavista menetelmistä lineaarinen gradKCCA ja SCCA-HSIC löysivät merkityksellisiä yhteyksiä, jotka saivat suurimmat korrelaatio- ja HSIC-arvot. SCCA-HSIC havaitsi myös heikkoja mutta merkityksellisiä yhteyksiä, joita lineaarinen gradKCCA ei havainnut. Polynomiset gradKCCA-menetelmät puolestaan eivät löytäneet yleistettäviä yhteyksiä mahdollisesta ylisovittamisesta johtuen. Kaikki menetelmät korostivat glykatoitunutta hemoglobiinia, joka on vakiintunut diabetesmarkkeri. Lisäksi sekä lineaarinen gradKCCA että SCCA-HSIC tunnistivat useita vakiintuneita biomarkkereita, jotka tutkitusti liittyvät tiettyihin komplikaatioihin (esim. kreatiniini ja kystatiini C munuaistoimintaan) ja yleisesti diabetekseen liittyviä biomarkkereita (esim. glukoosi ja verenpaine). SCCA-HSIC löysi myös insuliini-resistenssin ja haaraketjuisten aminohappojen välisen yhteyden. Tämä tutkimus esittää uudenlaisen sovelluksen gradKCCA- ja SCCA-HSIC -menetelmille, hyödyntäen niitä laajaan biopankkiaineistoon, joka sisältää moninäkymäistä terveysdataa. Tulokset korostavat erityisesti SCCA-HSIC -menetelmän toimivuutta ja jatkuvan tutkimuksen merkitystä korostettujen biomarkkereiden suhteen diabeteksen komplikaatioiden ehkäisemiseksi. Jatkotutkimusten tulisi tutkia nykyisen, lineaarisesta menetelmästä johdetun deflaatiomenetelmän rajoituksia epälineaaristen menetelmien parantamiseksi.

Description

Supervisor

Rousu, Juho

Thesis advisor

Julkunen, Heli

Keywords

canonical correlation analysis, gradKCCA, SCCA-HSIC, biomarkers, diabetes

Other note

Citation