Integrating multi-tube flow cytometry data via deep generative modelling

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2020-08-17

Department

Major/Subject

Complex Systems

Mcode

SCI3060

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

50+11

Series

Abstract

Flow cytometry has been used for several decades to quantitatively analyse single cells in a high-throughput manner. This has resulted in a wide range of medical and biological applications. For example in immunology, flow cytometry data analysis identifies populations of immune cells based on cellular marker expression. As a consequence, flow cytometry has established itself as one of the main instruments in the diagnosis, monitoring and classification of leukemias, human immunodeficiency virus (HIV), and other diseases. State-of-the-art flow cytometers allow the detection of more than 20 cellular parameters, but the instruments used in clinical practice usually have much more limited capabilities. Thus, flow cytometry samples are often split into separate tubes with varying marker combinations to increase the number of measurable markers. However, this poses challenges to the analysis of flow cytometry data because the data from multiple tubes must be integrated while preserving the original biological information. Currently, most of the computational analysis techniques are not able to handle this kind of multi-tube flow cytometry data. In this work, we develop a deep generative modelling framework to enable simultaneous integration, clustering, and visualization of such data. We show that the model, named fcmVI, successfully discovers a latent representation of the cell types from flow cytometry data. Furthermore, we show that the fcmVI model can be used to align multiple tubes originating from the same sample in the latent space. The model is applied to two different data sets from mouse immune cells and human acute myeloid leukemia (AML) samples. In addition, the model enables the imputation of missing marker values for each tube, which is demonstrated on both data sets and the results are compared to nearest neighbor imputation.

Virtaussytometria on mahdollistanut yksittäisten solujen kvantitatiivisen mittaamisen jo vuosikymmenien ajan, ja sillä onkin useita biologisia ja lääketieteellisiä sovelluksia. Esimerkiksi immunologiassa virtaussytometriaa käytetään immuunisolupopulaatioden tunnistamiseen solujen markkeriekspression avulla. Monien hyvien puoliensa ansiosta virtaussytometria on vakiinnuttanut itsensä yhtenä tärkeimmistä tutkimusinstrumenteista mm. leukemian diagnosoinnissa, monitoroinnissa ja luokittelussa. Uusimmat virtaussytometrit pystyvät mittaamaan yli 20 parametriä soluista, mutta useimmat kliinisessä käytössä olevat laitteet mittaavat yleensä vain 8-10 parametriä. Siksi solunäytteet on usein jaettu erillisiin alinäytteisiin eli ’putkiin’. Kustakin alinäytteestä mitataan osittain eri parametrejä, jolloin saadaan lisättyä mitattujen parametrien määrää koko näytteessä. Tämä asettaa kuitenkin haasteita virtaussytometriadatan analysoinnille, koska alinäytteet on yhdistettävä biologisesti merkityksellisellä tavalla. Tällä hetkellä useimmat laskennalliset menetelmät virtaussytometriadatan analysoimiseksi eivät pysty huomioimaan tällaista dataa. Tässä työssä kehitämme syviin generatiivisiin malleihin perustuvan menetelmän, joka mahdollistaa virtaussytometria-alinäytteiden yhdistämisen, klusteroinnin ja visualisoinnin. Kehitettyä mallia, nimeltään fcmVI, voidaan käyttää samasta biologisesta näytteestä tulevien putkien yhdistämiseen latentissa avaruudessa. Tässä työssä sovellamme mallia kahteen eri aineistoon, joista toinen koostuu hiiren immuunisoluista ja toinen akuutin myelooisen leukemian (AML) näytteistä. Mallia voidaan myös käyttää puuttuvien markkerien imputoimiseen jokaisessa putkessa. Havainnollistamme imputointia kummallakin aineistolla sekä vertaamme tuloksia lähimmän naapurin interpolaatiomenetelmään.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Timonen, Juho

Keywords

flow cytometry, neural networks, generative modelling, variational autoencoder, adversarial learning

Other note

Citation