Random forest classification for annotation of malignant cells in AML patients

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Major/Subject

Mcode

Language

en

Pages

125

Series

Abstract

Automated methods for detecting malignant and healthy cells in patients with acute myeloid leukemia (AML) could enhance AML research workflows. Van Galen et al. introduced a random forest pipeline for identifying malignant cells from single-cell RNA sequencing (scRNA-seq) data in their patient cohort. In this thesis, various random forest pipelines were trained and tested to improve performance and assess the generalizability of the method. Numerical and visual analyzes revealed that the best-performing pipeline combined four datasets and applied batch correction using single-cell variational inference (scVI). This model achieved an average test sensitivity of 73.0\% and a specificity of 92.3\%. However, when considering numerical performance alone, the highest-performing model was a binary classifier trained on a single AML dataset, which reached an average test sensitivity of 91.6\% and specificity of 92.9\%.

Akuuttia myelooista leukemiaa (AML) sairastavien potilaiden pahanlaatuisten ja terveiden solujen tunnistaminen koneoppivilla menetelmillä voisi tehostaa AML-tutkimusta. Van Galen et al. esittelivät satunnaismetsäluokittelijan pahanlaatuisten solujen tunnistamiseen yksisolu-RNA-sekvensointidatasta (scRNA-seq) heidän potilasaineistossaan. Tässä diplomityössä koulutettiin ja arvioitiin useita satunnaismetsämenetelmiä luokittelijan suorituskyvyn parantamiseksi ja yleistävyyden arvioimiseksi. Numeerisen ja visuaalisen arvioinnin perusteella parhaiten suoriutui malli, jonka koulutukseen integroitiin neljä aineistoa scVI-menetelmää hyödyntäen. Mallin testisensitiivisyyden keskiarvo oli 73.0 \% ja testispesifisyyden keskiarvo 92.3 \%. Pelkästään numeerisen analyysin perusteella parhaiten suoriutunut malli oli binääriluokitin, joka oli koulutettu yhdellä AML-aineistolla. Binääriluokittimen testisensitiivisyyden keskiarvo oli 91,6 \% ja testispesifisyyden keskiarvo 92,9 \%.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Laajala, Essi

Other note

Citation