Hierarchical annotation of single cell RNA sequencing data using large language models

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

53

Series

Abstract

This thesis investigates whether hierarchical clustering combined with large language models (LLMs) can improve cell type annotation in single-cell RNA sequencing (scRNA-seq) data. To this end, a pipeline named GPTree was developed. It implements recursive clustering followed by LLM-based interpretation of cluster marker genes, mimicking the hierarchical approach commonly used in manual annotation. GPTree was compared to GPTCelltype, an LLM-based annotation method, and SingleR, a reference-based tool, across multiple human tissue datasets. The performance was evaluated using accuracy scoring and match type percentages. Parameter sensitivity analysis confirmed the stability of the clustering algorithm. The results show that GPTree achieves similar or improved accuracy compared to GPTCelltype, particularly at broad cell type levels, and outperforms SingleR in most cases. These findings suggest that recursive clustering combined with LLM-based annotation offers a biologically intuitive and effective approach for automated cell type identification.

Tässä työssä tutkittiin, parantaako hierarkinen klusterointimenetelmä suurten kielimallien (LLM) tuottamia solutyyppiannotaatioita yksisolusekvensointidatassa. Tutkimus suoritettiin laatimalla GPTree-niminen menetelmä. Se hyödyntää rekursiivista klusterointia, sekä suurta kielimallia klusterien markkerien tulkitsemiseen ja annotaatioon. Tämä lähestymistapa mimikoi yleisesti manuaalisessa annotaatiossa käytettyä hierarkista menetelmää. GPTree:tä verrattiin GPTCelltype:en, joka on myös suuriin kielimalleihin perustuva annotaatiotyökalu, sekä SingleR:ään, joka perustuu referenssidataan. Vertailussa käytettiin useita yksisolusekvensointidatasettejä erilaisista ihmiskudoksista. GPTree:n suorituskykyä arvioitiin käyttämällä tarkkuuspisteytystä sekä vastaavuusluokkia. Lisäksi herkkyysanalyysissä tarkasteltiin klusterointiparametrien vaikutusta tuloksiin. Tulokset osoittivat, että GPTree saavuttaa samankaltaisen tai paremman tarkkuuden kuin GPTCelltype erityisesti laajojen solutyyppien tasolla ja päihittää useimmiten SingleR:n. Tulokset viittaavat siihen, että rekursiivinen klusterointi yhdistettynä LLM-pohjaiseen annotaatioon tarjoaa biologisesti intuitiivisen ja tehokkaan lähestymistavan solutyyppien automaattiseen tunnistamiseen.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Laakso, Sini

Other note

Citation