Persistent Homology-based Biological Pattern Classification
No Thumbnail Available
Files
Nordlund_Niko_2024.pdf (2.74 MB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-12-20
Department
Major/Subject
Matematiikka ja systeemitieteet
Mcode
SCI3029
Degree programme
Teknistieteellinen kandidaattiohjelma
Language
en
Pages
28
Series
Abstract
Patterns are ubiquitous in nature and biology, and categorization of visual patterns helps us interpret the world. However, classification is often based on arbitrary taxonomies. A systematic approach to classification is needed, but computational analysis of complex and noisy patterns can be challenging, often resulting in reliance on qualitatively rather than quantitative methods. Diseases such as cancer exhibit different patterns of tissue growth. Their heterogeneity complicates categorization, requiring large datasets and a computational approach. Analysis and classification thus require a mathematical representation of patterns. This thesis investigates the classification of patterns in images based on their topological features. Persistent homology is part of topological data analysis, and it describes the topological features of data, such as holes and connected components. We will present the mathematical background of persistent homology with examples. This includes explaining how data is transformed into algebraic objects with different complexes, the calculation of simplicial homology, and the construction of filtrations. Together, these concepts will lead to the definition of persistent homology. We will also discuss methods to visualize and vectorize persistent homology for practical applications. Additionally, we will present the mathematical background of classification models and image analysis methods used in this thesis. Finally, we will describe a process to classify biological patterns, which was tested on three datasets: a mathematically generated synthetic pattern dataset, a colorectal cancer tissue dataset, and a dataset of ovarian cancer growth patterns. The synthetic dataset was used to study the feasibility of persistent homology in pattern classification. We compared our classifier to previously developed models with the colorectal cancer tissue dataset. Classification of ovarian cancer growth patterns was the main goal of this thesis. In our experiments, we found that the classifier achieved 100\% accuracy on our synthetic pattern dataset. The classifier achieved high performance also in the colorectal cancer tissue and ovarian cancer growth pattern datasets, but further study of growth pattern heterogeneity requires a larger dataset. Based on our findings, persistent homology is suitable for pattern analysis of images.Luonto ja biologia ovat täynnä visuaalisia kuvioita, joiden tutkiminen ja luokittelu parantavat ymmärrystämme maailmasta. Monimutkaisten ja kohinaisten kuvioiden laskennallinen jäsentäminen on kuitenkin usein haastavaa, jolloin niitä voidaan tutkia vain laadullisesti. Tautien, kuten syövän, aiheuttamia muutoksia voidaan tutkia kuvioina, mutta niiden monimuotoisuus tekee kuvioiden luokittelusta haastavaa. Kuvioiden kokonaisvaltainen tutkiminen vaatii suuria tietomääriä ja laskennallista tarkastelutapaa, joten kuvioiden käsittelyyn ja luokitteluun tarvitaan niille matemaattinen esitystapa. Tässä tutkielmassa tarkastellaan kuvissa esiintyviä kuvioita ja niiden topologisia ominaisuuksia. Persistentti homologia (engl. persistent homology) on osa topologista data-analyysia ja kuvaa kokonaisvaltaisesti datan topologisia ominaisuuksia, kuten siinä esiintyviä aukkoja. Työssä esitellään persistentin homologian ja luokittelumallien matemaattinen perusta sekä menetelmien käytännön hyödyntäminen. Työssä käsitellään datan muuntaminen algebralliseen muotoon eri kompleksien avulla, kompleksien topologisten ominaisuuksien määrittäminen homologian avulla ja jonojen muodostaminen komplekseista. Nämä vaiheet johtavat datan persistentin homologian määrittämiseen. Työssä esitellään myös persistentin homologian vektoriesityksiä sen jatkokäsittelyä varten. Persistenttiä homologiaa sovelletaan työssä kuvioiden luokitteluun kolmessa eri aineistossa, joina toimivat matemaattisesti luotu synteettisten kuvioiden kuva-aineisto, kolorektaalisyövän histologinen kuva-aineisto ja munasarjasyövän kasvutapojen histologinen kuva-aineisto. Aineistojen koostaminen ja niiden käsittelyssä käytetyt kuva-analyysin menetelmät selitetään. Synteettinen aineisto toimii persistentin homologian soveltuvuuden selvityksessä. Työssä kehitettyä mallia vertaillaan kirjallisuudessa aiemmin kehitettyihin luokittelumalleihin kolorektaalisyövän kuva-aineiston avulla. Munasarjasyövän kasvutapojen kuva-aineiston luokittelu on työn päätavoite Työssä havaittiin, että luokittelumalli onnistuu täydellisesti synteettisten kuvioiden luokittelussa. Luokittelumalli saavutti myös korkean tarkkuuden kolorektaalisyövän kudosten ja munasarjasyövän kasvutapojen kuva-aineistoissa, mutta kasvutapojen ja niiden monimuotoisuuden jatkotutkimus vaatii suuremman aineiston. Työn tulosten perusteella persistentti homologia soveltuu kuvioiden tutkimiseen kuvissa.Description
Supervisor
Kubjas, KaieThesis advisor
Kubjas, KaieKeywords
persistent homology, pattern recognition, classification, biology, medicine