Cancer Detector on Histological Slides Using Semi-Supervised Learning
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-06-13
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
38 + 5
Series
Abstract
There is a growing interest for computer aided diagnosis in the field of pathology. Diagnosing vast amounts of histological samples takes time from physicians. This process can be eased with using machine learning to help doctors diagnose faster, more cost effectively and more accurately. Computer vision has taken huge steps in the last decade. It has outperformed humans in many tasks such as classification. This has been due to growing datasets, processing power and research on the topic. While the availability of data has grown, so has the need to label them. This can become expensive, especially in the medical field. One solution to this problem can be in semi-supervised learning. It uses both labelled and unlabelled data during the training process, and the hope is that the additional data increases the model’s performance. In this work I train and validate semi-supervised deep learning models using histological images of renal cell carcinoma. Two different tasks are trained and validated: One to predict cancer and another to predict cancer relapse. The initial model is trained with labelled data in a supervised manner. Then the trained model is used to pseudo-label unlabelled images, that are in turn used in the semi-supervised training with the original labelled data. The addition of pseudo-labelled data did not increase the models’ performances. In cancer prediction, the supervised model achieved an average of 97.5% for balanced accuracy and 0.991 for AUROC. The semi-supervised models did not reach as high accuracies but did perform similarly and within the range of statistical significance. For relapse prediction the models performed worse. The supervised model received a 72.2% in balanced accuracy and 0.773 in AUROC. Again, almost all of the semi-supervised models produced similar results as the original model, but within the range of statistical significance. The only model to statistically underperform with respect to the rest of the models was the one that was trained with all available data.Tietokoneavusteinen diagnoosi on kasvattanut suosiotaan patologian alalla viime vuosina. Histologisten näytteiden analysointi vie paljon resursseja sekä aikaa lääkäreiltä. Koneoppiminen voi auttaa lääkäreitä tekemään diagnooseja nopeammin, paremmin ja kustannustehokkaammin. Konenäön alalla on tehty suuria harppauksia viimeisen vuosikymmenen aikana. Se on nykyään parempi kuin ihmiset monessa asiassa, kuten kuvien luokittelemisessa. Tämä on johdosta prosessointi kyvyn ja digitaalisten kuvien määrän nopeasta kasvusta sekä tutkimuksen lisääntymisestä alalla. Kun kuvien määrä on noussut, niin on noussut myös tarve niiden luokitteluun. Luokittelu voi olla kallis projekti, etenkin lääketieteessä. Ratkaisu tähän ongelmaan voi piillä osittain ohjatussa oppimisessa (semi-supervised learning). Siinä malli opetetaan sekä jo valmiiksi luokiteltuilla että luokittelemattomilla kuvilla ja toive on, että lisäkuvat parantavat mallin suorituskykyä. Tässä työssä minä opetan ja testaan osittain ohjattuja malleja, käyttäen munuaissyövän histologisia näytteitä opetuskuvina. Kaksi eri joukkoa malleja opetetaan ja testataan: Yksi joukko, joka ennustaa syöpää histologisista näytteistä ja toinen joka ennustaa syövän uusiutumista. Ensimmäiseksi yksi malli opetetaan luokitelluilla kuvilla, jonka jälkeen sitä käytetään luokittelemaan luokittelemattomat kuvat. Näitä kuvia käytetään sen jälkeen toisen mallin opetuksessa alkuperäisten luokiteltujen kuvien rinnalla. Uusien luokiteltujen kuvien lisäys opetukseen ei parantanut mallin suorituskykyä. Syövän ennustuksessa ensimmäinen malli ylsi 97,5 % painotettuun tarkkuuteen ja sai ROC-käyrän pinta-alaksi 0.991. Osittain ohjatut mallit eivät yltäneet yhtä hyviin tarkkuuksiin, mutta saivat melkein yhtä hyviä tuloksia kuin ohjattu malli, ja ne olivat tilastollisesti merkitsevän etäisyyden päässä ohjatusta mallista. Syövän uusiutumisessa mallit toimivat heikommin. Ohjattu malli sai 72,2 % painotetussa tarkkuudessa ja ROC-käyrän pinta-alaksi 0.773. Taaskaan osittain ohjatut mallit eivät parantaneet tuloksia, mutta suurin osa ylsi tilastollisesti merkitsevän etäisyyden päähän ohjatusta mallista. Kun kaikkea dataa käytettiin syövän uusiutumisen ennustamiseen, malli toimi tilastollisesti merkitsevästi huonommin kuin ohjattu malli.Description
Supervisor
Rousu, JuhoThesis advisor
Pohjonen, JoonaKeywords
deep learning, semi-supervised learning, computational histology, renal cell carcinoma