Image augmentation methods to improve AI training in digital pathology
Loading...
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2023-03-20
Department
Major/Subject
Complex systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
54 + 3
Series
Abstract
Deep learning applications have been extensively used in pathological research. In addition, there is a huge potential in clinical diagnostics where they could speed up analyses of the pathological slides and allow performing analyses that would be nearly impossible to execute manually. However, clinical data is inconsistent, for example, since image color depends on the scanner settings that differ between manufacturers. Deep learning models are accurate only with data that has similar features as the training data. Therefore, it is not certain that the models are accurate on images that are scanned using different digital slide scanners than the training data. In this thesis image augmentation was used in improving generalization of the convolutional neural network in epithelium segmentation. The thesis answers to the question, which augmentation methods are useful in generating more generalized models in this domain. It was also studied how strong augmentation needs to be to get the most accurate model. In addition, adding new scanners to increase the size and variability of the training data was tested to see how it affects the need of augmentation. Different augmentation parameters were tested one by one to discover which parameters improve or impair the accuracy of the model. Finally, all the augmentation methods were applied at once with increasing parameter values to see how combining augmentations affect the accuracy of the model. In this domain the augmentations were able to improve the accuracy of the convolutional neural network. However, too strong augmentation started to impair the accuracy. Domain knowledge is needed when deciding which augmentation methods to use. According to the results it is the most effective to augment features that differ between the data instances. In contrast, the features that are the most consistent between images should not be augmented. Adding more variable data to the training reduced the need of augmentation.Syväoppimisella on valtavasti potentiaalia kliinisessä diagnostiikassa, sillä sen avulla patologisten näytteiden analysointia voidaan nopeuttaa. Syväoppimisen hyödyntämistä vaikeuttaa värisävyn vaihtelu digitoitujen kuvien välillä skannerista ja sen asetuksista riippuen. Syväoppimismallit ovat tarkkoja vain datalle, jolla on samankaltaisia ominaisuuksia kuin opetusdatalla, ja tulokset eivät aina ole luotettavia, jos analysoitavat kuvat on skannattu eri skannerilla kuin opetuskuvat. Väärät tulokset kliinisessä käytössä voivat pahimmassa tapauksessa johtaa virheelliseen diagnoosiin. Tutkimuksessa pyrittiin parantamaan kuva-augmentaation avulla konvoluutioneuroverkon yleistymistä epiteelialueiden luokittelussa eri skannereilla tuotettujen kuvien välillä. Tutkimus selvittää, mitkä augmentaatiomenetelmät parantavat tulosten tarkkuutta ja mitkä heikentävät. Lisäksi tutkittiin, kuinka vahvasti opetusdataa täytyy agmentoida, jotta tarkkuus saadaan optimoitua. Tutkimuksessa testattiin myös uusien skannerien lisäämistä opetusdataan, jotta nähtiin, miten datan lisääminen ja monipuolistaminen vaikuttaa augmentaatioon. Augmentaatiomenetelmiä testattiin aluksi yksitellen, jotta saatiin selville, mitkä parametrit parantavat ja mitkä heikentävät neuroverkon oppimista. Lopuksi testattiin kaikkien augmentaatiomenetelmien yhdistämistä. Tutkimuksen mukaan augmentaatioiden avulla voidaan parantaa neuroverkon yleistymistä skannereiden välillä. Lisäksi havaittiin liian voimakkaan augmentaation heikentävän tuloksia. Sopivia augmentaatiomenetelmiä valittaessa vaaditaan datan tuntemusta, sillä tutkimuksen tulosten mukaan tehokkainta on augmentoida ominaisuuksia, jotka eroavat kuvien välillä. Tällöin neuroverkko joutuu käyttämään johdonmukaisempia ominaisuuksia alueiden tunnistamiseen. Sen sijaan ominaisuuksia, jotka eivät eroa kuvien välillä, ei kannata augmentoida. Uusien skannerien lisäämisen opetusdataan havaittiin vähentävän augmentaation merkitystä.Description
Supervisor
Saramäki, JariThesis advisor
Reunanen, JuhaKeywords
deep learning, image augmentation, digital pathology, histopathology