Gathering a demographically diverse MRI dataset for training artificial intelligence algorithms

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

66

Series

Abstract

Artificial intelligence algorithms have been trained to analyze medical images, such as MRI, to help the clinical or research workflow of professionals. The algorithms require training that can be performed with real MRI data. The most important aspect in training algorithms for medical image analysis is the quality and diversity of the data. In most cases, the training data consists of demographically homogenous data, where majorities are overrepresented and minorities underrepresented. The goal of this thesis is to find a dataset of demographically heterogeneous MRI scans that could be used for training artificial intelligence algorithms. This study employs a qualitative and quantitative approach to validate the demographic diversity of the gathered dataset. The data was collected from six different initiatives, including MRI in DICOM or NIfTI format and corresponding metadata. The data was accumulated based on the availability following demographic attributes in the metadata: age, sex, race, and ethnicity. Within the data gathered, a sampling method was applied to obtain a smaller subset that could be used as a test set for an existing neural network based localization algorithm. Stratified sampling was selected for this study due to its ability to avoid overrepresenting majorities and underrepresenting minorities. The stratification was done based on the demographic attributes. The stratified sample consisted of unique instances with all the possible demographic combinations. All demographic attributes were represented and the unique instances were used to test the segmentation algorithm's performance. Each image was given to the algorithm and based on the performance, each image was classified. The classification process showed that the algorithm has difficulties when demographic metadata differ from those in the original training data.

Tekoälyalgoritmeja on koulutettu analysoimaan lääketieteellisiä kuvia, kuten MRI:tä, auttamaan ammattilaisten kliinistä tai tutkimustyötä. Algoritmit vaativat koulutusta, joka voidaan suorittaa aidolla MRI-datalla. Lääketieteellisten kuvien analysointialgoritmeille tärkeää on datan laatu ja monipuolisuus. Useimmissa tapauksissa koulutusdata koostuu demografisesti homogeenisesta datasta, jossa enemmistöt ovat yliedustettuina ja vähemmistöt aliedustettuina. Tämän opinnäytetyön tavoitteena on löytää demografisesti heterogeeninen MRI-aineisto, jota voitaisiin käyttää tekoälyalgoritmien kouluttamiseen. Tässä tutkimuksessa käytetään niin laadullista kuin määrällistä lähestymistapaa kerätyn datan demografisen monipuolisuuden validoimiseksi. Data kerättiin kuudesta eri tutkimusaloitteesta ja data koostuu DICOM- tai NIfTI-muodossa olevista MRI-kuvista ja niitä vastaavasta metadatasta. Data kerättiin seuraavien metatiedon demografisten ominaisuuksien saatavuuden perusteella: ikä, sukupuoli, rotu ja etninen alkuperä. Kerättyyn dataan käytettiin otantamenetelmää pienemmän osajoukon saamiseksi, mitä voitaisiin käyttää olemassa olevan neuroverkkoihin pohjautuvan paikannusalgoritmin testijoukona. Tähän tutkimukseen valittiin ositettu otanta, koska sillä pystyttiin välttämään enemmistön yliedustamista ja vähemmistöjen aliedustusta. Ositus tehtiin demografisten ominaisuuksien perusteella. Ositettu otos koostui uniikeista tapauksista ja muodostui kaikista mahdollisista demografisista yhdistelmistä, joita datasta pystyi tekemään. Kaikki demografiset ominaisuudet olivat edustettuina ja näitä uniikkeja esiintymiä käytettiin paikannusalgoritmin suorituskyvyn testaamiseen. Jokainen kuva syötettiin algoritmille ja suorituskyvyn perusteella jokainen kuva luokiteltiin. Luokitteluprosessi osoitti, että algoritmilla on vaikeuksia kun demografiset metatiedot eroavat alkuperäisen koulutusdatan tiedoista.

Description

Supervisor

Kannala, Juho

Thesis advisor

Järnefelt, Gustaf
Pölönen, Harri

Other note

Citation