Standardizing electronic health records in order to advance secondary use of hospital data lakes - A case study on HUS data lake

No Thumbnail Available

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-03-21

Department

Major/Subject

Bioinformatics and Digital Health

Mcode

SCI3092

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

66 + 8

Series

Abstract

Healthcare data that is collected from patients outside controlled clinical trials is called real-world data. The real-world data is a powerful tool to utilize for example in drug development as it can reduce the ethical concerns, bring in more diversity and even lower the cost and time spent for a study. Using real-world data in practice can sometimes be difficult due to the lack of standards in real-world data structure and content. In the thesis, real-world data from the Hospital District of Helsinki and Uusimaa data lake was harmonized into the Observational Medical Outcomes Partnership (OMOP) common data model (CDM). The original data set includes data from over 900,000 patients in 6 different tables, containing nearly 340 million variables. The harmonization was performed using bash scripts. Altogether 6 main scripts were designed, each taking one original data table as input and outputting the data in OMOP CDM. Additional mapping files and a script were also utilized in the process. When transfer-ring data into the OMOP CDM, one should especially focus on mapping the original data content into the correct, standard OMOP concepts that belong to the correct domain. Real-world data standardization is important, because if majority of the data providers would be using the same data model, the easier, faster, and more effortless would it be to combine, compare and analyze data coming from multiple systems. In the thesis, a large set of data from a hospital data lake was harmonized into the OMOP CDM because using a standard format increases the data value, data quality and makes it more suitable for different secondary use purposes. The more real-world data sources would be standardized, the more we could actually utilize the data to enhance people’s well-being everywhere in the world.

Potilasdataa, joka ei ole peräisin kliinisistä kokeista, kutsutaan tosielämän dataksi (engl. real-world data). Tosielämän dataa voidaan hyödyntää muun muassa lääkekehityksessä, sillä sen avulla on mahdollista vähentää lääkekehitykseen liittyviä eettisiä ongelmia, lisätä tutkimuksen monimuotoisuutta sekä vähentää tutkimukseen kuluvaa aikaa ja kustannuksia. Tosielämän datan rakennetta tai sisältöä määritteleviä standardeja ei juurikaan käytetä, mikä tekee datan hyödyntämisestä käytännössä usein hankalaa. Tässä diplomityössä suuri määrä tosielämän dataa Helsingin ja Uudenmaan sairaanhoitopiirin tietoaltaasta harmonisoitiin Observational Medical Outcomes Partnership (OMOP) yhtenäiseen datamalliin. Alkuperäinen data on peräisin yli 900 000 potilaasta ja on jaettu kuuteen erilliseen datatauluun, sisältäen lähes 340 miljoonaa muuttujaa. Datan harmonisointi toteutettiin komentoriviskripteillä. Yhteensä työssä suunniteltiin kuusi keskeistä skriptiä, joista jokainen muuntaa yhden alkuperäisen datataulun OMOP yhtenäiseen datamalliin. Lisäksi apuna käytettiin erillisiä mapping-tiedostoja sekä -skriptiä helpottamaan datan sisällön muuntamista. Kun tosielämän dataa harmonisoidaan OMOP datamalliin, tulee erityistä huomiota kiinnittää oikeiden standardikonseptien löytämiseen oikeista OMOP domaineista. Näiden standardikonseptien tulisi vastata alkuperäisen datan sisältöä ja merkitystä. Tosielämän datan standardisointi on tärkeää, sillä mikäli suurin osa datan tuottajista käyttäisi samaa, standardia datamallia, olisi datan yhdistely eri lähteistä sekä sen analysointi ja vertailu helpompaa ja nopeampaa kuin nyt. Diplomityössä sairaalan tietoaltaasta peräisin oleva data harmonisoitiin OMOP datamalliin, sillä standardin käyttäminen parantaa datan laatua ja lisää sen arvoa sekä toisiokäyttömahdollisuuksia. Mitä enemmän tosielämän dataa standardoitaisiin, sitä enemmän sitä voitaisiin hyödyntää ihmisten hyvinvoinnin edistämiseen ympäri maailmaa.

Description

Supervisor

Lillrank, Paul

Thesis advisor

Törnwall, Outi
Tenhunen, Henni

Keywords

real-world data, real-world evidence, data standard, cmmon data model, OMOP

Other note

Citation