Flexible Bayesian latent variable modeling of interacting processes in healthcare time-series

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Doctoral thesis (article-based) | Defence date: 2025-05-14

Date

Major/Subject

Mcode

Degree programme

Language

en

Pages

78 + app. 76

Series

Aalto University publication series Doctoral Theses, 99/2025

Abstract

The increasing availability of healthcare time-series data has highlighted the need for advanced methods to model interacting processes, which are central to understanding complex patient dynamics. These interactions manifest in diverse applications, from metabolic regulation, such as the interplay between glucose and insulin levels, to the dynamics of pathogen colonization across multiple body sites. This thesis develops novel computational methods to address the challenges of modeling such interacting processes, focusing on scalability, flexibility, and the ability to capture both individual- and population-level dynamics. The first contribution of this work is a new formulation of interactions in Coupled Hidden Markov Models (CHMMs) that enables more complex dependencies between processes while maintaining interpretability. Secondly, a new inference algorithm is introduced for CHMMs, which 1) significantly improves computational efficiency and scales to higher dimensional datasets and 2) allows more complex modeling, namely a mixture of CHMMs (M-CHMM), incorporating heterogeneity among patients. The third contribution involves the development of a Sparse Kalman Filter tailored for physical interacting dynamical systems, which is evaluated against state-of-the-art diffusion models to provide insights into efficiency and accuracy trade-offs. The fourth contribution extends Multi-Output Gaussian Processes (MOGPs) by developing a Hierarchical MOGP (HMOGP) framework, which models continuous processes while capturing individual-specific deviations from populationlevel trend. This framework is particularly suited for applications like postprandial glucose-insulin dynamics. Through the modeling of these innovations, this thesis bridges the gap between traditional methods and the complex requirements of modern healthcare data. The proposed methods are validated on real-world datasets, including MRSA colonization dynamics and post-bariatric surgery glucoseinsulin responses. The results demonstrate significant improvements in scalability, accuracy, and interpretability, offering robust tools for advancing personalized medicine and population-level epidemiological insights.

Terveydenhuollon aikasarjatietojen lisääntynyt saatavuus on korostanut kehittyneiden laskennallisten menetelmien tarvetta vuorovaikutteisten prosessien mallintamiseen, mikä on keskeistä potilaan tilan monimutkaisen dynamiikan ymmärtämisessä. Vuorovaikutteisia prosesseja ilmenee erilaisissa sovelluksissa aineenvaihdunnan säätelystä, kuten glukoosi- ja insuliinitasojen välisestä vuorovaikutuksesta, tauteja aiheuttavien patogeenien kolonisaation dynamiikkaan kehon eri osien välillä. Tämä opinnäytetyö kehittää uusia laskennallisia menetelmiä vastaamaan tämänkaltaisten vuorovaikutteisten prosessien mallintamisen haasteisiin keskittyen laskennan tehokkuuteen, mallien joustavuuteen sekä kykyyn mallintaa sekä yksilö- että populaatiotason dynamiikkaa. Tämän työn ensimmäinen osa on uusi muotoilu vuorovaikutusten mallinnukseen käyttäen riippuvia piilo-Markov malleja (Coupled Hidden Markov Model, CHMM), mikä mahdollistaa prosessien väliset monimutkaiset riippuvuudet säilyttäen kuitenkin mallin tulkittavuuden. Toiseksi CHMM:ille otetaan käyttöön uusi päättelyalgoritmi, joka 1) parantaa merkittävästi laskennan tehokkuutta ja skaalautuvuutta korkeampiulotteisiin aikasarjoihin ja muuttujiin sekä 2) mahdollistaa monimutkaisempien mallien, kuten sekoitemallin (Mixture of Coupled Hidden Markov Models, MCHMM) käyttämisen, joka huomioi erilaiset potilasryhmät. Kolmas osa sisältää vuorovaikutteisille dynaamisille fysikaalisille järjestelmille räätälöidyn harvan Kalman -suodattimen, jota verrataan diffuusiomalleihin laskennallisen tehokkuuden ja tulosten tarkkuuden näkökulmasta. Neljäs osa laajentaa Multi-Output Gaussian Process (MOGP) -mallia kehittämällä hierarkkisen MOGP (HMOGP) -version, joka mallintaa jatkuvia prosesseja samalla huomioiden yksilökohtaiset poikkeamat populaatiotason trendeistä. Tämä malli soveltuu esimerkiksi aterian jälkeisen glukoosija insuliinivasteen mallintamiseen. Näiden uusien mallien ja menetelmien avulla tämä opinnäytetyö täydentää perinteisiä menetelmiä siten, että ne soveltuvat monimutkaisten nykyaikaisten terveydenhuollon aineistojen mallintamiseen. Ehdotetut menetelmät on validoitu aidoilla terveydenhuollon aineistoilla, mukaan lukien MRSA-bakteerin kolonisaatiodynamiikkaa ja lihavuusleikkauksen vaikutusta ruokailun jälkeisiin glukoosi- ja insuliinivasteisiin koskevilla aineistoilla. Tulokset osoittavat merkittäviä parannuksia skaalautuvuuden, tarkkuuden ja tulkittavuuden suhteen, joten työ tarjoaa tehokkaita työkaluja niin henkilökohtaisen lääketieteen kuin väestötason epidemiologisen tutkimuksen ymmärryksen lisäämiseen.

Description

Supervising professor

Marttinen, Pekka, Assoc. Prof., Aalto University, Department of Computer Science, Finland

Thesis advisor

Marttinen, Pekka, Assoc. Prof., Aalto University, Department of Computer Science, Finland

Other note

Parts

  • [Publication 1]: Onur Poyraz, Mohamad RA Sater, Loren G Miller, James A McKinnell, Susan S Huang, Yonatan H Grad, and Pekka Marttinen. Modelling methicillin-resistant Staphylococcus aureus decolonization: interactions between body sites and the impact of site-specific clearance. Journal of the Royal Society Interface, 19, 191, 20210916, May 2022.
    DOI: 10.1098/rsif.2021.0916 View at publisher
  • [Publication 2]: Onur Poyraz, and Pekka Marttinen. Mixture of Coupled HMMs for Robust Modeling of Multivariate Healthcare Time Series. In Proceedings of the 3rd Machine Learning for Health Symposium, Proceedings of Machine Learning Research (PMLR) 225, 461–479, December 2023.
  • [Publication 3]: Katsiaryna Haitsiukevich, Onur Poyraz, Pekka Marttinen, and Alexander Ilin. Diffusion models as probabilistic neural operators for recovering unobserved states of dynamical systems. In 2024 IEEE 34th International Workshop on Machine Learning for Signal Processing (MLSP), September 2024.
    DOI: 10.1109/MLSP58920.2024.10734762 View at publisher
  • [Publication 4]: Onur Poyraz, Sini Heinonen, S T John, Tuure Saarinen, Anne Juuti, Pekka Marttinen, and Kirsi H. Pietiläinen. Computational modeling enables individual assessment of postprandial glucose and insulin responses after bariatric surgery. Submitted to Communications Medicine, November 2024.

Citation