Generating molecules for personalized medicine using reinforcement learning

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

60

Series

Abstract

Traditional drug development follows a one-size-fits-all approach, which often neglects individual variability in drug response. Transitioning to a personalized model could improve the effectiveness of treatments while minimizing costs and adverse effects. While reinforcement learning has achieved breakthroughs in drug discovery, most existing approaches focus on general-purpose drug design. This work, however, focuses on patient-specific optimization by generating molecules tailored to an individual patient, specifically a 30-year-old male HIV-patient. To achieve this, an effectiveness prediction model and a reinforcement learning system were developed using PyTorch. The agent was trained to generate molecules optimized for effectiveness and binding affinity to HIV-1 protease using Proximal Policy Optimization. The results reveal that while the agent successfully produces chemically valid molecules with high predicted effectiveness, it fails to achieve strong binding affinity to HIV-1 protease and often generates compounds with poor drug-likeness. These findings highlight that while there is potential, extensive fine-tuning, particularly in the architecture and reward function, is required to achieve successful outcomes with patient-specific reinforcement learning.

Lääkkeet kehitetään perinteisesti keskivertoihmiselle ottamatta huomioon yksilöllisiä eroja lääkevasteessa. Yksilöllistettyyn lääkekehitykseen siirtyminen voisi lisätä hoitojen tehokkuutta vähentäen samalla niiden kuluja ja haittavaikutuksia. Vaikka vahvistusoppiminen on viime vuosina saavuttanut läpimurtoja lääkekehityksessä, keskittyvät useimmat tutkimukset edelleen perinteiseen kehitysmalliin. Tämä työ keskittyy yksilöllistettyyn lääkekehitykseen generoimalla molekyylejä jotka on räätälöity 30-vuotiaalle miespuoliselle HIV-potilaalle. Vahvistusoppimismallin agentti koulutettiin tuottamaan molekyylejä, joilla olisi korkea ennustettu tehokkuus ja sitoutumisaffiniteetti HIV-1 proteaasiin Proksimaalisella päätöksenoptimointimenetelmällä (Proximal Policy Optimization). Tulokset osoittavat, että vaikka agentti onnistuu tuottamaan kemiallisesti valideja ja potilaalle tehokkaita molekyylejä, ne eivät sitoudu vahvasti HIV-1 proteeasiin eikä niiden lääkemäisyys (Quantitative Estimate of Drug-likeness) ole hyvä. Nämä tulokset korostavat yksilöllistetyn vahvistusoppimisen potentiaalin, vaikkakin menetelmä vaatii merkittävää hienosäätöä, erityisesti sen rakenteen ja palkintofunktion osalta, tavoiteltujen tulosten saavuttamiseksi.

Description

Supervisor

Lähdesmäki, Harri

Thesis advisor

Andres, Frederic

Other note

Citation