Predicting Drug Bioactivities from Tandem Mass Spectra

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Authors

Jägerroos, Vilma

Date

2019-06-17

Department

Major/Subject

Bioinformatics and Digital Health

Mcode

SCI3092

Degree programme

Master’s Programme in Life Science Technologies

Language

en

Pages

68+2

Series

Abstract

Natural products have been the single most productive source of lead compounds for the modern drug development. In traditional drug discovery from natural products, concentrated extracts prepared from, e.g., plant samples were screened to determine their bioactivity. These extracts are complicated mixtures. Thus, a signal from the screening assay may be confounded, e.g., by synergistic effects of several compounds. However, isolating each compound from the extract prior to the screening would be inefficient when a large number of samples are screened. Structures of compounds in a natural product sample are unknown in advance. Analytical methods, such as tandem mass spectrometry (MS/MS), are used to identify the constituents of the samples in almost every stage of the drug discovery process from natural products. We argue that predicting bioactivities based on MS/MS spectra could be used to prioritize the most promising samples for further experimental testing. We introduce two machine learning pipelines to predict bioactivities from MS/MS spectra. First, we predict bioactivities directly from MS/MS spectra. Second, we train a model to identify an unknown compound based on its MS/MS spectrum and another model to predict bioactivities given a compound with known structure. In the testing phase, structure predicted from an MS/MS spectrum is used to predict bioactivities. In the first pipeline, only drugs which have both MS/MS spectrum and bioactivities available can be used in the training. However, the overlap of MS/MS and bioactivity datasets is limited. Advantage of the second approach is its ability to use drugs which have either MS/MS spectrum or bioactivities available in the training. We show that the second approach results in more accurate predictions compared to the first approach. Additionally, we show that we can a build predictive model even in case there is no overlap of the drugs in the MS/MS and the bioactitivity datasets which is not possible with the first approach.

Luonnontuotteet ovat olleet kaikkein tuottoisin johtolankamolekyylien lähde modernissa lääkekehityksessä. Perinteisessä luonnontuotteisiin perustuvassa lääkekehityksessä näytteistä valmistettuja tiivistettyjä uutteita seulottiin niiden biologisen aktiivisuuden määrittämiseksi. Koska uutteet ovat monimutkaisia seoksia, bioaktiivisuuden määrittämistä häiritsevät esimerkiksi usean molekyylin yhteisvaikutukset. Suuria näytemääriä seulottaessa olisi kuitenkin tehotonta eristää kaikki molekyylit näytteistä ennen seulontaa. Luonnontuotteen sisältämien molekyylin rakenteita ei tunneta etukäteen. Analyyttisia menetelmiä, kuten tandemmassaspektrometriaa (MS/MS), käytetään molekyylien tunnistamiseksi lähes kaikissa luonnontuotteisiin perustuvan lääkekehityksen vaiheissa. Esitämme, että bioaktiisuuksien ennustamista MS/MS spekristä voisi käyttää kaikkein lupaavimpien näytteiden priorisoimiseen kokeellista testaamista varten. Esittelemme kaksi koneoppimismallia bioaktiivisuuksien ennustamiseksi MS/MS spekristä. Ensiksi, ennustamme bioaktiivisuuksia suoraan MS/MS spektreistä. Toiseksi, koulutamme mallin, joka ennustaa molekyylin rakenteen sen MS/MS spektrin perusteella, ja toisen mallin, joka ennustaa bioaktiisuudet tunnetun rakenteen perusteella. Testivaiheessa ennustettua rakennetta käytetään bioaktiivisuuksien ennustamiseen. Vain lääkkeitä, joille on mitattu sekä MS/MS spektri että bioaktiivisuudet, voidaan käyttää ensimmäisen mallin kouluttamiseen. Lääkkeitä, joille on saatavilla sekä MS/MS spektri että bioaktiivisuudet, on kuitenkin hyvin vähän. Toisen mallin etu on, että se voi käyttää kouluttamiseen myös niitä lääkkeitä, joille on mitattu vain joko MS/MS spektri tai bioaktiivisuus. Näytämme, että toinen malli ennustaa bioaktiivisuuksia suuremmalla tarkkuudella kuin ensimmäinen malli. Lisäksi voimme rakentaa ennustavan mallin siinäkin tilanteessa, kun sellaisia lääkkeitä ei ole, joille olisi saatavilla sekä MS/MS spektri että bioaktiivisuudet. Tässä tapauksessa ensimmäisen mallin rakentaminen ei ole mahdollista.

Description

Supervisor

Rousu, Juho

Thesis advisor

Bach, Eric

Keywords

machine learning, drug bioactivity, tandem mass spectrometry, natural products

Other note

Citation