Predicting Drug Bioactivities from Tandem Mass Spectra

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2019-06-17
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
68+2
Series
Abstract
Natural products have been the single most productive source of lead compounds for the modern drug development. In traditional drug discovery from natural products, concentrated extracts prepared from, e.g., plant samples were screened to determine their bioactivity. These extracts are complicated mixtures. Thus, a signal from the screening assay may be confounded, e.g., by synergistic effects of several compounds. However, isolating each compound from the extract prior to the screening would be inefficient when a large number of samples are screened. Structures of compounds in a natural product sample are unknown in advance. Analytical methods, such as tandem mass spectrometry (MS/MS), are used to identify the constituents of the samples in almost every stage of the drug discovery process from natural products. We argue that predicting bioactivities based on MS/MS spectra could be used to prioritize the most promising samples for further experimental testing. We introduce two machine learning pipelines to predict bioactivities from MS/MS spectra. First, we predict bioactivities directly from MS/MS spectra. Second, we train a model to identify an unknown compound based on its MS/MS spectrum and another model to predict bioactivities given a compound with known structure. In the testing phase, structure predicted from an MS/MS spectrum is used to predict bioactivities. In the first pipeline, only drugs which have both MS/MS spectrum and bioactivities available can be used in the training. However, the overlap of MS/MS and bioactivity datasets is limited. Advantage of the second approach is its ability to use drugs which have either MS/MS spectrum or bioactivities available in the training. We show that the second approach results in more accurate predictions compared to the first approach. Additionally, we show that we can a build predictive model even in case there is no overlap of the drugs in the MS/MS and the bioactitivity datasets which is not possible with the first approach.

Luonnontuotteet ovat olleet kaikkein tuottoisin johtolankamolekyylien lähde modernissa lääkekehityksessä. Perinteisessä luonnontuotteisiin perustuvassa lääkekehityksessä näytteistä valmistettuja tiivistettyjä uutteita seulottiin niiden biologisen aktiivisuuden määrittämiseksi. Koska uutteet ovat monimutkaisia seoksia, bioaktiivisuuden määrittämistä häiritsevät esimerkiksi usean molekyylin yhteisvaikutukset. Suuria näytemääriä seulottaessa olisi kuitenkin tehotonta eristää kaikki molekyylit näytteistä ennen seulontaa. Luonnontuotteen sisältämien molekyylin rakenteita ei tunneta etukäteen. Analyyttisia menetelmiä, kuten tandemmassaspektrometriaa (MS/MS), käytetään molekyylien tunnistamiseksi lähes kaikissa luonnontuotteisiin perustuvan lääkekehityksen vaiheissa. Esitämme, että bioaktiisuuksien ennustamista MS/MS spekristä voisi käyttää kaikkein lupaavimpien näytteiden priorisoimiseen kokeellista testaamista varten. Esittelemme kaksi koneoppimismallia bioaktiivisuuksien ennustamiseksi MS/MS spekristä. Ensiksi, ennustamme bioaktiivisuuksia suoraan MS/MS spektreistä. Toiseksi, koulutamme mallin, joka ennustaa molekyylin rakenteen sen MS/MS spektrin perusteella, ja toisen mallin, joka ennustaa bioaktiisuudet tunnetun rakenteen perusteella. Testivaiheessa ennustettua rakennetta käytetään bioaktiivisuuksien ennustamiseen. Vain lääkkeitä, joille on mitattu sekä MS/MS spektri että bioaktiivisuudet, voidaan käyttää ensimmäisen mallin kouluttamiseen. Lääkkeitä, joille on saatavilla sekä MS/MS spektri että bioaktiivisuudet, on kuitenkin hyvin vähän. Toisen mallin etu on, että se voi käyttää kouluttamiseen myös niitä lääkkeitä, joille on mitattu vain joko MS/MS spektri tai bioaktiivisuus. Näytämme, että toinen malli ennustaa bioaktiivisuuksia suuremmalla tarkkuudella kuin ensimmäinen malli. Lisäksi voimme rakentaa ennustavan mallin siinäkin tilanteessa, kun sellaisia lääkkeitä ei ole, joille olisi saatavilla sekä MS/MS spektri että bioaktiivisuudet. Tässä tapauksessa ensimmäisen mallin rakentaminen ei ole mahdollista.
Description
Supervisor
Rousu, Juho
Thesis advisor
Bach, Eric
Keywords
machine learning, drug bioactivity, tandem mass spectrometry, natural products
Other note
Citation