Connecting Secondary Metabolites and Biosynthetic Gene Clusters

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2021-08-23
Department
Major/Subject
Bioinformatics and Digital Health
Mcode
SCI3092
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
47
Series
Abstract
Connecting secondary metabolites and biosynthetic gene clusters has largely been performed using rule-based approaches which require prior knowledge and chemical understanding about the metabolites and biosynthetic gene clusters (BGCs). This work explores a scenario in which the two could be connected to each other using machine learning methods. Machine learning is considered as it has generalization ability to unseen data. The results show that there is some potential in machine learning methods when using a candidate set for the prediction task where a BGC/metabolite is directly predicted from a metabolite/BGC.

Sekundääristen metaboliittien ja biosynteettisten geeniklustereiden yhdistämistä on enimmäkseen tehty sääntöpohjaisia lähestymistapoja käyttäen, jotka vaativat ennakkotietoa ja kemiallista ymmärrystä tutkittavista metaboliiteista ja geeniklustereista. Tämän työn tarkoitus on selvittää mahdollisuutta käyttää koneoppimista sekundääristen metaboliittien ja geeniklustereiden yhdistämiseen. Koneoppimista tarkastellaan sen yleistämiskyvyn vuoksi, sillä sitä voidaan käyttää uudenlaiseen dataan, jota ei ole aikaisemmin havaittu. Tulokset viittaavat siihen, että koneoppimisella on jonkinlaista potentiaalia, kun käytössä on kandidaattisetti metaboliitille/biosynteettiselle geeniklusterille jota yritetään ennustaa suoraan metaboliitista/biosynteettisestä geeniklusterista.
Description
Supervisor
Rousu, Juho
Thesis advisor
Huusari, Riikka
Keywords
BGCs, natural products, secondary metabolites, kernel methods, structured output prediction
Other note
Citation