Application of supervised machine learning in molecular chemistry

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

55

Series

Abstract

This thesis investigates how supervised machine learning can be applied in molecular chemistry. The thesis starts out with giving the most relevant background found in the literature and for understanding the experiments. Then two experiments are described. The first experiment focuses on predicting pKa values based on experimental data. The second experiment predicts N2 structural isomers total energies and energy differences based on calculated data. The results of the experiments are that multiple ML models show predictive capabilities, but the accuracy is not yet on a practically usable level. The second experiment also has issues with the datasets being too small, which lead to overfitting. The overall conclusion is that machine learning has a lot of potential for molecular chemistry purposes, but the methods should be developed to be more accurate, understandable and reliable. Access to large datasets should also be improved for supervised machine learning to be more usable for molecular chemistry.

Denna avhandling undersöker hur övervakad maskininlärning kan tillämpas för användning inom molekylärkemi. Avahandlingen inleds med en genomgång av den mest relevanta bakgrunden samt den bakgrund som krävs för att förstå experimenten. Därefter beskrivs två experiment, varav det första experimentet fokuserar på att förutsäga pKa värden baserat på experimentella data. Det andra experimentet förutsäger totalenergi och energidifferenser för strukturella isomerer av N2 baserat på beräknade data. Resultaten från experimenten visar att flera maskininlärnings modeller har prediktiv förmåga men att noggrannheten av modellerna ännu inte når en praktiskt användbar nivå. Det andra experimentet har även problem med för små data, vilket ledde till överinpassning (overfitting). Den övergripande slutsatsen är att maskininlärning har mycket potential för tillämpningar inom molekylär kemi men att metoderna behöver utvecklas för att bli mer noggranna, begripliga och pålitliga. Tillgången till stora datamängder bör också förbättras för att övervakad maskininlärning ska bli mer användbar inom molekylärkemi.

Description

Supervisor

Laasonen, Kari

Other note

Citation