Generalizing Machine Learning Potentials for Ensemble Learning of Nuclear Magnetic Resonance Chemical Shieldings

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-06-13

Department

Major/Subject

Computer Science

Mcode

SCI3042

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

42+1

Series

Abstract

Nuclear magnetic resonance (NMR) spectroscopy is technique to study the chemical structures in an atomic level. In many of its applications, the interpretation and assigning of the peaks requires the experimentally obtained values to be paired with computational reference. The shieldings can be computed from first principles, with methods such as density functional theory, but these methods come with a high computational cost. Furthermore, the experimental NMR shieldings average over thermal and quantum fluctuations, while the high computational cost of density functional theory makes it prohibitive to compute shieldings for many configurations and therefore, it is only computed for one structure resulting in a static value. In order to efficiently interpret NMR chemical shieldings, a lower cost computational shieldings averaging an ensemble of configurations is required. In this thesis, I will use a machine learning based workflow to produce accurate computational ensemble averaged NMR shieldings for three polymorphs of glycine. In addition, to a specialized bespoke potential trained exclusively on polymorphs of glycine, I aim to generalize the machine learning workflow by using a generalized machine leaning potential trained on 5 configurations of 2000 organic crystals in generating the ensemble of configurations. The computational shifts based on generalized machine learning shifts have an RMSE to the experimental values of 0.38 for hydrogen shieldings and 3.19 for carbon shieldings compared to RMSEs of 0.25 and 1.77 for the Bespoke potential. The larger discrepancies of generalized model may arise from insufficient training data size. However, the generalized workflow shows promise in providing accurate shieldings with increased training set size and more accurate type of density functional theory (PBE0+MBD) for calculating energies in the training data. The machine learning workflow based in generalized models, could allow faster computation of NMR chemical shieldings for new organic crystals without further training.

Ydinmagneettinen resonanssispektroskopia eli NMR-spektroskopia (engl. nuclear magnetic resonance, NMYdinmagneettinen resonanssispektroskopia eli NMR-spektroskopia (engl. nuclear magnetic resonance, NMR) on tekniikka, jonka avulla voidaan tutkia aineiden rakenteita atomitasolla. Useissa NMR-spektroskopian käyttökohteissa, käytetään kokeellisten tulosten tulkitsemisen apuna tietokoneilla laskettuja arvoja, joita voidaan vertailla kokeellisiin tuloksiin. Koneellisia vertailuarvoja voidaan laskea "ab initio" -metodeilla, eli perustuen fysikaalisiin perusominaisuuksin ilman lisäoletuksia, kuten tiheysfunktionaaliteorialla (engl. density functional theory, DFT), mutta nämä laskelmat ovat hitaita ja vaativat paljon resursseja. Lisäksi kokeelliset tulokset mittaavat aineiden lämpö ja kvanttimekaanisen värähtelyn keskiarvoisia tuloksia, mitä ei voida tiheysfunktionaaliteorialla toistaa, sillä näiden laskemien tekeminen useammille kuin muutamille konfiguraatiolle, kuluttaisi liikaa tietokoneresursseja. Kuitenkin, jotta voitaisiin tehokkaasti ja tarkasti tulkita kokeellisia NMR-spektroskopian tuloksia, tarvitaan vähemmän resurssiahne koneellinen menetelmä, joka pystyisi laskemaan NMR-spektrin termodynaamisen keskiarvon. Tässä diplomityössä, käytetään koneoppimiseen perustuvaa koneellista laskentaa laskemaan termodynaaminen keskiarvo NMR-spektrille kolmelle eri glysiinin polymorfille. Lisäksi tässä työssä vertaillaan kahden eri koneoppimiseen pohjautuvan interatomisen potentiaalin (engl. machine learning interatomic potential, MLIP) tarkkuutta. Ensimmäinen MLIP (engl. Bespoke MLIP) pohjautuu dataan, joka keskittyy vain glysiinin polymorfien eri konfiguraatioihin ja on niin sanottu erikoistunut interatominen potentiaali ja toinen MLIP (engl. General MLIP) käyttää laajempaa dataa perustuen 2000 orgaaniseen kiteeseen, joista jokaisesta on viisi eri konfiguraatiota. Toinen MLIP on niin sanottu yleisluontoinen potentiaali. Keskineliövirheet (engl. root mean squared error, RMSE) koneellisesti lasketuille NMR-spektreille, jotka on laskettu käyttäen yleisluontoista potentiaalia ovat 0.38 ppm-arvoa vedylle ja 3.19 ppm-arvoa hiilelle. Keskineliövirheet perustuen erikoistuneella potentiaalilla laskettuihin tuloksiin ovat taas 0.25 ppm-arvoa vedylle ja 1.77 ppm-arvo hiilelle. Isot poikkeamat laskemissa, jotka perustuvat yleisluontoiseen potentiaaliin, voivat johtua esimerkiksi liian pienestä datasetistä. Kuitenkin laskelmat, jotka perustuvat tähän yleisluontoiseen potentiaaliin, näyttävät lupaavilta, jos niitä pystyttäisiin laskemaan isomman datasetin ja tarkempaan DFT-menetelmään (PBE0+MBD) perutuvien energioiden avulla. Koneoppimiseen perustuva NMR-spektrin laskenta, joka pohjautuisi yleisluontoisiin, laajempaan dataan perustuviin koneoppimismalleihin, voisi helpottaa koneellisten tulosten laskentaa, sillä toisin kuin yhteen kemialliseen yhdisteeseen erikoistuvat mallit, sillä voitaisiin laskea uusia tuloksia mille tahansa orgaaniselle kiteelle, ilman uusien mallien tuottamista. R) on tekniikka, jonka avulla voidaan tutkia aineiden rakenteita atomitasolla. Useissa NMR-spektroskopian käyttökohteissa, käytetään kokeellisten tulosten tulkitsemisen apuna tietokoneilla laskettuja arvoja, joita voidaan vertailla kokeellisiin tuloksiin. Koneellisia vertailuarvoja voidaan laskea "ab initio" -metodeilla, eli perustuen fysikaalisiin perusominaisuuksin ilman lisäoletuksia, kuten tiheysfunktionaaliteorialla (engl. density functional theory, DFT), mutta nämä laskelmat ovat hitaita ja vaativat paljon resursseja. Lisäksi kokeelliset tulokset mittaavat aineiden lämpö ja kvanttimekaanisen värähtelyn keskiarvoisia tuloksia, mitä ei voida tiheysfunktionaaliteorialla toistaa, sillä näiden laskemien tekeminen useammille kuin muutamille konfiguraatiolle, kuluttaisi liikaa tietokoneresursseja. Kuitenkin, jotta voitaisiin tehokkaasti ja tarkasti tulkita kokeellisia NMR-spektroskopian tuloksia, tarvitaan vähemmän resurssiahne koneellinen menetelmä, joka pystyisi laskemaan NMR-spektrin termodynaamisen keskiarvon. Tässä diplomityössä, käytetään koneoppimiseen perustuvaa koneellista laskentaa laskemaan termodynaaminen keskiarvo NMR-spektrille kolmelle eri glysiinin polymorfille. Lisäksi tässä työssä vertaillaan kahden eri koneoppimiseen pohjautuvan interatomisen potentiaalin (engl. machine learning interatomic potential, MLIP) tarkkuutta. Ensimmäinen MLIP (engl. Bespoke MLIP) pohjautuu dataan, joka keskittyy vain glysiinin polymorfien eri konfiguraatiohin ja on niin sanottu erikoistunut interatominen potentiaali ja toinen MLIP (engl. General MLIP) käyttää laajempaa dataa perustuen 2000:een orgaaniseen kiteeseen, joista jokaisesta on viisi eri konfiguraatiota. Toinen MLIP on niin sanottu yleisluontoinen potentiaali. Keskineliövirheet (engl. root mean squared error, RMSE) koneellisesti lasketuille NMR-spektreille, jotka on laskettu käyttäen yleisluontoista potentiaalia ovat 0.38 ppm-arvoa vedylle ja 3.19 ppm-arvoa hiilelle. Keskineliövirheet perustuen erikoistuneesella potentiaalilla laskettuihin tuloksiin ovat taas 0.25 ppm-arvoa vedylle ja 1.77 ppm-arvo hiilelle. Isot poikkeamat laskemissa, jotka perustuvat yleisluontoiseen potentiaaliin, voivat johtua esimerkiksi liian pienestä datasetistä. Kuitenkin, laskelmat, jotka perustuvat tähän yleisluontoiseen potentiaaliin, näyttävät lupaavilta, jos niitä pystyttäisiin laskemaan isomman datasetin ja tarkempaan DFT-menetelmään (PBE0+MBD) perutuvien energioiden avulla. Koneoppimiseen perustuva NMR-spektrin laskenta, joka pohjautuisi yleisluontoisiin, laajempaan dataan perustuviin koneoppimismalleihin, voisi helpottaa koneellisten tulosten laskentaa, sillä toisin kuin yhteen kemialliseen yhdisteeseen erikoistuvat mallit, sillä voitaisiin laskea uusia tuloksia mille tahansa orgaaniselle kiteelle, ilman uusien mallien tuottamista.

Description

Supervisor

Rinke, Patrick

Thesis advisor

Ceriotti, Michele

Keywords

machine learning, machine learning interatomic potential, solid state nuclear magnetic resonance, ensemble average, generalized machine learning models

Other note

Citation