Generalizing Machine Learning Potentials for Ensemble Learning of Nuclear Magnetic Resonance Chemical Shieldings
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2022-06-13
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
42+1
Series
Abstract
Nuclear magnetic resonance (NMR) spectroscopy is technique to study the chemical structures in an atomic level. In many of its applications, the interpretation and assigning of the peaks requires the experimentally obtained values to be paired with computational reference. The shieldings can be computed from first principles, with methods such as density functional theory, but these methods come with a high computational cost. Furthermore, the experimental NMR shieldings average over thermal and quantum fluctuations, while the high computational cost of density functional theory makes it prohibitive to compute shieldings for many configurations and therefore, it is only computed for one structure resulting in a static value. In order to efficiently interpret NMR chemical shieldings, a lower cost computational shieldings averaging an ensemble of configurations is required. In this thesis, I will use a machine learning based workflow to produce accurate computational ensemble averaged NMR shieldings for three polymorphs of glycine. In addition, to a specialized bespoke potential trained exclusively on polymorphs of glycine, I aim to generalize the machine learning workflow by using a generalized machine leaning potential trained on 5 configurations of 2000 organic crystals in generating the ensemble of configurations. The computational shifts based on generalized machine learning shifts have an RMSE to the experimental values of 0.38 for hydrogen shieldings and 3.19 for carbon shieldings compared to RMSEs of 0.25 and 1.77 for the Bespoke potential. The larger discrepancies of generalized model may arise from insufficient training data size. However, the generalized workflow shows promise in providing accurate shieldings with increased training set size and more accurate type of density functional theory (PBE0+MBD) for calculating energies in the training data. The machine learning workflow based in generalized models, could allow faster computation of NMR chemical shieldings for new organic crystals without further training.Ydinmagneettinen resonanssispektroskopia eli NMR-spektroskopia (engl. nuclear magnetic resonance, NMYdinmagneettinen resonanssispektroskopia eli NMR-spektroskopia (engl. nuclear magnetic resonance, NMR) on tekniikka, jonka avulla voidaan tutkia aineiden rakenteita atomitasolla. Useissa NMR-spektroskopian käyttökohteissa, käytetään kokeellisten tulosten tulkitsemisen apuna tietokoneilla laskettuja arvoja, joita voidaan vertailla kokeellisiin tuloksiin. Koneellisia vertailuarvoja voidaan laskea "ab initio" -metodeilla, eli perustuen fysikaalisiin perusominaisuuksin ilman lisäoletuksia, kuten tiheysfunktionaaliteorialla (engl. density functional theory, DFT), mutta nämä laskelmat ovat hitaita ja vaativat paljon resursseja. Lisäksi kokeelliset tulokset mittaavat aineiden lämpö ja kvanttimekaanisen värähtelyn keskiarvoisia tuloksia, mitä ei voida tiheysfunktionaaliteorialla toistaa, sillä näiden laskemien tekeminen useammille kuin muutamille konfiguraatiolle, kuluttaisi liikaa tietokoneresursseja. Kuitenkin, jotta voitaisiin tehokkaasti ja tarkasti tulkita kokeellisia NMR-spektroskopian tuloksia, tarvitaan vähemmän resurssiahne koneellinen menetelmä, joka pystyisi laskemaan NMR-spektrin termodynaamisen keskiarvon. Tässä diplomityössä, käytetään koneoppimiseen perustuvaa koneellista laskentaa laskemaan termodynaaminen keskiarvo NMR-spektrille kolmelle eri glysiinin polymorfille. Lisäksi tässä työssä vertaillaan kahden eri koneoppimiseen pohjautuvan interatomisen potentiaalin (engl. machine learning interatomic potential, MLIP) tarkkuutta. Ensimmäinen MLIP (engl. Bespoke MLIP) pohjautuu dataan, joka keskittyy vain glysiinin polymorfien eri konfiguraatioihin ja on niin sanottu erikoistunut interatominen potentiaali ja toinen MLIP (engl. General MLIP) käyttää laajempaa dataa perustuen 2000 orgaaniseen kiteeseen, joista jokaisesta on viisi eri konfiguraatiota. Toinen MLIP on niin sanottu yleisluontoinen potentiaali. Keskineliövirheet (engl. root mean squared error, RMSE) koneellisesti lasketuille NMR-spektreille, jotka on laskettu käyttäen yleisluontoista potentiaalia ovat 0.38 ppm-arvoa vedylle ja 3.19 ppm-arvoa hiilelle. Keskineliövirheet perustuen erikoistuneella potentiaalilla laskettuihin tuloksiin ovat taas 0.25 ppm-arvoa vedylle ja 1.77 ppm-arvo hiilelle. Isot poikkeamat laskemissa, jotka perustuvat yleisluontoiseen potentiaaliin, voivat johtua esimerkiksi liian pienestä datasetistä. Kuitenkin laskelmat, jotka perustuvat tähän yleisluontoiseen potentiaaliin, näyttävät lupaavilta, jos niitä pystyttäisiin laskemaan isomman datasetin ja tarkempaan DFT-menetelmään (PBE0+MBD) perutuvien energioiden avulla. Koneoppimiseen perustuva NMR-spektrin laskenta, joka pohjautuisi yleisluontoisiin, laajempaan dataan perustuviin koneoppimismalleihin, voisi helpottaa koneellisten tulosten laskentaa, sillä toisin kuin yhteen kemialliseen yhdisteeseen erikoistuvat mallit, sillä voitaisiin laskea uusia tuloksia mille tahansa orgaaniselle kiteelle, ilman uusien mallien tuottamista. R) on tekniikka, jonka avulla voidaan tutkia aineiden rakenteita atomitasolla. Useissa NMR-spektroskopian käyttökohteissa, käytetään kokeellisten tulosten tulkitsemisen apuna tietokoneilla laskettuja arvoja, joita voidaan vertailla kokeellisiin tuloksiin. Koneellisia vertailuarvoja voidaan laskea "ab initio" -metodeilla, eli perustuen fysikaalisiin perusominaisuuksin ilman lisäoletuksia, kuten tiheysfunktionaaliteorialla (engl. density functional theory, DFT), mutta nämä laskelmat ovat hitaita ja vaativat paljon resursseja. Lisäksi kokeelliset tulokset mittaavat aineiden lämpö ja kvanttimekaanisen värähtelyn keskiarvoisia tuloksia, mitä ei voida tiheysfunktionaaliteorialla toistaa, sillä näiden laskemien tekeminen useammille kuin muutamille konfiguraatiolle, kuluttaisi liikaa tietokoneresursseja. Kuitenkin, jotta voitaisiin tehokkaasti ja tarkasti tulkita kokeellisia NMR-spektroskopian tuloksia, tarvitaan vähemmän resurssiahne koneellinen menetelmä, joka pystyisi laskemaan NMR-spektrin termodynaamisen keskiarvon. Tässä diplomityössä, käytetään koneoppimiseen perustuvaa koneellista laskentaa laskemaan termodynaaminen keskiarvo NMR-spektrille kolmelle eri glysiinin polymorfille. Lisäksi tässä työssä vertaillaan kahden eri koneoppimiseen pohjautuvan interatomisen potentiaalin (engl. machine learning interatomic potential, MLIP) tarkkuutta. Ensimmäinen MLIP (engl. Bespoke MLIP) pohjautuu dataan, joka keskittyy vain glysiinin polymorfien eri konfiguraatiohin ja on niin sanottu erikoistunut interatominen potentiaali ja toinen MLIP (engl. General MLIP) käyttää laajempaa dataa perustuen 2000:een orgaaniseen kiteeseen, joista jokaisesta on viisi eri konfiguraatiota. Toinen MLIP on niin sanottu yleisluontoinen potentiaali. Keskineliövirheet (engl. root mean squared error, RMSE) koneellisesti lasketuille NMR-spektreille, jotka on laskettu käyttäen yleisluontoista potentiaalia ovat 0.38 ppm-arvoa vedylle ja 3.19 ppm-arvoa hiilelle. Keskineliövirheet perustuen erikoistuneesella potentiaalilla laskettuihin tuloksiin ovat taas 0.25 ppm-arvoa vedylle ja 1.77 ppm-arvo hiilelle. Isot poikkeamat laskemissa, jotka perustuvat yleisluontoiseen potentiaaliin, voivat johtua esimerkiksi liian pienestä datasetistä. Kuitenkin, laskelmat, jotka perustuvat tähän yleisluontoiseen potentiaaliin, näyttävät lupaavilta, jos niitä pystyttäisiin laskemaan isomman datasetin ja tarkempaan DFT-menetelmään (PBE0+MBD) perutuvien energioiden avulla. Koneoppimiseen perustuva NMR-spektrin laskenta, joka pohjautuisi yleisluontoisiin, laajempaan dataan perustuviin koneoppimismalleihin, voisi helpottaa koneellisten tulosten laskentaa, sillä toisin kuin yhteen kemialliseen yhdisteeseen erikoistuvat mallit, sillä voitaisiin laskea uusia tuloksia mille tahansa orgaaniselle kiteelle, ilman uusien mallien tuottamista.Description
Supervisor
Rinke, PatrickThesis advisor
Ceriotti, MicheleKeywords
machine learning, machine learning interatomic potential, solid state nuclear magnetic resonance, ensemble average, generalized machine learning models