Storing computational data in materials science databases in a consistent and generalized way is crucial for the advance of data-driven materials science. Development is required especially in storing chemical reaction data, as it is much more complex to represent in a generalized data format. Open access to databases containing curated and generalized chemical reaction data would accelerate the development of data-driven approaches also in catalysis research.
In this work, catalysis reaction data was queried from available databases, and applied on machine learning models to predict activation energies. Acquiring and pre-processing the data was found to involve a lot of pitfalls that need to be addressed when establishing chemical reaction databases. The data was found to be un-curated and inconsistent in notation and composition.
After parsing and cleaning, descriptors were built for 1826 reactions that were acquired from the Catalysis-hub and CatApp databases. Atomic structures were provided in some of the reactions, but building descriptors directly from the structural data proved to be quite complicated, and were left out of the main data set. The data set was used to train kernel ridge regression and random forest regressor models. The models were able to predict the activation energies with over 90% accuracy, suggesting that such data-driven methods can provide valuable tools for catalysis research.
As a case study, the correlation of reaction energy and adsorption energy was investigated by using a small data set where the reaction energy was replaced with adsorption energy. The predicted activation energies showed large variation in the errors, and the results suggest that using adsorption energies directly to predict activation energies should be considered critically in catalyst screening.
Data-lähtöisen materiaalitieteen kehitys vaatii materiaalidatan johdonmukaista ja järjestelmällistä säilömistä tietokantoihin. Erityisesti kemiallisia reaktioita kuvaavan datan säilömistä tulee kehittää, sillä reaktioiden kuvaaminen yleistetyssä dataformaatissa on vaikeaa. Kuratoitua ja yleistettyö reaktiodataa sisältävät avoimet tietokannat edistäisivät datalähtöisen materiaalitieteen kehitystä myös katalyysitutkimuksessa.
Tässä työssä tutkittiin katalyysidataa sisältävien tietokantojen käytettävyyttä, sekä käytettiin näistä kerättyä dataa koneoppimismallien kouluttamiseen aktivaatioenergioiden ennustamiseksi. Datan keräys ja esikäsittely koneoppimismalleille sopivaan muotoon osoittautui haastavaksi, ja monia kehityskohteita löytyi tietokantoihin liittyen. Data oli yleisesti kuratoimatonta sekä notaatioltaan ja sisällöltään epäyhtenäistä.
Esikäsitellystä datasta rakennettiin deskriptorit yhteensä 1826 reaktiolle, jotka kerättiin Catalysis-hub ja CatApp -tietokannoista. Atomirakenteet olivat mukana osassa reaktioista, mutta niiden käyttö deskriptorien rakentamisessa osoittautui monimutkaiseksi, minkä vuoksi ne jätettiin pois datajoukosta. Valitulla datalla koulutettiin kernel ridge regression ja random forest regressor -koneoppimismallit, jotka onnistuivat ennustamaan aktivaatioenergioita yli 90% tarkkuudella, antaen osviittaa data-lähtöisten menetelmien hyödyistä katalyysitutkimuksessa.
Tapaustutkimuksena reaktioenergian ja adsorptioenergian välistä yhteyttä tarkasteltiin ennustamalla aktivaatioenergioita käyttämällä pientä datajoukkoa, jossa reaktioenergiat korvattiin adsorptionenergioilla. Ennustusten virhearvot sisälsivät suurta vaihtelua, viitaten siihen, että adsorptioenergioiden käyttöön aktivaatioenergioiden ennustamisessa pitäisi suhtautua kriittisesti.