Atmospheric compound identification from electron ionization mass spectrometry data

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis

Department

Mcode

Language

en

Pages

57

Series

Abstract

Mass spectrometry (MS) is currently the primary analytical method for detecting the molecular composition of atmospheric organic compounds. However, interpreting mass spectra to elucidate the full chemical structures of molecules remains challenging, particularly for electron ionization (EI) mass spectrometry, which produces extensively fragmented ions that lead to dense and information-rich spectra. In this work, a recently developed diffusion-based spectrum-to-structure model from the metabolomics domain, DiffMS, is adapted to electron ionization mass spectrometry (EI-MS) data of atmospheric organic compounds. The adapted framework, called DiffEIMS, employs a decoupled model architecture, in which an encoder predicts molecular fingerprints from EI spectra and a graph-based decoder generates candidate molecular structures from these fingerprints. Unlike traditional spectral database-matching methods, DiffEIMS is designed to generate novel molecular structures, enabling the exploration of chemical space beyond existing databases. DiffEIMS is benchmarked using accuracy and similarity metrics on a curated, in silico-generated, dataset of atmospheric organic compounds containing molecular structures and their EI spectra. The DiffEIMS model achieves top-1 and top-10 accuracies of 6 and 20 percent in molecular structure prediction, respectively. Furthermore, DiffEIMS consistently generates structurally similar molecules, achieving a top-10 Tanimoto similarity of 0.59. Additionally, DiffEIMS produces chemically valid molecules with a frequency of 95 percent. The results of the computational experiments conducted in this thesis highlight the importance of careful preprocessing of EI spectra, hyperparameter optimization, and effective training strategies when adapting deep learning models across chemical domains and different MS techniques. More broadly, this work opens a new direction for combining deep generative modeling with EI-MS in molecular-level atmospheric science, demonstrating the potential of data-driven methods in accelerating research of aerosols.

Massaspektrometria (MS) on yleisimmin käytetty analyyttisen kemian menetelmä ilmakehässä esiintyvien orgaanisten yhdisteiden koostumuksen määrittämiseen. Massaspektrien tulkinta molekyylien täydellisen kemiallisen rakenteen selvittämiseksi on kuitenkin haastavaa, erityisesti elektroni-ionisaatio (EI) massaspektrometrian (EI-MS) osalta, jossa tutkittava molekyyli usein fragmentoituu voimakkaasti ja siten tuottaa paljon erikokoisia ioneja. Tämän seurauksena EI-MS-mittaukset tuottavat tiheitä ja runsaasti informaatiota sisältäviä spektrejä, joiden manuaalinen analysointi on monimutkaista ja aikaavievää. Tässä työssä sovitetaan metabolomiikan alalta äskettäin kehitetty generatiivinen diffuusiopohjainen DiffMS-malli ilmakehässä esiintyvien orgaanisten yhdisteiden EI-MS-spektridataan. Uuteen käyttötarkoitukseen sovitettua DiffMS-mallia kutsutaan tässä työssä nimellä DiffEIMS. Tämä malli hyödyntää kahden erillisen osan arkkitehtuuria, jossa enkooderi ennustaa molekyylisormenjälkiä (engl. molecular fingerprints) EI-spektreistä ja molekyyligraafeihin perustuva dekooderi generoi näiden sormenjälkien perusteella mahdollisia molekyylirakenteita. Toisin kuin perinteiset spektrien tietokantojen vertailuun perustuvat menetelmät, DiffEIMS on suunniteltu de novo -rakenteen generointiin, mikä mahdollistaa nykyisten tietokantojen ulkopuolella olevien molekyylirakenteiden tunnistamisen. Työssä arvioidaan DiffEIMS-mallin suorituskykyä tunnistustarkkuuden (engl. accuracy) ja Tanimoto-samankaltaisuuden perusteella (engl. Tanimoto similarity) käyttäen kuratoitua in silico -generoitua data-aineistoa, joka sisältää ilmakehässä esiintyvien yhdisteiden molekyylirakenteet ja niiden EI-spektrit. DiffEIMS-malli saavuttaa kuuden prosentin tunnistustarkkuuden yksittäiselle generoidulle rakenteelle (engl. top-1 accuracy) ja kahdenkymmenen prosentin tunnistustarkkuuden kymmenen generoidun rakenteen joukosta (engl. top-10 accuracy). Lisäksi se kykenee generoimaan rakenteellisesti samankaltaisia molekyylejä, saavuttaen parhaimmillaan 0,59:n Tanimoto-samankaltaisuuden kymmenen rakenteen joukosta. Lisäksi DiffEIMS tuottaa kemiallisesti kelvollisia molekyylejä 95 prosentin osuudella. Laskennallisten kokeiden tulokset korostavat EI-spektrien huolellisen esikäsittelyn, hyperparametrien optimoinnin ja tehokkaiden koulutusstrategioiden merkitystä syväoppimismallien sovittamisessa eri kemiallisiin sovellusalueisiin ja eri MS-menetelmiin. Laajemmin tämä työ avaa uuden suunnan generatiivisen mallinnuksen ja EI-MS:n yhdistämiseen molekyylitason ilmakehätieteessä, osoittaen datalähtöisten menetelmien potentiaalin aerosolitutkimuksen nopeuttamisen työkaluna.

Description

Supervisor

Rinke, Patrick

Thesis advisor

Sandström, Hilda

Other note

Citation