Neural Networks and Deep Learning Systems as Parametric Spans

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2024-06-18

Department

Major/Subject

Mathematics

Mcode

SCI3054

Degree programme

Master’s Programme in Mathematics and Operations Research

Language

en

Pages

53

Series

Abstract

We introduce a categorical model to represent neural networks and deep learning systems using parametric spans. This model is based on parametric spans, which are used to represent any single part of a deep learning system, and through their composition the whole system can be formed. Diagrams of arrows can be used to graphically represent neural networks and deep learning systems. Neural network based deep learning is a powerful tool used in a variety of ways in science and many industries. The exceptionally large amount of possible model parameters and the versatility to accommodate different types of data make the modern deep learning architectures expressive enough to surpass human performance in many tasks. There is a lack in theoretical understanding of design choices with respect to the performance of a system. The computational costs of empirical testing make greater theoretical insight valuable for deep learning development. In recent research there has been a focus on the intrinsic geometrical properties of the data given to a neural network as input. Geometrical symmetries can be used for example to generalize images of the same object in different positions, and any given symmetry might beget a certain network architecture that is best able to utilize it. Category theory is an abstract branch of mathematics for mathematical structures and the relations between them, and it has been presented as a possible solution for the lack of unified and mathematically clear representations of neural network deep learning architectures. This thesis presents the fundamentals of typical deep learning architectures, and gives a categorical model for representing them. The model provides a versatile yet informative way to represent neural networks and deep learning systems.

Esittelemme kategoriateoriaa hyödyntävän mallin, jonka avulla voidaan kuvata neuroverkkoja ja syväoppimisjärjestelmiä. Malli perustuu parametrisoituihin vaaksoihin (engl. parametric span), joita käytetään kuvaamaan mitä tahansa yksittäistä osaa syväoppimisjärjestelmästä, ja ketjuttamalla niitä voidaan muodostaa järjestelmä kokonaisuudessaan. Kategoriateoriassa yleisesti käytettyjä nuolidiagrammeja voidaan käyttää mallillamme esitettyjen neuroverkkojen ja syväoppimisjärjestelmien graafisiin esityksiin. Neuroverkkoihin perustuva syväoppiminen on vakiintunut sekä tieteessä, että useilla teollisuuden aloilla yleisesti käytetyksi menetelmäksi. Mahdollisten parametrien suuri määrä ja kyky mukautua monenlaisiin eri datatyyppeihin tekevät nykyaikaisista syväoppimisarkkitehtuureista niin kuvaavia, että ne ylittävät ihmisen suorituskyvyn monissa tehtävissä. Teoreettinen ymmärrys syväoppimisjärjestelmien suunnittelusta on joiltain osin vielä puutteellista. Empiirisen tutkimuksen laskennalliset kustannukset tekevät teoreettisista oivalluksista arvokkaita. Viimeaikaisessa tutkimuksessa on keskitytty näkökulmaan, jossa otetaan huomioon syötteenä käytetyn datan geometriset ominaisuudet. Tahto hyödyntää jotain tiettyä symmetriaa voi ohjata käyttämään jotain tiettyä neuroverkkoarkkitehtuuria. Kategoriateoria on abstrakti matematiikan haara, joka käsittelee matemaattisia rakenteita ja niiden välisiä suhteita, ja sitä on esitetty mahdollisena ratkaisuna kehittää matemaattisesti yhtenäisempää tapaa käsitellä neuroverkkoja ja syväoppimista. Tässä diplomityössä esitellään tyypillisen syväoppimisjärjestelmän lähtökohdat ja annetaan kategorinen malli sellaisen esittämiselle. Mallin avulla neuroverkkoja ja syväoppimisjärjestelmiä voidaan kuvata paitsi monipuolisesti myös informatiivisesti.

Description

Supervisor

Hakula, Harri

Thesis advisor

Hakula, Harri

Keywords

deep learning, neural networks, category theory, parametric span

Other note

Citation