Neural Networks and Deep Learning Systems as Parametric Spans
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-06-18
Department
Major/Subject
Mathematics
Mcode
SCI3054
Degree programme
Master’s Programme in Mathematics and Operations Research
Language
en
Pages
53
Series
Abstract
We introduce a categorical model to represent neural networks and deep learning systems using parametric spans. This model is based on parametric spans, which are used to represent any single part of a deep learning system, and through their composition the whole system can be formed. Diagrams of arrows can be used to graphically represent neural networks and deep learning systems. Neural network based deep learning is a powerful tool used in a variety of ways in science and many industries. The exceptionally large amount of possible model parameters and the versatility to accommodate different types of data make the modern deep learning architectures expressive enough to surpass human performance in many tasks. There is a lack in theoretical understanding of design choices with respect to the performance of a system. The computational costs of empirical testing make greater theoretical insight valuable for deep learning development. In recent research there has been a focus on the intrinsic geometrical properties of the data given to a neural network as input. Geometrical symmetries can be used for example to generalize images of the same object in different positions, and any given symmetry might beget a certain network architecture that is best able to utilize it. Category theory is an abstract branch of mathematics for mathematical structures and the relations between them, and it has been presented as a possible solution for the lack of unified and mathematically clear representations of neural network deep learning architectures. This thesis presents the fundamentals of typical deep learning architectures, and gives a categorical model for representing them. The model provides a versatile yet informative way to represent neural networks and deep learning systems.Esittelemme kategoriateoriaa hyödyntävän mallin, jonka avulla voidaan kuvata neuroverkkoja ja syväoppimisjärjestelmiä. Malli perustuu parametrisoituihin vaaksoihin (engl. parametric span), joita käytetään kuvaamaan mitä tahansa yksittäistä osaa syväoppimisjärjestelmästä, ja ketjuttamalla niitä voidaan muodostaa järjestelmä kokonaisuudessaan. Kategoriateoriassa yleisesti käytettyjä nuolidiagrammeja voidaan käyttää mallillamme esitettyjen neuroverkkojen ja syväoppimisjärjestelmien graafisiin esityksiin. Neuroverkkoihin perustuva syväoppiminen on vakiintunut sekä tieteessä, että useilla teollisuuden aloilla yleisesti käytetyksi menetelmäksi. Mahdollisten parametrien suuri määrä ja kyky mukautua monenlaisiin eri datatyyppeihin tekevät nykyaikaisista syväoppimisarkkitehtuureista niin kuvaavia, että ne ylittävät ihmisen suorituskyvyn monissa tehtävissä. Teoreettinen ymmärrys syväoppimisjärjestelmien suunnittelusta on joiltain osin vielä puutteellista. Empiirisen tutkimuksen laskennalliset kustannukset tekevät teoreettisista oivalluksista arvokkaita. Viimeaikaisessa tutkimuksessa on keskitytty näkökulmaan, jossa otetaan huomioon syötteenä käytetyn datan geometriset ominaisuudet. Tahto hyödyntää jotain tiettyä symmetriaa voi ohjata käyttämään jotain tiettyä neuroverkkoarkkitehtuuria. Kategoriateoria on abstrakti matematiikan haara, joka käsittelee matemaattisia rakenteita ja niiden välisiä suhteita, ja sitä on esitetty mahdollisena ratkaisuna kehittää matemaattisesti yhtenäisempää tapaa käsitellä neuroverkkoja ja syväoppimista. Tässä diplomityössä esitellään tyypillisen syväoppimisjärjestelmän lähtökohdat ja annetaan kategorinen malli sellaisen esittämiselle. Mallin avulla neuroverkkoja ja syväoppimisjärjestelmiä voidaan kuvata paitsi monipuolisesti myös informatiivisesti.Description
Supervisor
Hakula, HarriThesis advisor
Hakula, HarriKeywords
deep learning, neural networks, category theory, parametric span