Modelling static scenes with 3D Gaussian splatting

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorKannala, Juho
dc.contributor.authorPakkanen, Eetu
dc.contributor.schoolPerustieteiden korkeakoulufi
dc.contributor.supervisorHannukainen, Antti
dc.date.accessioned2025-01-14T09:48:17Z
dc.date.available2025-01-14T09:48:17Z
dc.date.issued2025-01-07
dc.description.abstractNovel view synthesis is a research problem where a continuous visual geometric representation of a scene is created with a finite set of images. Solutions based on machine learning use these captured images as their training data to form a representation. This thesis reviews three-dimensional Gaussian Splatting (3DGS) which is a pipeline designed for static novel view synthesis. In essence, 3DGS uses a vast amount of three-dimensional normal distributions with adjustable parameters such as shape and color to depict a scene. The representation is initialized by assigning normal distributions onto points acquired from a technique known as Structure-from-Motion. Both projection of normal distributions from world to image space and rasterizing an image are differentiable operations. As the 3DGS pipeline is thus fully differentiable, captured training data can be used to iteratively optimize the distributions’ parameters. The amount of distributions is increased periodically. With suitable training data, this procedure results in a realistic depiction of the captured scene. In addition to reviewing the 3DGS pipeline, the thesis provides results of our experiments. The original implementation of 3DGS is benchmarked against an open-source alternative called “gsplat.” The pipelines’ performances are measured both quantitatively and qualitatively. The reader’s attention is drawn towards the limitations of the current state-of-the-art which include, e.g., high-detail geometry and occlusions. Some applications of the technology are discussed. The main contribution of this thesis is to complement the existing literature by providing mathematical deductions and proofs omitted in other texts. This rigorous approach provides the reader with a deeper understanding of the inner workings of the pipeline. A proof omitted in prior work for the three-dimensional covariance matrix’s validity is provided to show that the optimization scheme works invariably.en
dc.description.abstractTuntemattomien näkymien synteesi on tutkimusongelma, jossa pyritään luomaan jatkuva visuaalis-geometrinen esitys tilasta äärellisellä joukolla kuvia. Koneoppimiseen perustuvat ratkaisut käyttävät tätä kuvajoukkoa opetusdatanaan muodostaakseen esityksen. Tämä kandidaatintyö perehtyy kolmiulotteiseen Gaussin kerrostamiseen (three-dimensional Gaussian Splatting, lyhyemmin 3DGS). 3DGS on staattisten tuntemattomien näkymien synteesiin suunniteltu dataputki. 3DGS käyttää suurta määrää kolmiulotteisia normaalijakaumia säädettävin parametrein esittääkseen tilan. Esitys alustetaan asettamalla normaalijakaumia pisteisiin, jotka on tuotettu Structure-from-Motion-menetelmällä. Sekä normaalijakaumien projisointi maailma-avaruudesta kuva-avaruuteen että lopullisen kuvan rasterointi ovat kummatkin derivoituvia operaatioita. Tästä seuraa, että 3DGS:n dataputki on täysin derivoituva, ja normaalijakaumien parametrit voidaan iteratiivisesti optimoida käyttäen aiemmin kerättyä opetusdataa. Normaalijakaumien määrää kasvatetaan jaksoittain. Käyttämällä sopivia opetuskuvia optimointi johtaa todenmukaiseen esitykseen kuviin vangitusta kolmiulotteisesta tilasta. Kokeissamme alkuperäistä 3DGS:n toteutusta vertaillaan gsplat-nimiseen avoimen lähdekoodin toteutukseen. Dataputkien suorityskyky mitataan sekä kvantitatiivisesti että kvalitatiivisesti. Lukijan huomio kiinnitetään tämänhetkisen tekniikan tason rajoihin, kuten hyvin yksityiskohtaiseen geometriaan sekä okkluusioihin. Myös teknologian sovelluskohteita käsitellään. Opinnäytetyön tärkein kontribuutio on täydentää alan kirjallisuutta tarjoamalla aiempien teoksien huomiotta jättämiä matemaattisia päätelmiä ja todistuksia. Tämä täsmällinen lähestymistapa tarjoaa lukijalle syvemmän ymmärryksen dataputken toiminnasta. Lisäksi kandidaatintyö esittää aiemmassa kirjallisuudessa huomiotta jätetyn todistuksen kolmiulotteisen kovarianssimatriisin validiteetista. Kyseinen todistus osoittaa, että 3DGS:n optimointimenetelmä toimii poikkeuksetta.fi
dc.format.extent37
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/132877
dc.identifier.urnURN:NBN:fi:aalto-202501141172
dc.language.isoenen
dc.programmeTeknistieteellinen kandidaattiohjelmafi
dc.programme.majorMatematiikka ja systeemitieteetfi
dc.programme.mcodeSCI3029fi
dc.subject.keywordcomputer visionen
dc.subject.keywordgaussian splattingen
dc.subject.keyworddynamic gaussian splattingen
dc.subject.keyword3D reconstructionen
dc.subject.keywordvolume renderingen
dc.subject.keywordnovel view synthesisen
dc.titleModelling static scenes with 3D Gaussian splattingen
dc.typeG1 Kandidaatintyöfi
dc.type.dcmitypetexten
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Pakkanen_Eetu_2025.pdf
Size:
22.66 MB
Format:
Adobe Portable Document Format