aalto1 untyped-item.component.html

Learning-based multi-view 3D reconstruction

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Bachelor's thesis

Department

Mcode

SCI3029

Language

en

Pages

Computer Vision

Series

Abstract

Three-dimensional reconstruction refers to the process of computing a three-dimensional model of an object or environment from two-dimensional images or other measurement data, such as LiDAR data. This work addresses learning-based 3D reconstruction, which replaces traditional step-by-step algorithms with a single deep learning model that learns to predict the 3D structure of a scene on the basis of image data. The theoretical section of this work provides an overview of current learning-based multi-view 3D reconstruction. It covers the fundamentals of projective geometry, methods for solving the structure-from-motion problem, Gaussian splatting, and the DUSt3R and NoPoSplat models. DUSt3R is a deep learning model that, based on its training data, learns to fit a point cloud to a specified video-captured region, thereby creating a comprehensive three-dimensional representation of that area. NoPoSplat is a similar deep learning model, but instead of points, it uses colored 3D Gaussian functions as primitives, as illustrated in Figure 3. The experimental section of this work focuses on benchmarking the NoPoSplat method for novel view synthesis on the ETH3D dataset and comparing its results with previous benchmarks carried out on data outside the training set. We compute the key metrics LPIPS, PSNR, and SSIM. The results are presented in Table 1. The overall performance of the model is similar to the performance on other out of distribution data sets ScanNet++ and DTU reported in the original paper by Ye et al. [20]. The slightly worse performance on the ETH3D data set can be explained by the fact that the model was trained on the RE10K data set [5], which consists largely of indoors scenes, whereas ETH3D also includes outdoor scenes. Another deciding factor could be the pairing of context and target views.

Kolmiulotteinen rekonstruktio tarkoittaa prosessia, jossa kaksiulotteisista kuvista tai muusta mittausdatasta, kuten LiDAR-datasta, lasketaan kohteen tai ympäristön kolmiulotteinen malli. Tämä työ käsittelee oppimispohjaista 3D-rekonstruktiota, joka korvaa perinteiset vaiheittaiset algoritmit yhdellä syväoppimismallilla, joka oppii kuvadatan perusteella ennustamaan alueen kolmiulotteisen rakenteen. Tämän työn teoreettinen osuus tarjoaa yleiskatsauksen nykyiseen oppimispohjaiseen 3D-rekonstruktioon monesta näkymästä. Aiheeseen liittyvässä työssä käsitellään projektiivisen geometrian perusteita, structure from motion -ongelman ratkaisumenetelmiä, Gaussian splattingia sekä DUSt3R- ja NoPoSplat-malleja. DUSt3R on syväoppimismalli, joka oppii koulutusdatan perusteella sovittamaan haluttuun videoituun alueeseen pistepilven, joka muodostaa alueesta kokonaisvaltaisen kolmiulotteisen mallin. NoPoSplat puolestaan on samankaltainen syväoppimismalli, mutta se käyttää kolmiulotteisina primitiiveinä pisteiden sijasta värillisiä kolmiulotteisia gaussilaisia funktioita, mitä kuva 3 havainnollistaa. Työn kokeellinen osuus keskittyy NoPoSplat-menetelmän uusien näkymien generoimiskyvyn vertailuun ETH3D-aineistolla ja muilla koulutusdatan ulkopuolisilla aineistoilla. Työssä lasketaan keskeistä metriikkaa: LPIPS, PSNR ja SSIM. Tulokset esitetään taulukossa 1. Mallin kokonaissuorituskyky ETH3D-aineistolla vastaa muilla koulutusdatan ulkopuolisilla aineistoilla, kuten ScanNet++:lla ja DTU:lla, saatuja tuloksia [20]. Mallin hieman heikompi suorituskyky ETH3D-aineistolla selittynee sillä, että malli koulutettiin RE10K-aineistolla [5], joka koostuu pääasiassa sisätiloista, kun taas ETH3D sisältää myös ulkotiloja. Toinen mahdollinen vaikuttava tekijä on konteksti- ja kohdenäkymien metodologisen valitsemisen haasteellisuus, sillä mallille voi antaa vain kaksi kuvaa syötteeksi.

Description

Supervisor

Salo, Ahti

Thesis advisor

Kannala, Juho

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By