aalto1 untyped-item.component.html
Learning-based multi-view 3D reconstruction
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Bachelor's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
Department
Major/Subject
Mcode
SCI3029
Degree programme
Language
en
Pages
Computer Vision
Series
Abstract
Three-dimensional reconstruction refers to the process of computing a three-dimensional model of an object or environment from two-dimensional images or other measurement data, such as LiDAR data. This work addresses learning-based 3D reconstruction, which replaces traditional step-by-step algorithms with a single deep learning model that learns to predict the 3D structure of a scene on the basis of image data.
The theoretical section of this work provides an overview of current learning-based multi-view 3D reconstruction. It covers the fundamentals of projective geometry, methods for solving the structure-from-motion problem, Gaussian splatting, and the DUSt3R and NoPoSplat models. DUSt3R is a deep learning model that, based on its training data, learns to fit a point cloud to a specified video-captured region, thereby creating a comprehensive three-dimensional representation of that area. NoPoSplat is a similar deep learning model, but instead of points, it uses colored 3D Gaussian functions as primitives, as illustrated in Figure 3.
The experimental section of this work focuses on benchmarking the NoPoSplat method for novel view synthesis on the ETH3D dataset and comparing its results with previous benchmarks carried out on data outside the training set. We compute the key metrics LPIPS, PSNR, and SSIM. The results are presented in Table 1.
The overall performance of the model is similar to the performance on other out of distribution data sets ScanNet++ and DTU reported in the original paper by Ye et al. [20]. The slightly worse performance on the ETH3D data set can be explained by the fact that the model was trained on the RE10K data set [5], which consists largely of indoors scenes, whereas ETH3D also includes outdoor scenes. Another deciding factor could be the pairing of context and target views.
Kolmiulotteinen rekonstruktio tarkoittaa prosessia, jossa kaksiulotteisista kuvista tai muusta mittausdatasta, kuten LiDAR-datasta, lasketaan kohteen tai ympäristön kolmiulotteinen malli. Tämä työ käsittelee oppimispohjaista 3D-rekonstruktiota, joka korvaa perinteiset vaiheittaiset algoritmit yhdellä syväoppimismallilla, joka oppii kuvadatan perusteella ennustamaan alueen kolmiulotteisen rakenteen.
Tämän työn teoreettinen osuus tarjoaa yleiskatsauksen nykyiseen oppimispohjaiseen 3D-rekonstruktioon monesta näkymästä. Aiheeseen liittyvässä työssä käsitellään projektiivisen geometrian perusteita, structure from motion -ongelman ratkaisumenetelmiä, Gaussian splattingia sekä DUSt3R- ja NoPoSplat-malleja. DUSt3R on syväoppimismalli, joka oppii koulutusdatan perusteella sovittamaan haluttuun videoituun alueeseen pistepilven, joka muodostaa alueesta kokonaisvaltaisen kolmiulotteisen mallin. NoPoSplat puolestaan on samankaltainen syväoppimismalli, mutta se käyttää kolmiulotteisina primitiiveinä pisteiden sijasta värillisiä kolmiulotteisia gaussilaisia funktioita, mitä kuva 3 havainnollistaa.
Työn kokeellinen osuus keskittyy NoPoSplat-menetelmän uusien näkymien generoimiskyvyn vertailuun ETH3D-aineistolla ja muilla koulutusdatan ulkopuolisilla aineistoilla. Työssä lasketaan keskeistä metriikkaa: LPIPS, PSNR ja SSIM. Tulokset esitetään taulukossa 1.
Mallin kokonaissuorituskyky ETH3D-aineistolla vastaa muilla koulutusdatan ulkopuolisilla aineistoilla, kuten ScanNet++:lla ja DTU:lla, saatuja tuloksia [20]. Mallin hieman heikompi suorituskyky ETH3D-aineistolla selittynee sillä, että malli koulutettiin RE10K-aineistolla [5], joka koostuu pääasiassa sisätiloista, kun taas ETH3D sisältää myös ulkotiloja. Toinen mahdollinen vaikuttava tekijä on konteksti- ja kohdenäkymien metodologisen valitsemisen haasteellisuus, sillä mallille voi antaa vain kaksi kuvaa syötteeksi.