aalto1 untyped-item.component.html

Deep learning architecture comparison for semantic segmentation of forest roads

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Science | Master's thesis
Electronic archive copy is available via Aalto Thesis Database.

Department

Major/Subject

Mcode

Language

en

Pages

71

Series

Abstract

Digitizing forest roads enhances efficiency in road monitoring, maintenance, and standardized condition assessment. A key step in this digitization process is the semantic segmentation of forest road scenes. In this thesis, we compare six supervised deep learning architectures for the semantic segmentation of forest roads. The selected architectures process data represented as sets, graphs, or grids, and include differently designed group equivariant (G-equivariant) and coarsening layers. We annotated 9.7 km of forest roads for training, validating, and testing the neural networks. The trained models were evaluated based on their semantic segmentation accuracy, geometric stability, and computational performance. Our results show that the two models with the highest semantic segmentation accuracy are Omni-Adaptive CNN (OACNN), which operates on voxels, and Point Transformer v3 (PTv3), which operates on graphs. Specifically, OACNN achieves a mean IoU of 91.81% for road and 79.28% for on-road vegetation. PTv3 achieves a mean IoU of 91.74% for road and 78.07% for on-road vegetation. Additionally, our analysis revealed major differences in models’ geometric stability. RandLA-Net was the most robust to non-rigid deformations of input point clouds, while OACNN was the most robust with respect to point cloud orientation. Finally, models operating on structured input grids had the shortest forward pass times. These findings contribute to more accurate, robust, and efficient forest road digitization.

Metsäteiden digitointi tehostaa teiden monitorointia, ylläpitoa ja standardisoitua laatuarviointia. Keskeinen askel digitointiprosessissa on metsätieympäristön semanttinen segmentointi. Tässä työssä vertailemme kuutta ohjattua syväoppimisarkkitehtuuria metsäteiden semanttisessa segmentoinnissa. Valitut arkkitehtuurit prosessoivat dataa joko pistejoukkona, graafina tai rasterina, ja niillä on erilaiset ryhmäekvivariantti- (G-ekvivariantti) ja koontikerrokset. Annotoimme 9,7 km metsätietä neuroverkkojen kouluttamiseen, validointiin ja testaamiseen. Koulutetut mallit arvioitiin semanttisen segmentoinnin tarkkuudessa, geometrisessa stabiilisuudessa ja laskennallisessa suorituskyvyssä. Tuloksemme osoittavat, että segmentointitarkkuudessa kaksi parasta mallia olivat Omni-Adaptive CNN (OACNN), joka operoi vokseleilla, ja Point Transformer v3 (PTv3), joka operoi graafeilla. OACNN:n keskimääräinen IoU-metriikka oli tielle 91,81% ja tiekasvillisuudelle 79,28%. Vastaavasti PTv3:n keskimääräinen IoU-metriikka oli tielle 91,74% ja tiekasvillisuudelle 78,07%. Lisäksi analyysimme paljasti selkeitä eroja mallien geometrisessa stabiilisuudessa. RandLA-Net oli robustein sisääntulevien pistepilvien ei-jäykille muutoksille, kun taas OACNN oli robustein pistepilvien orientaation suhteen. Lisäksi mallit, jotka operoivat strukturoiduilla rastereilla, saavuttivat lyhyimmät eteenpäin kulkuajat. Nämä havainnot myötävaikuttavat tarkempaan, robustimpaan ja tehokkaampaan metsäteiden digitointiin.

Description

Supervisor

Garg, Vikas

Thesis advisor

El Issaoui, Aimad
Taher, Josef
Hyyppä, Juha

Other note

Citation

Endorsement

Review

Supplemented By

Referenced By