aalto1 untyped-item.component.html
Deep learning architecture comparison for semantic segmentation of forest roads
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Master's thesis
Electronic archive copy is available via Aalto Thesis Database.
Authors
Date
Department
Major/Subject
Mcode
Degree programme
Language
en
Pages
71
Series
Abstract
Digitizing forest roads enhances efficiency in road monitoring, maintenance, and standardized condition assessment. A key step in this digitization process is the semantic segmentation of forest road scenes. In this thesis, we compare six supervised deep learning architectures for the semantic segmentation of forest roads. The selected architectures process data represented as sets, graphs, or grids, and include differently designed group equivariant (G-equivariant) and coarsening layers. We annotated 9.7 km of forest roads for training, validating, and testing the neural networks. The trained models were evaluated based on their semantic segmentation accuracy, geometric stability, and computational performance. Our results show that the two models with the highest semantic segmentation accuracy are Omni-Adaptive CNN (OACNN), which operates on voxels, and Point Transformer v3 (PTv3), which operates on graphs. Specifically, OACNN achieves a mean IoU of 91.81% for road and 79.28% for on-road vegetation. PTv3 achieves a mean IoU of 91.74% for road and 78.07% for on-road vegetation. Additionally, our analysis revealed major differences in models’ geometric stability. RandLA-Net was the most robust to non-rigid deformations of input point clouds, while OACNN was the most robust with respect to point cloud orientation. Finally, models operating on structured input grids had the shortest forward pass times. These findings contribute to more accurate, robust, and efficient forest road digitization.
Metsäteiden digitointi tehostaa teiden monitorointia, ylläpitoa ja standardisoitua laatuarviointia. Keskeinen askel digitointiprosessissa on metsätieympäristön semanttinen segmentointi. Tässä työssä vertailemme kuutta ohjattua syväoppimisarkkitehtuuria metsäteiden semanttisessa segmentoinnissa. Valitut arkkitehtuurit prosessoivat dataa joko pistejoukkona, graafina tai rasterina, ja niillä on erilaiset ryhmäekvivariantti- (G-ekvivariantti) ja koontikerrokset. Annotoimme 9,7 km metsätietä neuroverkkojen kouluttamiseen, validointiin ja testaamiseen. Koulutetut mallit arvioitiin semanttisen segmentoinnin tarkkuudessa, geometrisessa stabiilisuudessa ja laskennallisessa suorituskyvyssä. Tuloksemme osoittavat, että segmentointitarkkuudessa kaksi parasta mallia olivat Omni-Adaptive CNN (OACNN), joka operoi vokseleilla, ja Point Transformer v3 (PTv3), joka operoi graafeilla. OACNN:n keskimääräinen IoU-metriikka oli tielle 91,81% ja tiekasvillisuudelle 79,28%. Vastaavasti PTv3:n keskimääräinen IoU-metriikka oli tielle 91,74% ja tiekasvillisuudelle 78,07%. Lisäksi analyysimme paljasti selkeitä eroja mallien geometrisessa stabiilisuudessa. RandLA-Net oli robustein sisääntulevien pistepilvien ei-jäykille muutoksille, kun taas OACNN oli robustein pistepilvien orientaation suhteen. Lisäksi mallit, jotka operoivat strukturoiduilla rastereilla, saavuttivat lyhyimmät eteenpäin kulkuajat. Nämä havainnot myötävaikuttavat tarkempaan, robustimpaan ja tehokkaampaan metsäteiden digitointiin.
Description
Supervisor
Garg, VikasThesis advisor
El Issaoui, AimadTaher, Josef
Hyyppä, Juha