Deep learning for road area semantic segmentation in multispectral lidar data
Loading...
URL
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu |
Master's thesis
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2019-05-06
Department
Major/Subject
Complex Systems
Mcode
SCI3060
Degree programme
Master’s Programme in Life Science Technologies
Language
en
Pages
83+1
Series
Abstract
Robust scene understanding is one of the main keys for safe autonomous vehicles and for competent advanced driver assistance systems. Deep neural networks are powerful tools for scene understanding, but they do not provide high-quality predictions in challenging illumination conditions with camera data. We implement three deep learning models that are able to predict the driveable road area in real-time with low latency (10.4 ms inference) from color image data (90.5 IoU) and from illumination invariant lidar data (86.2 IoU) achieving almost comparable accuracies with both modalities. We experiment with virtual multispectral solid state lidar data, that has been generated from real-world georeferenced point clouds, and show that the spectral information helps in the road area semantic segmentation task. We implement a modification to the SqueezeSeg architecture by substituting the middle layers with the Atrous Spatial Pyramid Pooling module from the DeepLabv3+ architecture, resulting in over 3× reduce in the amount of parameters and the amount of computation, but still achieving higher accuracy than the original architecture.Syväoppimiseen perustuvat konenäkömenetelmät ovat huomattavasti edistäneet itseohjautuvien ajoneuvojen ja kuljettajaa avustavien järjestelmien kehitystä. Konenäkömenetelmien luotettavuutta rajoittaa kuitenkin sensorijärjestelmissä yleisesti käytettyjen näkyvän aallonpituusalueen kameroiden herkkyys haastavissa valaistusolosuhteissa sekä niiden kyvyttömyys tuottaa kolmiulotteista informaatiota tieympäristöstä. Tässä työssä tutkitaan, kuinka usealla aallonpituusalueella toimiva kuvantava laserkeilain voisi kompensoida kamerasensorien puutteita, tai jopa korvata kamerat kokonaan, ajettavan tiealueen segmentoinnin osalta. Työn toisena tutkimuskohteena on vertailla kolmea neuroverkkoarkkitehtuuria, jotka hyödyntävät viimeaikaisia neuroverkkojen suorituskykyä parantavia moduuleita. Kokeissa havaitaan usean aallonpituusalueen laserkeilausaineiston kasvattavan tiealueen segmentoinnin tarkkuutta verrattuna yhden aallonpituusalueen laserkeilausaineistoon. Työssä osoitetaan laserkeilainpohjaisen (86.2 IoU) tiealueen segmentoinnin menetelmän saavuttavan lähes vertailukelpoisen tarkkuuden kamerapohjaiseen (90.5 IoU) menetelmään verrattuna. Tutkimuksessa havaittiin, että kohdennetuilla muutoksilla neuroverkkoarkkitehtuureihin voidaan saavuttaa lähes kolminkertainen säästö laskennallisten resurssien käytössä, tarkkuuden kärsimättä. Erityisesti ASPP-moduulin havaittiin parantavan tiealueen segmentoinnin tarkkuutta sekä kasvattavan suorituskykyä. Työssä toteutetut neuroverkkoarkkitehtuurit soveltuvat käytettäväksi reaaliaikaista toimintaa vaativissa tehtävissä (10.4 ms suoritusaika).Description
Supervisor
Kannala, JuhoThesis advisor
Jaakkola, AnttoniKaijaluoto, Risto
Keywords
deep learning, semantic segmentation, autonomous driving, multispectral, lidar