AIR: Aerial Inspection RetinaNet for Land Search and Rescue Missions

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2022-01-24

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

167 + 1

Series

Abstract

Search and rescue (SAR) missions have been carried out for centuries to aid those who are lost or in distress, typically in some remote areas, such as wilderness. With recent advances in technology, small unmanned aerial vehicles or drones have been used during SAR missions for years in many countries. The reason is that drones enable rapid aerial photographing of large areas with potentially difficult-to-reach terrain and can even match several land search parties in efficiency. However, there remains the issue of inspecting a vast amount of aerial drone images for tiny clues about the missing person location, which is currently a manual task done by humans in most cases. It turns out this inspection process is very slow, tedious and error-prone for most people and can significantly delay the entire aerial drone search operation. In this thesis, we propose a novel deep learning based object detection approach to automate this drone footage inspection task. As such, we use a data set called HERIDAL of aerial imagery from Mediterranean landscape to train our detector, and the goal is to outperform existing object detection methods on the HERIDAL test data. Consequently, we experiment with hyperparameter tuning, model architecture selection, online data augmentation, image tiling, confidence score threshold calibration and several other tricks to improve the test performance of our method. Finally, we present Aerial Inspection RetinaNet (AIR) as the outcome of these experiments, which is our solution to this aerial person detection (APD) problem in SAR. Moreover, we demonstrate state-of-the-art results for the AIR detector on the difficult HERIDAL benchmark in terms of both precision (~21 percentage points increase) and speed. In addition, we provide a new formal definition for the APD problem in SAR missions related to the HERIDAL data set. That is, we define a novel evaluation scheme, which ranks detectors in terms of real-world SAR localization requirements, which are much looser than in typical object detection tasks. Moreover, we devise an estimator for average human detection performance via a meta-analysis study, which can be used as an initial baseline for APD method performance. Lastly, we propose a novel bounding box aggregation method for robust, approximate object localization: the merging of overlapping bounding boxes (MOB) algorithm.

Kadonneiden tai hädässä olevien ihmisten etsintää sekä pelastusta (SAR) on tehty jo vuosisatoja, usein syrjäisillä seuduilla, kuten erämaa-alueilla. Teknologian kehityksen myötä pieniä miehittämättömiä ilma-aluksia eli drooneja on käytetty tämän etsintätoiminnan tukena jo vuosia monissa maissa. Tämä johtuu siitä, että droonit kykenevät nopeasti valokuvaamaan ilmasta laajoja alueita mahdollisesti hankalakulkuista maastoa. Tällä toiminnalla voidaan parhaimmillaan korvata useita maaetsintäpartioita. Ongelmana ihmisille on kuitenkin läpikäydä manuaalisesti valtava määrä droonikuvamateriaalia löytääkseen vihjeitä kadonneen ihmisen sijainnista. Tämä onkin useimmille ihmisille erittäin hidas, pitkäveteinen sekä virhealtis tehtävä. Lisäksi tämä manuaalinen läpikäynti myös viivästyttää koko drooneilla tehtävää ilmaetsintäoperaatiota. Tästä syystä keskitymme tässä diplomityössä drooni-kuvan läpikäyntiongelman automatisoimiseen uudella syväoppimiseen perustuvalla objektintunnistusmenetelmällä. Käytämme mallin kouluttamiseen HERIDAL-nimistä tietokantaa, joka koostuu drooneilla kuvatuista välimerenmaaston ilmakuvista. Tavoitteenamme on parantaa parhaiden olemassa olevien objektintunnistusmenetelmien tuloksia HERIDAL:in testidatalla. Tästä johtuen kokeilemme erilaisia tekniikoita, kuten hyperparametrien säätämistä, mallin arkkitehtuurin valintaa, datan augmentointia, kuvien jakamista tiileihin, varmuuspisterajan kalibrointia sekä useita muita keinoja, parantaaksemme menetelmämme testisuorituskykyä. Lopulta esittelemme Aerial Inspection RetinaNet (AIR) -tunnistimemme, joka syntyi näiden kokeiden pohjalta ratkaisunamme henkilöntunnistusongelmaan SAR-ilmakuvista. Lisäksi saavutamme tunnistimellamme huippuluokan tulokset HERIDAL:in testidatalla, etenkin precision-metriikassa (~21 prosenttiyksikön parannus) sekä nopeudessa. Ohella esitämme uuden formaalin määritelmän HERIDAL:in henkilöntunnistusongelmalle ilmaetsintäkuvista. Tätä varten määrittelemme uudenlaisen evaluointimenetelmän, joka pisteyttää tunnistimet realististisien SAR-paikannusvaatimusten mukaan, jotka ovat yleensä paljon löyhemmät kuin tyypillisissä objektintunnistustehtävissä. Lisäksi arvioimme ihmisten suorituskykyä tässä tunnistustehtävässä meta-analyysitutkimuksella, josta saatua estimaattoria voi käyttää vertailukohtana objektintunnistusmenetelmille. Esittelemme myös uuden havaintojen ryhmittelymenetelmän vakaaseen ja suurpiirteiseen objektintunnistukseen nimeltä: merging of overlapping bounding boxes (MOB) -algoritmi.

Description

Supervisor

Jung, Alexander

Thesis advisor

Naseri, Hassan

Keywords

deep learning, aerial person detection, search and rescue, drones, HERIDAL data set, bounding box aggregation

Other note

Citation