A Review of Datasets and Performance Metrics Used in the Development of Visual Object Tracking Algorithms
No Thumbnail Available
Files
Magnusson_Dennis_2024.pdf (11.16 MB) (opens in new window)
Aalto login required (access for Aalto Staff only).
URL
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2024-05-08
Department
Major/Subject
informaatioteknologia
Mcode
ELEC3015
Degree programme
Sähkötekniikan kandidaattiohjelma
Language
en
Pages
23
Series
Abstract
Visual object tracking (VOT) is an area of computer vision that has developed significantly in the last years. The task in visual object tracking is to predict the location of a target object in consecutive video frames based only on a known initial position. This technology has several diverse applications such as video analytics, augmented reality and autonomous vehicles. To effectively develop new VOT methods and compare the performance of existing ones, it is crucial to study the datasets and performance metrics used in the field. Different algorithms feature varying performance under different conditions, each with its own strengths and weaknesses. Datasets and performance metrics are closely related, as algorithm performance is typically measured against benchmark datasets that must represent a wide range of conditions. This thesis provides a literature review, in which VOT methods are overviewed and a selection of datasets and performance metrics are reviewed and compared. The thesis focuses on eight different datasets which were selected based on their prevalence in literature and on their recency. The literature reviewed is drawn from peer-reviewed journals, conference proceedings, survey papers, and reputable databases. The work concluded, that new datasets in the VOT field are becoming larger than their predecessors. New datasets also introduce more comprehensive annotations and contain a more balanced and diverse representation of object classes. However, larger-scale datasets contain, on average, shorter sequences, which might make them less suitable for benchmarking long-term tracking. The reviewed performance metrics complement each other and should be used together in order to minimize bias in performance comparisons, as no single metric is entirely unbiased.Visuaalinen objektin seuranta (engl. visual object tracking) on konenäön tutkimusalue, joka on kehittynyt merkittävästi viime vuosina. Visuaalisen objektin seurannan tavoitteena on arvioida kohteen tulevaa sijaintia peräkkäisillä videon kuvaruuduilla, kun sen sijainti ensimmäisellä kuvaruudulla tiedetään. Tällä teknologialla on monia sovelluskohteita, kuten itsenäisesti toimivat ajoneuvot, lisätty todellisuus ja videoanalytiikka. On tärkeää tutkia alalla käytettyjä data-aineistoja ja suorituskykymetriikoita, jotta uusia menetelmiä voidaan kehittää ja olemassa olevien algoritmien suorituskykyä verrata keskenään. Eri algoritmit suoriutuvat eri kaltaisissa olosuhteissa eri tavoin ja niillä on erilaisia vahvuuksia ja heikkouksia. Data-aineistot ja suorituskykymetriikat liittyvät tiiviisti toisiinsa, sillä algoritmien suorituskykyä mitataan usein jotakin data-aineistoa vasten. Aineistojen tulee edustaa tasapuolisesti sellaisia olosuhteita, joissa algoritmit lopulta toimivat, ja suorituskykymetriikoiden tulee edustaa laajasti ja tasapuolisesti algoritmien ominaisuuksia. Tässä kirjallisuustutkimuksessa käydään läpi visuaalisen objektin seurannan menetelmiä, esitellään ja vertaillaan keskeisiä data-aineistoja ja suorituskykymetriikoita sekä pyritään löytämään niissä esiintyviä aukkoja. Työssä keskitytään tutkimaan kahdeksaa eri data-aineistoa, jotka valikoituivat niiden yleisyydellään kirjallisuudessa sekä niiden uutuudellaan. Aineistot ovat laajuuksiltaan eri kokoisia ja ne koostuvat videoista, joissa seurattava objekti on rajattu suorakaiteella jokaisessa kuvaruudussa. Seurattavan objektin sijainnin lisäksi tietoaineistojen videoihin on lisätty merkintä videolla vallitsevista olosuhteista. Merkinnät mahdollistavat seuranta-algoritmien vahvuuksien ja heikkouksien tunnistamisen eri olosuhteissa. Työssä vertaillaan eri suorituskykymetriikoita, kuten tarkkuutta, limittäisyyttä (engl. region overlap), robustisuutta sekä nopeutta. Tarkkuus mittaa algoritmin kykyä sijoittaa objektin sijaintia rajaavan suorakaiteen keskipiste mahdollisimman tarkasti, mutta se ei ota huomioon rajaavan suorakaiteen kokoa. Limittäisyys sen sijaan mittaa sitä, kuinka paljon yhteistä pinta-ala arvioidulla ja todellisella objektin rajaavilla suorakaiteilla on. Robustisuus voidaan määrittää seuranta-algoritmin epäonnistumisten perusteella, ja nopeudella tarkoitetaan algoritmin suoritusnopeutta. Kirjallisuustutkimuksen lopputuloksena havaittiin, että data-aineistot ovat muuttumassa suuremmiksi ja niiden sisältämien videoiden monipuolisuus on kasvanut. Vaikka uusimmassa data-aineistossa on monipuolisempi valikoima eri objekteja, niin aineiston sisältämien videoiden keskipituus on lyhyt, eikä se edusta olosuhteita, jossa seuranta-aikaväli on pitkä. Suorituskykymetriikoiden havaittiin täydentävän toisiaan ja useampaa metriikkaa tulisi käyttää vinoumien minimoimiseksi. Mikään yksittäinen suorituskykymetriikka ei riitä kokonaisvaltaisen suorituskyvyn mittaamiseen, eikä mikään metriikka ole täysin riippumaton.Description
Supervisor
Aalto, SamuliThesis advisor
Xiao, YuKeywords
visual object tracking, dataset, performance metric, computer vision, benchmarking