Pallet detection in warehouse environment

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Perustieteiden korkeakoulu | Master's thesis

Date

2023-01-23

Department

Major/Subject

Machine Learning, Data Science and Artificial Intelligence

Mcode

SCI3044

Degree programme

Master’s Programme in Computer, Communication and Information Sciences

Language

en

Pages

50+7

Series

Abstract

In this Thesis, the feasibility of using the YOLOv7 (You Only Look Once) object detection algorithm for detecting and classifying empty and full pallets from images in a warehouse environment is examined. The best practices for conducting an object detection experiment from scratch are also explored, including the best practices for data collection, annotation, subsampling, and model training and evaluation. A model ablation study is conducted to determine the minimum sample size that achieves at least 90% precision and 70% recall with an IoU (Intersect over Union) of over 0.5. Data collection is performed using a video camera, resulting in 112157 frames that are annotated. Two different subsampling techniques for subsampling the video data are compared, constant rate subsampling and unique subsampling. The constant rate subsampling takes frames from the video periodically with some rate. The uniqueness-based subsampling subsamples the pallets that produce the most unique embeddings compared to each other. The results indicate that training the model with data subsampled with the unique subsampling method produces the best results, with a precision of 93.4% and a recall of 96.3%. This was achieved using only 1% of the original data, equivalent to training with 588 images.

Diplomityössä selvitetään YOLOv7 kappaleentunnistusalgoritmin kykyä luokitella täydet sekä tyhjät kuormalavat kuvista varastoympäristössä. Työssä tutkitaan myös yleisiä käytäntöjä datan keruun, annotoinnin sekä aliotannan osalta koneoppimismallin koulutuksessa sekä testauksessa. Ablaatiotutkimus tehtiin koneoppimismallille, jossa tavoitteena oli selvittää minimi otantakoko, jolla saadaan vähintään 90 % tarkkuus, sekä 70 % sensitiivityys, samalla saavuttaen vähintään yli 0.5 arvon Jaccardin kertoimelle. Dataa kerätiin videokameralla yhteensä 112157 kuvaa, joista kaikki annotoitiin. Kahta eri menetelmää aliotantaan vertailtiin. Ensimmäinen menetelmä oli aliotanta, jossa valittiin jaksollisesti kuvia videolta. Toisessa menetelmässä paleteille laskettiin ainutlaatuisuus toistensa suhteen. Tämän jälkeen aliotantaan sisällytettiin ainutlaatuisimmat kuvat. Tuloksien perusteella YOLOv7-koneoppimismalli, joka on koulutettu uniikkiuteen perustuvalla aliotantalla saavuttaa parhaan suorituskyvyn käyttämällä vain 1 % alkuperäisestä datasta. Tämä vastaa mallin koulutusta 588 kuvalla. Malli saavuttaa 93,4 % tarkkuuden sekä 96,3 % sensitiivisyyden.

Description

Supervisor

Jung, Alexander

Thesis advisor

Savander, Tony

Keywords

computer vision, YOLO, object detection, machine learning, YOLOv7, convolutional neural network

Other note

Citation