Pallet detection in warehouse environment

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2023-01-23
Department
Major/Subject
Machine Learning, Data Science and Artificial Intelligence
Mcode
SCI3044
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
50+7
Series
Abstract
In this Thesis, the feasibility of using the YOLOv7 (You Only Look Once) object detection algorithm for detecting and classifying empty and full pallets from images in a warehouse environment is examined. The best practices for conducting an object detection experiment from scratch are also explored, including the best practices for data collection, annotation, subsampling, and model training and evaluation. A model ablation study is conducted to determine the minimum sample size that achieves at least 90% precision and 70% recall with an IoU (Intersect over Union) of over 0.5. Data collection is performed using a video camera, resulting in 112157 frames that are annotated. Two different subsampling techniques for subsampling the video data are compared, constant rate subsampling and unique subsampling. The constant rate subsampling takes frames from the video periodically with some rate. The uniqueness-based subsampling subsamples the pallets that produce the most unique embeddings compared to each other. The results indicate that training the model with data subsampled with the unique subsampling method produces the best results, with a precision of 93.4% and a recall of 96.3%. This was achieved using only 1% of the original data, equivalent to training with 588 images.

Diplomityössä selvitetään YOLOv7 kappaleentunnistusalgoritmin kykyä luokitella täydet sekä tyhjät kuormalavat kuvista varastoympäristössä. Työssä tutkitaan myös yleisiä käytäntöjä datan keruun, annotoinnin sekä aliotannan osalta koneoppimismallin koulutuksessa sekä testauksessa. Ablaatiotutkimus tehtiin koneoppimismallille, jossa tavoitteena oli selvittää minimi otantakoko, jolla saadaan vähintään 90 % tarkkuus, sekä 70 % sensitiivityys, samalla saavuttaen vähintään yli 0.5 arvon Jaccardin kertoimelle. Dataa kerätiin videokameralla yhteensä 112157 kuvaa, joista kaikki annotoitiin. Kahta eri menetelmää aliotantaan vertailtiin. Ensimmäinen menetelmä oli aliotanta, jossa valittiin jaksollisesti kuvia videolta. Toisessa menetelmässä paleteille laskettiin ainutlaatuisuus toistensa suhteen. Tämän jälkeen aliotantaan sisällytettiin ainutlaatuisimmat kuvat. Tuloksien perusteella YOLOv7-koneoppimismalli, joka on koulutettu uniikkiuteen perustuvalla aliotantalla saavuttaa parhaan suorituskyvyn käyttämällä vain 1 % alkuperäisestä datasta. Tämä vastaa mallin koulutusta 588 kuvalla. Malli saavuttaa 93,4 % tarkkuuden sekä 96,3 % sensitiivisyyden.
Description
Supervisor
Jung, Alexander
Thesis advisor
Savander, Tony
Keywords
computer vision, YOLO, object detection, machine learning, YOLOv7, convolutional neural network
Other note
Citation