Evaluation of deep learning object detection architectures on Mel spectrograms for owl acoustic detection

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorPuttonen, Eetu
dc.contributor.advisorRosti, Hanna
dc.contributor.authorVaatmann, Roland
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorPajarinen, Joni
dc.date.accessioned2025-12-15T18:19:10Z
dc.date.available2025-12-15T18:19:10Z
dc.date.issued2025-11-23
dc.description.abstractReliable and scalable monitoring of Finnish owl populations faces urgent challenges as small species decline, and traditional surveys prove labour-intensive and often inconsistent. This thesis addresses these issues by evaluating whether Passive Acoustic Monitoring (PAM) combined with object-detection deep learning can provide accurate, fast, and operational detection of owl vocalisations, thereby supporting conservation and forest management decisions. The research investigates the application of PAM and object-detection-based deep learning to detect three Finnish owl species: the Ural Owl (Strix uralensis), the Boreal Owl (Aegolius funereus), and the Eurasian Pygmy Owl (Glaucidium passerinum). Mel spectrograms are utilised, and two convolutional neural network architectures, Faster R-CNN with a ResNet-50 backbone and YOLOv11-l, are trained on annotated recordings from multiple deployment sites, focusing on species-specific vocalisations. Model performance is evaluated using metrics such as mean Average Precision, accuracy, F1-score, and inference latency. Results demonstrate that YOLOv11-l significantly outperforms Faster R-CNN, achieving an mAP50:95 of 75.7% and an F1-score of 96.8% with substantially lower inference times. In contrast, Faster R-CNN records an mAP50:95 of 66.9% and an F1-score of 96.3%. This research culminates in the development of an end-to-end processing pipeline that leverages YOLOv11-l to analyse multi-site recordings and produce accurate detection summaries. These findings highlight the effectiveness of modern one-stage detectors for large-scale owl monitoring in Finnish boreal forests, thereby supporting data-driven conservation and management efforts.en
dc.description.abstractSuomalaisten pöllökantojen luotettava ja laajamittainen seuranta on haastavaa. Pienikokoiset lajit ovat katoamassa ja perinteiset laskentamenetelmät ovat työvoimavaltaisia ja usein epäjohdonmukaista. Tässä työssä tutkitaan, voidaanko passiivisen akustisen seurannan (PAM) ja objektintunnistukseen perustuvan syväoppimisen avulla tuottaa tarkkaa, nopeaa ja operatiivisesti hyödynnettävää pöllöjen ääntelyn tunnistusta, joka tukee suojelu- ja metsänhoitopäätöksiä. Tässä työssä tutkitaan passiivisen akustisen seurannan (PAM) ja objektintunnistukseen perustuvan syväoppimisen soveltamista kolmen Suomessa esiintyvän pöllölajin tunnistamiseen: viirupöllö (Strix uralensis), helmipöllö (Aegolius funereus) ja varpuspöllö (Glaucidium passerinum). Mel spektrogrammeihin perustuen koulutettiin kaksi konvoluutiohermoverkkoarkkitehtuuria, Faster R-CNN ResNet-50 taustaverkolla ja YOLOv11-l, käyttäen useilta mittauspaikoilta kerättyjä luokiteltuja äänitteitä, joissa keskityttiin lajikohtaisiin ääntelyihin. Mallien suorituskykyä arvioitiin mittareilla, kuten mean Average Precision (mAP), tarkkuus (accuracy), F1-score ja prosessointiaika (inference). Tulokset osoittivat, että YOLOv11-l suoriutui selvästi paremmin kuin Faster R-CNN, saavuttaen mAP50:95-arvon 75,7 % ja F1-arvon 96,8 % huomattavasti lyhyemmällä prosessointiajalla. Faster R-CNN:n mAP50:95-arvo oli vertailussa 66,9 %. Tutkimus johti käsittelyputken kehittämiseen, joka hyödyntää YOLOv11-l-mallia useilta mittauspaikoilta kerättyjen äänitteiden analysointiin ja havaintokoosteiden tuottamiseen. Tulokset korostavat modernien syväoppi tunnistus arkkitehtuurien soveltuvuutta laajamittaiseen pöllöseurantaan Suomessa ja tukevat tiedepohjaista suojelu- ja hoitotyötä.fi
dc.format.extent67
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/141132
dc.identifier.urnURN:NBN:fi:aalto-202512159247
dc.language.isoenen
dc.locationP1fi
dc.programmeMaster's Programme in Automation and Electrical Engineeringen
dc.programmeAutomaation ja sähkötekniikan maisteriohjelmafi
dc.programmeMagisterprogrammet i automation och elektrotekniksv
dc.programme.majorControl, Robotics and Autonomous Systemsen
dc.subject.keywordpassive acoustic monitoringen
dc.subject.keywordbioacousticsen
dc.subject.keywordowl vocalisation detectionen
dc.subject.keywordMel spectrogramen
dc.subject.keyworddeep learningen
dc.subject.keywordobject detectionen
dc.titleEvaluation of deep learning object detection architectures on Mel spectrograms for owl acoustic detectionen
dc.titleSyväoppivien objektintunnistusarkkitehtuurien arviointi pöllöjen akustisessa tunnistuksessa Mel-spektrogrammien avullafi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
master_Vaatmann_Roland_2025.pdf
Size:
2.5 MB
Format:
Adobe Portable Document Format