Evaluation of deep learning object detection architectures on Mel spectrograms for owl acoustic detection
| dc.contributor | Aalto-yliopisto | fi |
| dc.contributor | Aalto University | en |
| dc.contributor.advisor | Puttonen, Eetu | |
| dc.contributor.advisor | Rosti, Hanna | |
| dc.contributor.author | Vaatmann, Roland | |
| dc.contributor.school | Sähkötekniikan korkeakoulu | fi |
| dc.contributor.school | School of Electrical Engineering | en |
| dc.contributor.supervisor | Pajarinen, Joni | |
| dc.date.accessioned | 2025-12-15T18:19:10Z | |
| dc.date.available | 2025-12-15T18:19:10Z | |
| dc.date.issued | 2025-11-23 | |
| dc.description.abstract | Reliable and scalable monitoring of Finnish owl populations faces urgent challenges as small species decline, and traditional surveys prove labour-intensive and often inconsistent. This thesis addresses these issues by evaluating whether Passive Acoustic Monitoring (PAM) combined with object-detection deep learning can provide accurate, fast, and operational detection of owl vocalisations, thereby supporting conservation and forest management decisions. The research investigates the application of PAM and object-detection-based deep learning to detect three Finnish owl species: the Ural Owl (Strix uralensis), the Boreal Owl (Aegolius funereus), and the Eurasian Pygmy Owl (Glaucidium passerinum). Mel spectrograms are utilised, and two convolutional neural network architectures, Faster R-CNN with a ResNet-50 backbone and YOLOv11-l, are trained on annotated recordings from multiple deployment sites, focusing on species-specific vocalisations. Model performance is evaluated using metrics such as mean Average Precision, accuracy, F1-score, and inference latency. Results demonstrate that YOLOv11-l significantly outperforms Faster R-CNN, achieving an mAP50:95 of 75.7% and an F1-score of 96.8% with substantially lower inference times. In contrast, Faster R-CNN records an mAP50:95 of 66.9% and an F1-score of 96.3%. This research culminates in the development of an end-to-end processing pipeline that leverages YOLOv11-l to analyse multi-site recordings and produce accurate detection summaries. These findings highlight the effectiveness of modern one-stage detectors for large-scale owl monitoring in Finnish boreal forests, thereby supporting data-driven conservation and management efforts. | en |
| dc.description.abstract | Suomalaisten pöllökantojen luotettava ja laajamittainen seuranta on haastavaa. Pienikokoiset lajit ovat katoamassa ja perinteiset laskentamenetelmät ovat työvoimavaltaisia ja usein epäjohdonmukaista. Tässä työssä tutkitaan, voidaanko passiivisen akustisen seurannan (PAM) ja objektintunnistukseen perustuvan syväoppimisen avulla tuottaa tarkkaa, nopeaa ja operatiivisesti hyödynnettävää pöllöjen ääntelyn tunnistusta, joka tukee suojelu- ja metsänhoitopäätöksiä. Tässä työssä tutkitaan passiivisen akustisen seurannan (PAM) ja objektintunnistukseen perustuvan syväoppimisen soveltamista kolmen Suomessa esiintyvän pöllölajin tunnistamiseen: viirupöllö (Strix uralensis), helmipöllö (Aegolius funereus) ja varpuspöllö (Glaucidium passerinum). Mel spektrogrammeihin perustuen koulutettiin kaksi konvoluutiohermoverkkoarkkitehtuuria, Faster R-CNN ResNet-50 taustaverkolla ja YOLOv11-l, käyttäen useilta mittauspaikoilta kerättyjä luokiteltuja äänitteitä, joissa keskityttiin lajikohtaisiin ääntelyihin. Mallien suorituskykyä arvioitiin mittareilla, kuten mean Average Precision (mAP), tarkkuus (accuracy), F1-score ja prosessointiaika (inference). Tulokset osoittivat, että YOLOv11-l suoriutui selvästi paremmin kuin Faster R-CNN, saavuttaen mAP50:95-arvon 75,7 % ja F1-arvon 96,8 % huomattavasti lyhyemmällä prosessointiajalla. Faster R-CNN:n mAP50:95-arvo oli vertailussa 66,9 %. Tutkimus johti käsittelyputken kehittämiseen, joka hyödyntää YOLOv11-l-mallia useilta mittauspaikoilta kerättyjen äänitteiden analysointiin ja havaintokoosteiden tuottamiseen. Tulokset korostavat modernien syväoppi tunnistus arkkitehtuurien soveltuvuutta laajamittaiseen pöllöseurantaan Suomessa ja tukevat tiedepohjaista suojelu- ja hoitotyötä. | fi |
| dc.format.extent | 67 | |
| dc.format.mimetype | application/pdf | en |
| dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/141132 | |
| dc.identifier.urn | URN:NBN:fi:aalto-202512159247 | |
| dc.language.iso | en | en |
| dc.location | P1 | fi |
| dc.programme | Master's Programme in Automation and Electrical Engineering | en |
| dc.programme | Automaation ja sähkötekniikan maisteriohjelma | fi |
| dc.programme | Magisterprogrammet i automation och elektroteknik | sv |
| dc.programme.major | Control, Robotics and Autonomous Systems | en |
| dc.subject.keyword | passive acoustic monitoring | en |
| dc.subject.keyword | bioacoustics | en |
| dc.subject.keyword | owl vocalisation detection | en |
| dc.subject.keyword | Mel spectrogram | en |
| dc.subject.keyword | deep learning | en |
| dc.subject.keyword | object detection | en |
| dc.title | Evaluation of deep learning object detection architectures on Mel spectrograms for owl acoustic detection | en |
| dc.title | Syväoppivien objektintunnistusarkkitehtuurien arviointi pöllöjen akustisessa tunnistuksessa Mel-spektrogrammien avulla | fi |
| dc.type | G2 Pro gradu, diplomityö | fi |
| dc.type.ontasot | Master's thesis | en |
| dc.type.ontasot | Diplomityö | fi |
| local.aalto.electroniconly | yes | |
| local.aalto.openaccess | yes |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- master_Vaatmann_Roland_2025.pdf
- Size:
- 2.5 MB
- Format:
- Adobe Portable Document Format