Studies on Bird Vocalization Detection and Classification of Species

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2014-11-17
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2014
Major/Subject
Mcode
Degree programme
Language
en
Pages
68 + app. 55
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 166/2014
Abstract
The topic of this thesis is automatic identification of bird vocalization and bird species based on the sounds they produce. Two main approaches for recordings bird sounds are presented: active recording and passive continuous recording. The aim of the active recording method is to capture sounds of a particular bird species or an individual. On the other hand, passive continuous recordings – which can be captured without human presence – are used in acoustical monitoring and are intended to include all sounds in the local environment. The automatic identification system begins by segmenting distinct sound events from the recordings. The purpose of segmentation is to detect syllables in bird sounds. Active recordings with one bird individual typically have a high signal-to-noise ratio that helps in the 
task. Segmentation of passive continuous recordings is more demanding due to the possibility of many simultaneous sound sources and a varying signal level of sound events. Audio events in recordings, comprising sounds from many sources, are also often overlapping which adds complexity to the segmentation phase. After the audio events have been segmented, feature extraction and classification are performed. Within feature extraction the audio signals are represented with a low number of attributes (compared to the original data) that characterize particular sound events. Feature extraction performs dimension reduction by removing redundant information from the original data. Suitable features depend on the data and should be selected so that they discriminate sounds from different sources. The classification phase decides on which class each sound event belongs to based on the feature representation. The main focus of this thesis is to develop and examine feature representations for different types of bird sounds suitable for automatic classification. Special attention has been given to birds that produce inharmonic and noisy sounds due to the diverse structure of their vocalizations. A method based on short time-domain structures was found to be efficient for many different types of sounds. It also exhibited efficiency for sound event detection in continuous recordings.continuous recordings.

Tämän väitöstyön aiheena on lintujen äänien automaattinen havaitseminen sekä lintulajien tunnistaminen lintujen tuottamien äänien perusteella. Työ esittelee pääasialliset tavat tehdä lintuäänityksiä, joita ovat aktiivinen sekä passiivinen äänitys. Aktiivisessa äänityksessä tarkoituksena on tallentaan tietyn lintulajin tai yksilön ääniä. Passiivista äänitystä, joka voidaan suorittaa myös ilman ihmisen läsnäoloa, käytetään akustiseen seurantaan ja tavoitteena on tallentaa kaikki alueella esiintyvät äänet. Ensimmäinen vaihe automaattisessa tunnistusjärjestelmässä on erillisten äänitapahtumien segmentointi. Tämän työn segmentoinnin tavoitteena on erottaa lintujen äänien yksittäiset tavut. Aktiivisissa äänityksissä signaali-kohinasuhde on tyypillisesti korkea, joka helpottaa tehtävää. Jatkuva-aikaisten passiivisten äänitysten segmentointi on haastavampaa, koska ne voivat sisältää ääniä useista äänilähteistä ja signaali-kohinasuhde vaihtelee äänitapahtumien välillä. Useita äänilähteitä sisältävissä tallenteissa erilliset äänitapahtumat ovat usein päällekkäisiä mikä vaikeuttaa segmentointia. Äänitapahtumien segmentoinnin jälkeen seuraavana vaiheena on piirteiden laskenta sekä luokittelu. Piirreirrotuksessa äänitapahtumat esitetään pienellä määrällä (alkuperäiseen datamäärään verrattuna) ääniä kuvaavilla tunnusluvuilla. Piirreirrotus vähentää alkuperäistä datamäärää poistamalla redundanttia tietoa. Kuhunkin tilanteeseen soveltuvat piirteet riippuvat äänien tyypistä ja tulisi valita niin että piirteet erottelevat eri lähteistä tulevat äänet. Luokitteluvaiheessa äänitapahtumat piirre-esityksellä kuvatut äänet luokitellaan eri luokkiin. Tämän väitöskirjatyön pääasiallisena tarkoituksena on kehittää ja tutkia erityyppisille lintujen äänille sopivia piirre-esityksiä niiden automaattiseksi luokittelemiseksi. Erityisessä asemassa on ollut epäharmonisia ja kohinanomaisia ääniä tuottavat linnut niiden äänien monipuolisen rakenteen vuoksi. Äänien lyhyttä aikarakennetta kuvaava menetelmä on osoittautunut tehokkaaksi esitykseksi monentyyppisille äänille. Tämä menetelmä on osoittautunut tehokkaaksi myös yksittäisten äänitapahtumien tunnistamiseen jatkuva-aikaisista äänitteistä.
Description
Supervising professor
Laine, Unto K., Prof., Aalto University, Department of Signal Processing and Acoustics. Finland
Thesis advisor
Laine, Unto K., Prof., Aalto University, Department of Signal Processing and Acoustics. Finland
Keywords
bird song, bioacoustics, sound event detection, feature extraction, pattern recognition, automated recognition, linnun laulu, bioakustiikka, äänitapahtuman havaitseminen, piirreirrotus, hahmontunnistus, automaattinen tunnistaminen
Other note
Parts
  • [Publication 1]: Seppo Fagerlund, Aki Harma. Parametrization of Inharmonic Bird Sounds for Automatic Recognition. In 13th European Signal Processing Conference (EUSIPCO), Antalya, Turkey, Sep 2005.
  • [Publication 2]: Panu Somervuo, Aki Harma and Seppo Fagerlund. Parametric representations of bird sounds for automatic species recognition. IEEE Trans. Audio, Speech and Language Processing, Vol. 14, no. 6, pp. 2252 - 2263, 2006.
    DOI: 10.1109/TASL.2006.872624 View at publisher
  • [Publication 3]: Seppo Fagerlund. Bird Species Recognition Using Support Vector Machines. EURASIP Journal on Advances in Signal Processing, Article ID 38637, 2007.
    DOI: 10.1155/2007/38637 View at publisher
  • [Publication 4]: Seppo Fagerlund. Monitoring of Capercaillie Courting Display. In 19th International Congress on Sound and Vibration (ICSV19), Vilinus, Lithuania, Jul 2012.
  • [Publication 5]: Seppo Fagerlund, Unto K. Laine. Classification of audio events using permutation transformation. Applied Acoustics, Vol. 83, pp. 57-63, 2014.
    DOI: 10.1016/j.apacoust.2014.03.006 View at publisher
  • [Publication 6]: Seppo Fagerlund, Unto K. Laine. New parametric representations of bird sounds for automatic classification. In 39th International Conference on Acoustics, Speech and Signal Processing (ICASSP), Florence, Italy, May 2014.
    DOI: 10.1109/ICASSP.2014.6855209 View at publisher
Citation