Neural network audio preset tagger

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

School of Electrical Engineering | Master's thesis

Department

Mcode

Language

en

Pages

59

Series

Abstract

In recent years, audio presets, which are a set of predefined parameter values for signal processing algorithms, have become a popular way of saving and sharing certain desirable sound characteristics of these signal processing algorithms. The naming of these presets via natural language, conveys important information regarding the expected tonal characteristics and potential emotional aspects induced to the creator of the preset. This thesis aims to investigate and model the relationship between two modalities in audio preset creation, audio and text. To this aim, a multi-modal transformer is developed whose objective is to predict the name of a preset given an audio signal. Additionally, three data augmentation strategies are proposed to alleviate the problem of limited amount of training data. The performance of the model is assessed both by objective and subjective evaluation. Results from the objective assessment indicate that the model is capable of learning a connection between audio and text, although room for improvement is left in terms of generalization. Subjective evaluation highlights two key trends: the generated preset names are generally satisfactory according to human judgment and room for improvement is left in the grammatical natural language understanding of the model.

Ääniesiasetukset ovat joukko parametriarvoja digitaalisen signaalinkäsittelyn algoritmeille. Niiden avulla näiden algoritmien käyttäjät voivat tallentaa ja jakaa asetuksia, joilla saavutetaan jokin haluttu äänensävy. Näiden esiasetusten nimet sisältävät tieotoa esiasetusten oletetusta äänensävystä sekä mahdollisesta . Tämän diplomityön tavoitteena on mallintaa suhdetta kahden esiasetuksiin liittyvän modaaliteetin, äänen ja luonnollisen kielen välillä. Tätä varten diplomityössä kehitetään multimodaalinen Transformer, jonka tavoitteena on ennustaa esiasetuksen nimi sen tuottaman äänisignaalin perusteella. Lisäksi kolme datan augmentointitekniikkaa kehitettiin kerätyn datan vähäisyyden vuoksi. Mallin tehokkuutta mitataan sekä objektiivisin että subjektiiivisin keinoin. Objektiiviset tulokset osoittavat, että malli kykenee mallintamaan äänen ja tekstin välistä suhdetta, vaikka yleistyvyydessä onkin parannettavaa. Subjektiiviset tulokset osoittamat kehityssuunnat näyttävät, että malli kykenee generoimaan järkeviä nimiä esiasetuksille, joskin huomattavia kehitysmahdollisuuksia jää mahdolliselle jatkotutkimukselle.

Description

Supervisor

Välimäki, Vesa

Thesis advisor

Mimilakis, Stylianos Ioannis

Other note

Citation