Neural Modeling of the Audio Tape Echo Effect

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorJuvela, Lauri
dc.contributor.authorKaloinen, Jussi
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorVälimäki, Vesa
dc.date.accessioned2022-10-23T17:01:34Z
dc.date.available2022-10-23T17:01:34Z
dc.date.issued2022-10-17
dc.description.abstractDelay effects are used in music production and as live musical instrument effects to provide transformed delayed repeats of the input audio. The perceived effect may range from distinct colored echoes to dense repeats resembling early reflections of reverberation. Analog tape delay is an early implementation of a delay effect where magnetic tape acts as the medium for adjustable time delay between the input and the output signal. This approach imprints two distinct characteristics to the sound: distortion from tape saturation and pitch modulation as the flutter arising from the imperfect mechanics moving the tape. Even though the technology is outdated and can require frequent maintenance, the sound characteristics are still sought after and have been emulated in digital form. In order to emulate specific tape delay effects, a two-step process is proposed in this thesis. The first goal is to analyze the delay time trajectory in the device based on pulse train measurement and time series component analysis to approximate the measured trajectory. The second goal is to train a neural network model to emulate the tape saturation and frequency response of the device. In this domain, a specific problem to this work is the time varying delay time, resulting in additional challenges for training of the machine learning models. This is mitigated by the use of a proposed frequency domain phase agnostic loss function, opposed to a typical time domain loss function more vulnerable to time alignment differences. In addition, information of the time modulation decomposition is used for partial demodulation of the training data. Two neural network designs were compared: gated recurrent unit (GRU) and a custom design named FIRNet, resembling a small convolutional neural network or a block oriented black-box model. An attempt is also made to balance computational efficiency and accuracy of emulation. As a result, a small FIRNet model trained with the proposed frequency domain loss function and partially demodulated dataset was chosen, due to comparable accuracy and smaller computational complexity compared to the best performing GRU model. A description of the modeling process along with a basic overall digital design is presented as a case study of a specific physical tape delay device.en
dc.description.abstractNauhakaikulaitteita käytetään musiikin tuotannossa ja soittimien soitossa muunneltujen viivästettyjen kaikujen luomiseksi. Havaittu vaikutus voi ilmetä aina erillisinä havaituista värittyneistä kaiuista tiheisiin kaikuihin muistuttaen tilakaiun ensiheijastuksia. Analoginen nauhakaiku on varhainen toteutus viive-efektien tuottamiselle, jossa magneettinen nauha toimii signaalin kantajana säädettävälle aikaviiveelle sisään ja ulostulosignaalin välillä. Tämä lähestymistapa antaa ääneen kaksi leimallista ominaisuutta: magneettisen nauhatallennuksen aiheuttaman särön ja nauhankuljetuskoneiston epätäydellisyyksien tuottaman äänenkorkeusmodulaation. Vaikka tämä teknologia on vanhentunutta ja jatkuvaa huoltoa vaativaa, siihen liittyvät äänen ominaisuudet ovat haluttuja ja siten myös digitaalisen jäljentämisen kohteena. Tässä työssä esitetään kaksiaskelinen prosessi tietyn nauhakaikulaitteen mallintamiseksi. Ensimmäinen tavoite on analysoida laitteen aikaviiverata impulssijonomenetelmää ja aikasarjojen komponenttierittelyä hyödyntäen, jotta mitattua rataa voidaan approksimoida. Toinen tavoite on kouluttaa neuroverkkomalli jäljittelemään nauhasäröä ja laitteen taajuusvastetta. Tämän kannalta erityinen ongelma tämän työn yhteydessä on ajan mukana muuttuva aikaviive, joka tuottaa haasteita koneoppimismallien kouluttamiselle. Tätä ongelmaa lähestytään käyttämällä vaihevasteesta riippumatonta taajuustason häviöfunktiota vertailuna tyypillisesti käytetylle aikatason häviöfunktiolle, joka on herkempi signaalien aikakohdistusvaihtelulle. Lisäksi aikaviivemodulaation komponenttimallia hyödynnetään modulaation osittaiseksi poistamiseksi koulutussignaalista. Kahta eri hermoverkkotyyppiä vertailtiin: portillista rekursiivista hermo verkkoa (GRU) sekä ehdotettua FIRNetiksi nimettyä mallityyppiä, joka muistuttaa pientä konvoluutiohermoverkkoa tai lohkoista rakentuvaa musta laatikkomallia. Tavoitteena on lisäksi tasapainottaa laskennallinen tehokkuus ja mallintamisen tarkkuus vertailemalla kahta valittua neuroverkkoarkkitehtuuria. Vertailun tuloksena parhaiten soveltuvaksi valittiin pieni FIRNet-malli, joka oli koulutettu ehdotetulla taajuustason häviöfunktiolla ja osittain demoduloidulla koulutussignaalilla. Valitun mallin tarkkuus oli verrattavissa parhaiten suoriutuneeseen GRU-malliin, mutta mallin koko ja laskennallinen kuorma erottuvasti tätä pienempi. Yksittäisen nauhakaikulaitteen jäljentämistä käytetään esimerkkinä kuvaamaan tämä mallintamismenetelmä.fi
dc.format.extent85
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/117331
dc.identifier.urnURN:NBN:fi:aalto-202210236117
dc.language.isoenen
dc.locationP1fi
dc.programmeCCIS - Master’s Programme in Computer, Communication and Information Sciences (TS2013)fi
dc.programme.majorAcoustics and Audio Technologyfi
dc.programme.mcodeELEC3030fi
dc.subject.keyworddigital audio effectsen
dc.subject.keywordmusic technologyen
dc.subject.keywordmachine learningen
dc.subject.keywordnon-linear modellingen
dc.subject.keyworddeep learningen
dc.subject.keyworddemodulationen
dc.titleNeural Modeling of the Audio Tape Echo Effecten
dc.titleÄäninauhakaikulaitteen neuraalinen mallintaminenfi
dc.typeG2 Pro gradu, diplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
local.aalto.electroniconlyyes
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Kaloinen_Jussi_2022.pdf
Size:
9.75 MB
Format:
Adobe Portable Document Format