Audio watermarking using deep learning

Loading...
Thumbnail Image

Files

URL

Journal Title

Journal ISSN

Volume Title

Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.

Department

Mcode

ELEC3015

Language

en

Pages

25

Series

Abstract

This literature study explores deep learning-based audio watermarking techniques in response to growing concerns over synthetic media authenticity. Traditional methods often lack robustness and scalability. This study evaluates five state-of-the-art models: RobustDNN, WavMark, MaskMark, AudioSeal, and SilentCipher based on architecture, robustness features, watermark localization, training and loss functions. Results show that while no method excels universally, SilentCipher demonstrates superior robustness and real-time performance, whereas MaskMark offers the highest capacity. AudioSeal balances imperceptibility and detection capabilities. The comparative analysis highlights trade-offs among methods and suggests future directions for improving adversarial resilience, real-time deployment, and generalization across diverse audio environments.

Koneoppimisen ja tekoälyn nopea kehitys on merkittävästi vaikuttanut ääniprosessointiin ja puhesynteesiin. Erityisesti helppokäyttöiset tekoäly pohjaiset äänisynteesi työkalut ovat mahdollistaneet keinotekoisen äänen tuottamisen myös ei-teknisille käyttäjille, mikä on herättänyt huolta äänen aitoudesta sekä tietoturvasta. Yksi lupaava ratkaisu näihin haasteisiin on äänen vesileimaus, jossa ääneen upotetaan huomaamattomia mutta kestäviä signaaleja sen aitouden varmistamiseksi. Tekoälyllä tuotetun sisällön tunnistamisen tarve on huomioitu myös lainsäädännössä. Euroopan unionin AI-asetuksen 50. artikla korostaa läpinäkyvyyttä ja edellyttää että tekoälyn tuottama sisältö kuten ääni, kuvat ja teksti, täytyy olla merkitty koneellisesti luettavassa muodossa. Tällä pyritään ehkäisemään väärän tiedon leviämistä sekä digitaalisen sisällön vastuullisuutta. Tämä säädös suoraan tukee äänen vesi leimauksen kehitystä ja korostaa sen tärkeyttä. Tutkimuskenttä on siirtymässä sääntöpohjaisista menetelmistä kohti dataohjautuvia neuroverkkoihin perustuvia ratkaisuja. Näillä pyritään ratkaisemaan haasteita, kuten vesileiman säilyminen hyökkäysten alla, sen huomaamattomuus ja reaaliaikainen tunnistus. Ongelmia kuitenkin edelleen esiintyy, kuten kompromissin tekeminen huomaamattomuuden ja kestävyyden välillä sekä dekoodaus menetelmien tehostaminen. Tässä opinnäytetyössä tarkastellaan syväoppimiseen perustuvia äänen vesileimaus tekniikoita vertaillen niiden suorituskykyä erityisesti huomaamattomuuden, kapasiteetin, hyökkäyksen kestävyyden näkökulmista. Tarkastelun kohteeksi valitsin alan johtavia vertaisarvioituja ja arvostetuissa konferensseissa esitettyjä menetelmiä kuten RobustDNN, WavMark, SilentCipher, AudioSeal ja MaskMark, joita analysoin ja vertailen niiden vahvuuksien ja heikkouksien perusteella. Menetelmien vertailu toteutettiin systemaattisesti jakamalla arviointi kuuteen keskeiseen ominaisuuteen: arkkitehtuuriin, koodaus- ja dekoodausmenetelmiin, hyökkäystenkestävyyteen, paikallistettavuuteen, koulutusstrategioihin ja tappiofunkitoihin. Tämä rakenne mahdollistaa yksittäisten mallien suorituskyvyn analysoinnin johdonmukaisesti ja vertailukelpoisesti. Arvioinnissa keskityttiin siihen, miten kukin menetelmä toteuttaa vesileiman upotuksen ja tunnistuksen, kuinka hyvin ne kestävät erilaisia signaalimuokkauksia ja hyökkäyksiä, sekä millaisia kompromisseja ne tekevät huomaamattomuuden, kapasiteetin ja robustisuuden välillä. Lisäksi tarkasteltiin, kuinka koulutus prosessit ja häviö funktiot vaikuttavat mallien suorituskykyyn reaalimaailman sovelluksissa. Tämä kokonaisvaltainen lähestymistapa mahdollisti syväoppimisen 5 pohjaisten vesileimaus menetelmien vahvuuksien ja rajoitteiden yksityiskohtaisen esiin tuomisen. Työ osoittaa, että syväoppiminen mahdollistaa merkittäviä parannuksia äänen vesi leimauksessa verrattuna perinteisiin signaalinkäsittely pohjaisiin menetelmiin. Erityisesti SilentCipher erottuu edukseen lähes täydellisellä kestolla erilaisia pakkausmenetelmiä vastaan ja tukemalla reaaliaikaista käyttöä. MaskMark ja AudioSeal puolestaan osoittavat erinomaista suorituskykyä huomaamattomuuden ja hyökkäyksen kestävyyden osalta, tehden niistä soveltuvia esimerkiksi tekoälyn tuottaman sisällön valvontaan. Vaikka yksikään menetelmä ei tarjoa täydellistä ratkaisua kaikkiin käyttötapauksiin, tulokset osoittavat, että syväoppimiseen perustuvat ratkaisut voivat saavuttaa huomattavan tasapainon vesileiman huomaamattomuuden, robustisuuden ja kapasiteetin välillä. Näin ollen niillä on keskeinen rooli tulevaisuuden äänen aitouden varmistamisessa, erityisesti tilanteissa, joissa tekoälyn tuottaman sisällön tunnistaminen ja valvonta ovat kriittisiä.

Description

Supervisor

Lassila, Pasi

Thesis advisor

Juvela, Lauri

Other note

Citation