Neurala röstkodekar med dynamisk bithastighet

No Thumbnail Available
Files
Kaján_Jonatan_2024.pdf (1.28 MB)
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu | Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Date
2024-05-28
Department
Major/Subject
Elektroniikka ja sähkötekniikka
Mcode
ELEC3013
Degree programme
Sähkötekniikan kandidaattiohjelma
Language
sv
Pages
43
Series
Abstract
Detta arbete behandlar röstkodekar: både traditionella kodekar baserade på signalbehandling och linjär prediktion, och moderna kodekar som bygger på maskininlärning och faltande neuronnätverk. Arbetet utforskar röstsignalers egenskaper, ger en överblick över teorin bakom dessa två typer av kodekar och undersöker de neurala kodekarnas möjligheter gällande dynamisk bithastighet. Kapitel 1 presenterar ämnet. Kapitel 2 behandlar människorösten: hur fonem bildas samt ljudsignalens karaktär. Kapitel 3 studerar olika sätt att kvantisera kontinuerliga signaler och CELP-kodning. Kapitel 4 behandlar kort några koncept och modeller inom maskininlärning som är relevanta inför kapitel 5. Kapitel 5 presenterar först två neurala modeller, Wavenet och VQ-VAE. Därefter behandlas i kronologisk ordning ett antal kodekar baserade på dessa modeller: Low bitrate speech coding with VQ-VAE and a WaveNet decoder, Lyra, Soundstream, Encodec och Improved RVQGAN. Arbetet beskriver de största skillnaderna mellan dessa kodekar samt konstaterar att Soundstream och påföljande kodekar stöder dynamisk bithastighet.
Description
Supervisor
Turunen, Markus
Thesis advisor
Bäckström, Tom
Keywords
röstkodek, neural, dynamisk bithastighet, neuronnätverk, ljudkodek, röst
Other note
Citation