Neurala röstkodekar med dynamisk bithastighet
No Thumbnail Available
Files
Aalto login required (access for Aalto Staff only).
Journal Title
Journal ISSN
Volume Title
Sähkötekniikan korkeakoulu |
Bachelor's thesis
Electronic archive copy is available locally at the Harald Herlin Learning Centre. The staff of Aalto University has access to the electronic bachelor's theses by logging into Aaltodoc with their personal Aalto user ID. Read more about the availability of the bachelor's theses.
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2024-05-28
Department
Major/Subject
Elektroniikka ja sähkötekniikka
Mcode
ELEC3013
Degree programme
Sähkötekniikan kandidaattiohjelma
Language
sv
Pages
43
Series
Abstract
Detta arbete behandlar röstkodekar: både traditionella kodekar baserade på signalbehandling och linjär prediktion, och moderna kodekar som bygger på maskininlärning och faltande neuronnätverk. Arbetet utforskar röstsignalers egenskaper, ger en överblick över teorin bakom dessa två typer av kodekar och undersöker de neurala kodekarnas möjligheter gällande dynamisk bithastighet. Kapitel 1 presenterar ämnet. Kapitel 2 behandlar människorösten: hur fonem bildas samt ljudsignalens karaktär. Kapitel 3 studerar olika sätt att kvantisera kontinuerliga signaler och CELP-kodning. Kapitel 4 behandlar kort några koncept och modeller inom maskininlärning som är relevanta inför kapitel 5. Kapitel 5 presenterar först två neurala modeller, Wavenet och VQ-VAE. Därefter behandlas i kronologisk ordning ett antal kodekar baserade på dessa modeller: Low bitrate speech coding with VQ-VAE and a WaveNet decoder, Lyra, Soundstream, Encodec och Improved RVQGAN. Arbetet beskriver de största skillnaderna mellan dessa kodekar samt konstaterar att Soundstream och påföljande kodekar stöder dynamisk bithastighet.Description
Supervisor
Turunen, MarkusThesis advisor
Bäckström, TomKeywords
röstkodek, neural, dynamisk bithastighet, neuronnätverk, ljudkodek, röst