Neurala röstkodekar med dynamisk bithastighet

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorBäckström, Tom
dc.contributor.authorKaján, Jonatan
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorTurunen, Markus
dc.date.accessioned2024-06-04T08:29:32Z
dc.date.available2024-06-04T08:29:32Z
dc.date.issued2024-05-28
dc.description.abstractDetta arbete behandlar röstkodekar: både traditionella kodekar baserade på signalbehandling och linjär prediktion, och moderna kodekar som bygger på maskininlärning och faltande neuronnätverk. Arbetet utforskar röstsignalers egenskaper, ger en överblick över teorin bakom dessa två typer av kodekar och undersöker de neurala kodekarnas möjligheter gällande dynamisk bithastighet. Kapitel 1 presenterar ämnet. Kapitel 2 behandlar människorösten: hur fonem bildas samt ljudsignalens karaktär. Kapitel 3 studerar olika sätt att kvantisera kontinuerliga signaler och CELP-kodning. Kapitel 4 behandlar kort några koncept och modeller inom maskininlärning som är relevanta inför kapitel 5. Kapitel 5 presenterar först två neurala modeller, Wavenet och VQ-VAE. Därefter behandlas i kronologisk ordning ett antal kodekar baserade på dessa modeller: Low bitrate speech coding with VQ-VAE and a WaveNet decoder, Lyra, Soundstream, Encodec och Improved RVQGAN. Arbetet beskriver de största skillnaderna mellan dessa kodekar samt konstaterar att Soundstream och påföljande kodekar stöder dynamisk bithastighet.sv
dc.format.extent43
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/128500
dc.identifier.urnURN:NBN:fi:aalto-202406044093
dc.language.isosven
dc.programmeSähkötekniikan kandidaattiohjelmafi
dc.programme.majorElektroniikka ja sähkötekniikkafi
dc.programme.mcodeELEC3013fi
dc.subject.keywordröstkodeksv
dc.subject.keywordneuralsv
dc.subject.keyworddynamisk bithastighetsv
dc.subject.keywordneuronnätverksv
dc.subject.keywordljudkodeksv
dc.subject.keywordröstsv
dc.titleNeurala röstkodekar med dynamisk bithastighetsv
dc.typeG1 Kandidaatintyöfi
dc.type.dcmitypetexten
dc.type.ontasotBachelor's thesisen
dc.type.ontasotKandidaatintyöfi

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
Kaján_Jonatan_2024.pdf
Size:
1.28 MB
Format:
Adobe Portable Document Format