Neurala röstkodekar med dynamisk bithastighet
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Bäckström, Tom | |
dc.contributor.author | Kaján, Jonatan | |
dc.contributor.school | Sähkötekniikan korkeakoulu | fi |
dc.contributor.supervisor | Turunen, Markus | |
dc.date.accessioned | 2024-06-04T08:29:32Z | |
dc.date.available | 2024-06-04T08:29:32Z | |
dc.date.issued | 2024-05-28 | |
dc.description.abstract | Detta arbete behandlar röstkodekar: både traditionella kodekar baserade på signalbehandling och linjär prediktion, och moderna kodekar som bygger på maskininlärning och faltande neuronnätverk. Arbetet utforskar röstsignalers egenskaper, ger en överblick över teorin bakom dessa två typer av kodekar och undersöker de neurala kodekarnas möjligheter gällande dynamisk bithastighet. Kapitel 1 presenterar ämnet. Kapitel 2 behandlar människorösten: hur fonem bildas samt ljudsignalens karaktär. Kapitel 3 studerar olika sätt att kvantisera kontinuerliga signaler och CELP-kodning. Kapitel 4 behandlar kort några koncept och modeller inom maskininlärning som är relevanta inför kapitel 5. Kapitel 5 presenterar först två neurala modeller, Wavenet och VQ-VAE. Därefter behandlas i kronologisk ordning ett antal kodekar baserade på dessa modeller: Low bitrate speech coding with VQ-VAE and a WaveNet decoder, Lyra, Soundstream, Encodec och Improved RVQGAN. Arbetet beskriver de största skillnaderna mellan dessa kodekar samt konstaterar att Soundstream och påföljande kodekar stöder dynamisk bithastighet. | sv |
dc.format.extent | 43 | |
dc.format.mimetype | application/pdf | en |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/128500 | |
dc.identifier.urn | URN:NBN:fi:aalto-202406044093 | |
dc.language.iso | sv | en |
dc.programme | Sähkötekniikan kandidaattiohjelma | fi |
dc.programme.major | Elektroniikka ja sähkötekniikka | fi |
dc.programme.mcode | ELEC3013 | fi |
dc.subject.keyword | röstkodek | sv |
dc.subject.keyword | neural | sv |
dc.subject.keyword | dynamisk bithastighet | sv |
dc.subject.keyword | neuronnätverk | sv |
dc.subject.keyword | ljudkodek | sv |
dc.subject.keyword | röst | sv |
dc.title | Neurala röstkodekar med dynamisk bithastighet | sv |
dc.type | G1 Kandidaatintyö | fi |
dc.type.dcmitype | text | en |
dc.type.ontasot | Bachelor's thesis | en |
dc.type.ontasot | Kandidaatintyö | fi |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- Kaján_Jonatan_2024.pdf
- Size:
- 1.28 MB
- Format:
- Adobe Portable Document Format
Download (opens in new window)
Aalto login required (access for Aalto Staff only).