Tilastollisessa parametrisessa puhesynteesissä käytettyjen vokooderien analyysi-synteesi-vertailu

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorRaitio, Tuomo
dc.contributor.authorAiraksinen, Manu
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorAlku, Paavo
dc.date.accessioned2012-12-21T08:34:59Z
dc.date.available2012-12-21T08:34:59Z
dc.date.issued2012
dc.description.abstractTässä työssä esitetään kirjallisuuskatsaus ja kokeellinen osio tilastollisessa parametrisessa puhesynteesissä käytetyistä vokoodereista. Kokeellisessa osassa kolmen valitun vokooderin (GlottHMM, STRAIGHT ja Harmonic/Stochastic Model) analyysi-synteesi -ominaisuuksia tarkastellaan usealla tavalla. Suoritetut kokeet olivat vokooderiparametrien tilastollisten jakaumien analysointi, puheen tunnetilan tilastollinen vaikutus vokooderiparametrien jakaumiin sekä subjektiivinen kuuntelukoe jolla mitattiin vokooderien suhteellista analyysi-synteesi -laatua. Tulokset osoittavat että STRAIGHT-vokooderi omaa eniten Gaussiset parametrijakaumat ja tasaisimman synteesilaadun. GlottHMM-vokooderin parametrit osoittivat suurinta herkkyyttä puheen tunnetilan funktiona ja vokooderi sai parhaan, mutta laadultaan vaihtelevan kuuntelukoetuloksen. HSM-vokooderin LSF-parametrien havaittiin olevan Gaussisempia kuin GlottHMM-vokooderin LSF parametrit, mutta vokooderin havaittiin kärsivän kohinaherkkyydestä, ja se sai huonoimman kuuntelukoetuloksen.fi
dc.description.abstractThis thesis presents a literature study followed by an experimental part on the state-of-the-art vocoders utilized in statistical parametric speech synthesis. In the experimental part, the analysis/synthesis properties of three selected vocoders (GlottHMM, STRAIGHT and Harmonic/Stochastic Model) are examined. The performed tests were the analysis of vocoder parameter distributions, statistical testing on the effect of emotions to the vocoder parameter distributions, and a subjective listening test evaluating the vocoders' relative analysis/synthesis quality. The results indicate that the STRAIGHT vocoder has the most Gaussian parameter distributions and most robust synthesis quality, whereas the GlottHMM vocoder has the most emotion sensitive parameters and best but unreliable synthesis quality. The HSM vocoder's LSF parameters were found to be more Gaussian than the GlottHMM vocoder's LSF parameters. HSM was found to be sensitive to noise, and it scored the lowest score on the subjective listening test.en
dc.format.extent[8] + 113 s.
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/7268
dc.identifier.urnURN:NBN:fi:aalto-201305163102
dc.language.isoenen
dc.locationP1fi
dc.programme.majorAkustiikka ja äänenkäsittelytekniikkafi
dc.programme.mcodeS-89
dc.rights.accesslevelopenAccess
dc.subject.keywordvocoderen
dc.subject.keywordspeech synthesisen
dc.subject.keywordvocoder parametrizationen
dc.subject.keywordanalysis/synthesisen
dc.subject.keywordstatistical distributionen
dc.subject.keywordvokooderifi
dc.subject.keywordpuhesynteesifi
dc.subject.keywordHMMfi
dc.subject.keywordvokooderiparametrifi
dc.subject.keywordanalyysi-synteesifi
dc.subject.keywordtilastollinen jakaumafi
dc.subject.keywordGlottHMMfi
dc.subject.keywordSTRAIGHTfi
dc.subject.keywordHSMfi
dc.titleTilastollisessa parametrisessa puhesynteesissä käytettyjen vokooderien analyysi-synteesi-vertailufi
dc.titleAnalysis/Synthesis Comparison of Vocoders Utilized in Statistical Parametric Speech Synthesisen
dc.typeG2 Pro gradu, diplomityöfi
dc.type.dcmitypetexten
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotDiplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_05226
local.aalto.idinssi45710
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_airaksinen_manu_2012.pdf
Size:
2.25 MB
Format:
Adobe Portable Document Format