Perceptual spectral matching utilizing mel-scale filterbanks for statistical parametric speech synthesis with glottal excitation vocoder

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorRaitio, Tuomo
dc.contributor.authorJuvela, Lauri
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.supervisorAlku, Paavo
dc.date.accessioned2015-06-24T11:44:17Z
dc.date.available2015-06-24T11:44:17Z
dc.date.issued2015-06-10
dc.description.abstractThis thesis presents a novel perceptual spectral matching technique for parametric statistical speech synthesis with glottal vocoding. The proposed method utilizes a perceptual matching criterion based on mel-scale filterbanks. The background section discusses the physiology and modelling of human speech production and perception, necessary for speech synthesis and perceptual spectral matching. Additionally, the working principles of statistical parametric speech synthesis and the baseline glottal source excited vocoder are described. The proposed method is evaluated by comparing it to the baseline method first by an objective measure based on the mel-cepstral distance, and second by a subjective listening test. The novel method was found to give comparable performance to the baseline spectral matching method of the glottal vocoder.en
dc.description.abstractTämä työ esittää uuden perkeptuaalisen spektrisovitustekniikan glottisvokoodattua tilastollista parametristä puhesynteesiä varten. Ehdotettu menetelmä käyttää mel-suodinpankkeihin perustuvaa perkeptuaalista sovituskriteeriä. Työn taustaosuus käsittelee ihmisen puheentuoton ja havaitsemisen fysiologiaa ja mallintamista tilastollisen parametrisen puhesynteesin ja perkeptuaalisen spektrisovituksen näkökulmasta. Lisäksi kuvataan tilastollisen parametrisen puhesynteesin ja perusmuotoisen glottisherätevokooderin toimintaperiaatteet. Uutta menetelmää arvioidaan vertaamalla sitä alkuperäiseen metodiin ensin käyttämällä mel-kepstrikertoimia käyttävää objektiivista etäisyysmittaa ja toiseksi käyttäen subjektiivisia kuuntelukokeita. Uuden metodin havaittiin olevan laadullisesti samalla tasolla alkuperäisen spektrisovitusmenetelmän kanssa.fi
dc.format.extent62+7
dc.format.mimetypeapplication/pdfen
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/16861
dc.identifier.urnURN:NBN:fi:aalto-201506303420
dc.language.isoenen
dc.locationP1fi
dc.programmeTLT - Tietoliikennetekniikkafi
dc.programme.majorAcoustics and Audio Signal Processingfi
dc.programme.mcodeS3004fi
dc.rights.accesslevelopenAccess
dc.subject.keywordspeech synthesisen
dc.subject.keywordperceptual spectral matchingen
dc.subject.keywordglottal excitation vocoderen
dc.subject.keywordmel-spectrumen
dc.subject.keywordfrequency warpingen
dc.titlePerceptual spectral matching utilizing mel-scale filterbanks for statistical parametric speech synthesis with glottal excitation vocoderen
dc.titlePerkeptuaalinen spektrisovitus glottisherätevokoodatussa tilastollisessa parametrisessa puhesynteesissä käyttäen mel-suodinpankkiafi
dc.typeG2 Pro gradu, diplomityöen
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotMaster's thesisen
dc.type.ontasotDiplomityöfi
dc.type.publicationmasterThesis
local.aalto.idinssi51830
local.aalto.openaccessyes

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
master_Juvela_Lauri_2015.pdf
Size:
990.58 KB
Format:
Adobe Portable Document Format