Puheen AR-mallinnus: Seitsemän valitun menetelmän matemaattinen analyysi sekä niiden objektiivinen ja subjektiivinen evaluointi

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorBäckström, Tom
dc.contributor.authorMagi, Carlo
dc.contributor.departmentDepartment of Electrical and Communications Engineeringen
dc.contributor.departmentSähkö- ja tietoliikennetekniikan osastofi
dc.contributor.labLaboratory of Acoustics and Audio Signal Processingen
dc.contributor.labAkustiikan ja äänenkäsittelytekniikan laboratoriofi
dc.contributor.supervisorAlku, Paavo
dc.date.accessioned2011-12-08T09:24:09Z
dc.date.available2011-12-08T09:24:09Z
dc.date.issued2005
dc.description.abstractTämä työ käsittelee puheen spektraalista mallinnusta, autoregressiivisiä (AR) malleja apuna käyttäen. Lineaariset puheentuottomallit pyrkivät etsimään ihmisen puheentuotosta kommunikaation kannalta tärkeimmät tekijät. Tämä tehdään yleisesti jakamalla lineaarinen puheentuottomalli lähteeksi ja ääntöväylän suotimeksi. Tällainen jako voidaan toteuttaa AR-mallinnuksella, missä puheen lyhytaikaisen spektrin verhokäyrä saadaan mallinnettua tehokkaasti. Seitsemän AR-mallia määriteltiin ja formuloitiin yhtenäisiä merkintätapoja käyttäen, minkä seurauksena menetelmiä voitiin vertailla keskenään teoreettisella tasolla. Aika-alueessa optimisoitujen AR-mallien stabiilisuus ominaisuudet formuloitiin rakentavalla ja osittain uudella tavalla. Tämän seurauksena painotetulle lineaariselle ennustusmenetelmälle (WLPC) johdettiin uusi stabiilisuusalue käytettävän painofunktion suhteen. Kyseisten seitsemän AR-menetelmän ominaisuuksia, kohinaisen puhesignaalin spektriä mallinnettaessa, vertailtiin objektiivisten ja subjektiivisten mittojen valossa. Molemmissa tapauksissa kohinana käytettiin korreloimattomia Gaussin ja Laplacen jakautuneita satunaislukuja. Objektiivisena mittana käytettiin logaritmista spektrin eroavaisuustunnuslukua (SD) ja subjektiivisena mittana kuuntelukokeita. Kuuntelukokeissa käytettiin diskreettiä näytteen huonontuma skaalaa (DCR). WLPC menetelmä, missä painofunktiona käytettiin puhesignaalin lyhytaikaista energiaa, toimi selvästi parhaana menetelmänä molemmissa testeissä. Kyseiset mitat (SD ja DCR) osoitettiinkin korreloivan huomattavan hyvin keskenään.fi
dc.description.abstractIn this work, we study spectral modelling of speech using all-pole models. With those mathematical speech production models, our objective is to find the essential information in natural speech communication. The underlying assumption is that speech can be modelled with the so-called source-filter model. The all-pole model is an implementation of such source-filter models and it model the spectral envelope of the short-time spectrum of speech. Seven different methods for obtaining the parameters of all-pole models were presented. All methods were formulated using the same notation, in order to present a uniform thery covering the all-pole methods in question. The stability regions of the all-pole models optimised in the time domain were analysed and derived thoroughly. Moreover, a new stability region for the weighted linear prediction (WLPC) model was derived. The spectral modelling properties of these all-pole models were compared using both objective and subjective testing. This was done be comparing their behaviour in the presence of uncorrelated Gaussian and Laplacian background noise. A certain objective measure used was the logarithmic spectral differences and the subjective test was carried out as listening tests where the Degradation Category Rating testing procedure was used. In both tests, the WLPC model, where the weighting function was the short time energy of the speech signal, gave the best results. The correlation between the objective and subjective results was found to be remarkable strong.en
dc.format.extent63
dc.format.mimetypeapplication/pdf
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/976
dc.identifier.urnurn:nbn:fi:tkk-007865
dc.language.isoenen
dc.locationP1fi
dc.programmeTietoliikennetekniikan koulutusohjelmafi
dc.programme.majorAcoustics and Audio Signal Processingen
dc.programme.majorAkustiikka ja äänenkäsittelytekniikkafi
dc.programme.mcodeS-89
dc.publisherHelsinki University of Technologyen
dc.publisherTeknillinen korkeakoulufi
dc.rights.accesslevelopenAccess
dc.subject.keywordall-pole modelen
dc.subject.keywordspeech analysisen
dc.subject.keywordlinear predictionen
dc.subject.keywordprediction polynomialen
dc.subject.keywordAR-mallifi
dc.subject.keywordpuheanalyysifi
dc.subject.keywordlineaarinen ennustusfi
dc.subject.keywordennustuspolynomifi
dc.subject.otherElectrical engineeringen
dc.subject.otherMathematicsen
dc.titlePuheen AR-mallinnus: Seitsemän valitun menetelmän matemaattinen analyysi sekä niiden objektiivinen ja subjektiivinen evaluointifi
dc.titleAll-pole modelling of speech : mathematical analysis combined with objective and subjective evaluation of seven selected methodsen
dc.typeG2 Pro gradu, diplomityöfi
dc.type.dcmitypetexten
dc.type.okmG2 Pro gradu, diplomityö
dc.type.ontasotDiplomityöfi
dc.type.ontasotMaster's thesisen
dc.type.publicationmasterThesis
local.aalto.digifolderAalto_35864
local.aalto.idinssi34424
local.aalto.openaccessyes
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
urn007865.pdf
Size:
678.87 KB
Format:
Adobe Portable Document Format