Puheen AR-mallinnus: Seitsemän valitun menetelmän matemaattinen analyysi sekä niiden objektiivinen ja subjektiivinen evaluointi
dc.contributor | Aalto-yliopisto | fi |
dc.contributor | Aalto University | en |
dc.contributor.advisor | Bäckström, Tom | |
dc.contributor.author | Magi, Carlo | |
dc.contributor.department | Department of Electrical and Communications Engineering | en |
dc.contributor.department | Sähkö- ja tietoliikennetekniikan osasto | fi |
dc.contributor.lab | Laboratory of Acoustics and Audio Signal Processing | en |
dc.contributor.lab | Akustiikan ja äänenkäsittelytekniikan laboratorio | fi |
dc.contributor.supervisor | Alku, Paavo | |
dc.date.accessioned | 2011-12-08T09:24:09Z | |
dc.date.available | 2011-12-08T09:24:09Z | |
dc.date.issued | 2005 | |
dc.description.abstract | Tämä työ käsittelee puheen spektraalista mallinnusta, autoregressiivisiä (AR) malleja apuna käyttäen. Lineaariset puheentuottomallit pyrkivät etsimään ihmisen puheentuotosta kommunikaation kannalta tärkeimmät tekijät. Tämä tehdään yleisesti jakamalla lineaarinen puheentuottomalli lähteeksi ja ääntöväylän suotimeksi. Tällainen jako voidaan toteuttaa AR-mallinnuksella, missä puheen lyhytaikaisen spektrin verhokäyrä saadaan mallinnettua tehokkaasti. Seitsemän AR-mallia määriteltiin ja formuloitiin yhtenäisiä merkintätapoja käyttäen, minkä seurauksena menetelmiä voitiin vertailla keskenään teoreettisella tasolla. Aika-alueessa optimisoitujen AR-mallien stabiilisuus ominaisuudet formuloitiin rakentavalla ja osittain uudella tavalla. Tämän seurauksena painotetulle lineaariselle ennustusmenetelmälle (WLPC) johdettiin uusi stabiilisuusalue käytettävän painofunktion suhteen. Kyseisten seitsemän AR-menetelmän ominaisuuksia, kohinaisen puhesignaalin spektriä mallinnettaessa, vertailtiin objektiivisten ja subjektiivisten mittojen valossa. Molemmissa tapauksissa kohinana käytettiin korreloimattomia Gaussin ja Laplacen jakautuneita satunaislukuja. Objektiivisena mittana käytettiin logaritmista spektrin eroavaisuustunnuslukua (SD) ja subjektiivisena mittana kuuntelukokeita. Kuuntelukokeissa käytettiin diskreettiä näytteen huonontuma skaalaa (DCR). WLPC menetelmä, missä painofunktiona käytettiin puhesignaalin lyhytaikaista energiaa, toimi selvästi parhaana menetelmänä molemmissa testeissä. Kyseiset mitat (SD ja DCR) osoitettiinkin korreloivan huomattavan hyvin keskenään. | fi |
dc.description.abstract | In this work, we study spectral modelling of speech using all-pole models. With those mathematical speech production models, our objective is to find the essential information in natural speech communication. The underlying assumption is that speech can be modelled with the so-called source-filter model. The all-pole model is an implementation of such source-filter models and it model the spectral envelope of the short-time spectrum of speech. Seven different methods for obtaining the parameters of all-pole models were presented. All methods were formulated using the same notation, in order to present a uniform thery covering the all-pole methods in question. The stability regions of the all-pole models optimised in the time domain were analysed and derived thoroughly. Moreover, a new stability region for the weighted linear prediction (WLPC) model was derived. The spectral modelling properties of these all-pole models were compared using both objective and subjective testing. This was done be comparing their behaviour in the presence of uncorrelated Gaussian and Laplacian background noise. A certain objective measure used was the logarithmic spectral differences and the subjective test was carried out as listening tests where the Degradation Category Rating testing procedure was used. In both tests, the WLPC model, where the weighting function was the short time energy of the speech signal, gave the best results. The correlation between the objective and subjective results was found to be remarkable strong. | en |
dc.format.extent | 63 | |
dc.format.mimetype | application/pdf | |
dc.identifier.uri | https://aaltodoc.aalto.fi/handle/123456789/976 | |
dc.identifier.urn | urn:nbn:fi:tkk-007865 | |
dc.language.iso | en | en |
dc.location | P1 | fi |
dc.programme | Tietoliikennetekniikan koulutusohjelma | fi |
dc.programme.major | Acoustics and Audio Signal Processing | en |
dc.programme.major | Akustiikka ja äänenkäsittelytekniikka | fi |
dc.programme.mcode | S-89 | |
dc.publisher | Helsinki University of Technology | en |
dc.publisher | Teknillinen korkeakoulu | fi |
dc.rights.accesslevel | openAccess | |
dc.subject.keyword | all-pole model | en |
dc.subject.keyword | speech analysis | en |
dc.subject.keyword | linear prediction | en |
dc.subject.keyword | prediction polynomial | en |
dc.subject.keyword | AR-malli | fi |
dc.subject.keyword | puheanalyysi | fi |
dc.subject.keyword | lineaarinen ennustus | fi |
dc.subject.keyword | ennustuspolynomi | fi |
dc.subject.other | Electrical engineering | en |
dc.subject.other | Mathematics | en |
dc.title | Puheen AR-mallinnus: Seitsemän valitun menetelmän matemaattinen analyysi sekä niiden objektiivinen ja subjektiivinen evaluointi | fi |
dc.title | All-pole modelling of speech : mathematical analysis combined with objective and subjective evaluation of seven selected methods | en |
dc.type | G2 Pro gradu, diplomityö | fi |
dc.type.dcmitype | text | en |
dc.type.okm | G2 Pro gradu, diplomityö | |
dc.type.ontasot | Diplomityö | fi |
dc.type.ontasot | Master's thesis | en |
dc.type.publication | masterThesis | |
local.aalto.digifolder | Aalto_35864 | |
local.aalto.idinssi | 34424 | |
local.aalto.openaccess | yes |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- urn007865.pdf
- Size:
- 678.87 KB
- Format:
- Adobe Portable Document Format