Puheen AR-mallinnus: Seitsemän valitun menetelmän matemaattinen analyysi sekä niiden objektiivinen ja subjektiivinen evaluointi

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Master's thesis
Date
2005
Major/Subject
Acoustics and Audio Signal Processing
Akustiikka ja äänenkäsittelytekniikka
Mcode
S-89
Degree programme
Tietoliikennetekniikan koulutusohjelma
Language
en
Pages
63
Series
Abstract
Tämä työ käsittelee puheen spektraalista mallinnusta, autoregressiivisiä (AR) malleja apuna käyttäen. Lineaariset puheentuottomallit pyrkivät etsimään ihmisen puheentuotosta kommunikaation kannalta tärkeimmät tekijät. Tämä tehdään yleisesti jakamalla lineaarinen puheentuottomalli lähteeksi ja ääntöväylän suotimeksi. Tällainen jako voidaan toteuttaa AR-mallinnuksella, missä puheen lyhytaikaisen spektrin verhokäyrä saadaan mallinnettua tehokkaasti. Seitsemän AR-mallia määriteltiin ja formuloitiin yhtenäisiä merkintätapoja käyttäen, minkä seurauksena menetelmiä voitiin vertailla keskenään teoreettisella tasolla. Aika-alueessa optimisoitujen AR-mallien stabiilisuus ominaisuudet formuloitiin rakentavalla ja osittain uudella tavalla. Tämän seurauksena painotetulle lineaariselle ennustusmenetelmälle (WLPC) johdettiin uusi stabiilisuusalue käytettävän painofunktion suhteen. Kyseisten seitsemän AR-menetelmän ominaisuuksia, kohinaisen puhesignaalin spektriä mallinnettaessa, vertailtiin objektiivisten ja subjektiivisten mittojen valossa. Molemmissa tapauksissa kohinana käytettiin korreloimattomia Gaussin ja Laplacen jakautuneita satunaislukuja. Objektiivisena mittana käytettiin logaritmista spektrin eroavaisuustunnuslukua (SD) ja subjektiivisena mittana kuuntelukokeita. Kuuntelukokeissa käytettiin diskreettiä näytteen huonontuma skaalaa (DCR). WLPC menetelmä, missä painofunktiona käytettiin puhesignaalin lyhytaikaista energiaa, toimi selvästi parhaana menetelmänä molemmissa testeissä. Kyseiset mitat (SD ja DCR) osoitettiinkin korreloivan huomattavan hyvin keskenään.

In this work, we study spectral modelling of speech using all-pole models. With those mathematical speech production models, our objective is to find the essential information in natural speech communication. The underlying assumption is that speech can be modelled with the so-called source-filter model. The all-pole model is an implementation of such source-filter models and it model the spectral envelope of the short-time spectrum of speech. Seven different methods for obtaining the parameters of all-pole models were presented. All methods were formulated using the same notation, in order to present a uniform thery covering the all-pole methods in question. The stability regions of the all-pole models optimised in the time domain were analysed and derived thoroughly. Moreover, a new stability region for the weighted linear prediction (WLPC) model was derived. The spectral modelling properties of these all-pole models were compared using both objective and subjective testing. This was done be comparing their behaviour in the presence of uncorrelated Gaussian and Laplacian background noise. A certain objective measure used was the logarithmic spectral differences and the subjective test was carried out as listening tests where the Degradation Category Rating testing procedure was used. In both tests, the WLPC model, where the weighting function was the short time energy of the speech signal, gave the best results. The correlation between the objective and subjective results was found to be remarkable strong.
Description
Supervisor
Alku, Paavo
Thesis advisor
Bäckström, Tom
Keywords
all-pole model, speech analysis, linear prediction, prediction polynomial, AR-malli, puheanalyysi, lineaarinen ennustus, ennustuspolynomi
Other note
Citation
Permanent link to this item
https://urn.fi/urn:nbn:fi:tkk-007865