Robust Methods for Speech Feature Extraction
Loading...
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Doctoral thesis (article-based)
| Defence date: 2014-12-15
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2014
Major/Subject
Mcode
Degree programme
Language
en
Pages
96 + app. 109
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 203/2014
Abstract
Speech carries information related to, e.g., the linguistic message, speaker identity, speaking situation, speaking style and speaker-related characteristics. Feature extraction refers to the process of converting the digital speech signal into acoustic parameters that can be used to automatically uncover such information, especially using machine learning systems that have been trained on speech data labeled with target information. Such analyses are central in automatic speech recognition, speaker recognition, speech event detection and computational paralinguistic analysis. Each of these application categories is covered in this thesis. With increasing computational and storage capacity of communication technology, speech applications become more widespread and are used in more challenging environments. Ambient noise, varying communication and recording channels and large speaker-related variability tend to cause variation in the acoustic feature statistics and thus mislead speech analysis systems. This study aims to improve the robustness of these systems through feature extraction, so that they better maintain their performance level with increased signal variability. In short-time feature extraction, the focus is on robust spectrum analysis using especially time-weighted linear predictive methods, in which temporal locations of the signal are differently emphasized. These methods are found to improve additive-noise robustness in automatic speech, speaker and emotion recognition and to improve fundamental-frequency or vocal-effort robustness in formant analysis and speaker recognition. In addition, emphasis of the spectral fine structure is found to improve the robust detection of shouted speech in ambient-noise conditions. In long-term feature processing, modulation filtering of short-time features using multiple time scales is used to emphasize the typical long-term modulation dynamics of a given speech signal class in detecting emotions over a telephone channel in the presence of noise. Feature selection methods capable of tackling data sets with high dimensionality are developed and applied to find relevant utterance-level features to parametrize speech in different paralinguistic tasks with considerable speaker-related variability. The studies presented have developed speech feature extraction methods that succeed in improving the robustness of various speech analysis systems by focusing on relevant information and de-emphasizing or ignoring irrelevant information. These general-purpose modeling methods are not constrained to any particular application or system structure and thus have many potential uses.Puhe sisältää informaatiota puhutusta tekstistä, puhujan henkilöllisyydestä, puhetilanteesta, puhetyylistä sekä puhujakohtaisista ominaisuuksista. Piirrelaskennassa digitaalinen puhesignaali muunnetaan akustisiksi parametreiksi, joiden avulla voidaan automaattisesti päätellä mainitun kaltaista informaatiota, erityisesti hyödyntäen koneoppimisjärjestelmiä jotka on opetettu puhemateriaalilla jossa kyseinen informaatio on merkitty. Nämä analyysit ovat keskeisiä automaattisessa puheen- ja puhujantunnistuksessa, puhetapahtumien havainnoinnissa sekä automaattisessa paralingvistisessa analyysissä. Kutakin näistä sovellustyypeistä käsitellään tämän väitöskirjan julkaisuissa. Kommunikaatioteknologian laskenta- ja tallennuskapasiteetin lisääntyessä puheteknologiasovellukset yleistyvät ja niitä käytetään yhä haastavammissa ympäristöissä. Taustamelu, vaihtelevat äänitys- ja siirtokanavat sekä puhujakohtainen vaihtelu aiheuttavat akustisten piirteiden tilastollisten ominaisuuksien vaihtelua ja siten johtavat puheanalyysijärjestelmiä harhaan. Tämän tutkimuksen tavoite on parantaa näiden järjestelmien ns. robustisuutta piirrelaskennan avulla siten, että ne säilyttävät suorituskykynsä paremmin signaaliin liittyvän vaihtelun lisääntyessä. Lyhyen aikavälin piirrelaskennassa keskitytään robusteihin spektrianalyysimenetelmiin käyttäen erityisesti aikapainotettua lineaarista ennustamista, jossa signaalin ajanhetkiä painotetaan eri tavoin. Nämä menetelmät parantavat taustamelurobustisuutta automaattisessa puheen-, puhujan- ja tunnetilojen tunnistuksessa ja perustaajuus- tai puhevoimakkuusrobustisuutta formanttianalyysissa ja puhujantunnistuksessa. Lisäksi spektrin hienorakenteen korostaminen parantaa huudetun puheen havainnointia meluisissa olosuhteissa. Piirteiden modulaatiosuodatus useilla pitkän aikavälin aikaskaaloilla korostaa puhesignaalin luokkien tyypillisiä modulaatiotaajuuksia tunnetilojen havainnoinnissa puhelinpuheessa taustamelun läsnäollessa. Lisäksi tutkitaan piirrevalintamenetelmiä jotka soveltuvat moniulotteisten piirre-esitysmuotojen käsittelyyn. Niitä käytetään etsimään tärkeimmät pitkän aikavälin piirteet paralingvistisissä ongelmissa joissa puhujasta riippuvainen vaihtelu on suurta. Tässä esitetyissä tutkimuksissa on kehitetty puheen piirrelaskentamenetelmiä, jotka onnistuvat parantamaan erilaisten puheanalyysijärjestelmien robustisuutta keskittymällä oleelliseen informaatioon ja vähentämällä epäolennaisen informaation painoarvoa. Nämä yleisluontoiset mallinnusmenetelmät eivät ole sidottuja mihinkään tiettyyn sovellukseen ja niillä on siten monia mahdollisia käyttökohteita.Description
Supervising professor
Alku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, FinlandThesis advisor
Alku, Paavo, Prof., Aalto University, Department of Signal Processing and Acoustics, FinlandKeywords
speech processing, machine learning, robust features, linear prediction, puheenkäsittely, koneoppiminen, robustit piirteet, lineaarinen ennustaminen
Parts
- [Publication 1]: Carlo Magi, Jouni Pohjalainen, Tom Bäckström and Paavo Alku. Stabilised weighted linear prediction. Speech Communication, vol. 51, no. 5, pp. 401–411, April 2009.
-
[Publication 2]: Rahim Saeidi, Jouni Pohjalainen, Tomi Kinnunen and Paavo Alku. Temporally weighted linear prediction features for tackling additive noise in speaker verification. IEEE Signal Processing Letters, vol. 17, no. 6, pp. 599–602, June 2010.
DOI: 10.1109/LSP.2010.2048649 View at publisher
-
[Publication 3]: Jouni Pohjalainen, Tuomo Raitio, Santeri Yrttiaho and Paavo Alku. Detection of shouted speech in noise: human and machine. Journal of the Acoustical Society of America, vol. 133, no. 4, pp. 2377–2389, April 2013.
DOI: 10.1121/1.4794394 View at publisher
- [Publication 4]: Jouni Pohjalainen and Paavo Alku. Extended weighted linear prediction using the autocorrelation snapshot – a robust speech analysis method and its application to recognition of vocal emotions. In Proceedings of the 14th Annual Conference of the International Speech Communication Association (Interspeech 2013), pp. 1931–1935, Lyon, France, August 25–29, 2013
-
[Publication 5]: Paavo Alku, Jouni Pohjalainen, Martti Vainio, Anne-Maria Laukkanen and Brad Story. Formant frequency estimation of high-pitched vowels using weighted linear prediction. Journal of the Acoustical Society of America, vol. 134, no. 2, pp. 1295–1313, August 2013.
DOI: 10.1121/1.4812756 View at publisher
-
[Publication 6]: Jouni Pohjalainen, Cemal Hanilçi, Tomi Kinnunen and Paavo Alku. Mixture linear prediction in speaker verification under vocal effort mismatch. IEEE Signal Processing Letters, vol. 21, no. 12, pp. 1516–1520, December 2014.
DOI: 10.1109/LSP.2014.2339632 View at publisher
-
[Publication 7]: Jouni Pohjalainen and Paavo Alku. Multi-scale modulation filtering in automatic detection of emotions in telephone speech. In Proceedings of the 2014 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2014), pp. 980–984, Florence, Italy, May 4–9, 2014.
DOI: 10.1109/ICASSP.2014.6853743 View at publisher
-
[Publication 8]: Jouni Pohjalainen, Okko Räsänen and Serdar Kadioglu. Feature selection methods and their combinations in high-dimensional classification ofspeaker likability, intelligibility and personality traits. Computer Speech and Language, vol. 29, no. 1, pp. 145–171, January 2015.
DOI: 10.1016/j.csl.2013.11.004 View at publisher