Artificial bandwidth extension of narrowband speech - enhanced speech quality and intelligibility in mobile devices
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Doctoral thesis (article-based)
| Defence date: 2013-05-03
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2013
Major/Subject
Mcode
Degree programme
Language
en
Pages
96 + app. 74
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 64/2013
Abstract
Even today, most of the telephone users are offered only narrowband speech transmission. The limited frequency band from 300 Hz to 3400 Hz reduces both quality and intelligibility of speech due to the missing high frequency components that are important cues especially in consonant sounds. Particularly in mobile communications that often takes place in noisy environments, degraded speech intelligibility results in listener fatigue and difficulty in speaker recognition. The deployment of wideband (50–7000 Hz), and superwideband (50–140000 Hz) speech transmission is ongoing, but the current narrowband speech coding will coexist with the new technologies still for years. In this thesis, a speech enhancement method called artificial bandwidth extension (ABE) for narrowband speech is studied. ABE methods aim to improve quality and intelligibility of narrowband speech by regenerating the missing high frequency content in the speech signal, typically in the frequency range 4 kHz–8 kHz. Since the enhanced speech quality is achieved without any transmitted information, the algorithm can be implemented at the receiving end of a communication link, for example in a mobile device after decoding the speech signal. This thesis presents algorithms for artificially extending the speech bandwidth. The methods are primarily designed for monaural speech signals, but also the extension of binaural speech signals is addressed. The algorithms are developed such that they incur reasonable computational costs, memory consumption, and algorithmic delays for mobile communications. These and other implementational issues related to mobile devices are addressed here. The performance of the methods has been evaluated by several subjective tests, including listening-opinion tests in several languages, intelligibility tests, and conversational tests. The evaluations have been mostly carried out with coded speech to provide realistic results. The results from the subjective evaluations of the methods show that artificial bandwidth extension can improve quality and intelligibility of narrowband speech signals in mobile communications. Further evidence of the reliability of the methods has been obtained by successful product implementations.Suurin osa puhelinliikenteestä on vielä nykyäänkin kapeakaistaista, eli puhelignaalista lähetetään vain 300–3400 Hz:in taajuuskaista. Rajoitettu taajuuskaista huonontaa sekä puheen laatua että ymmärrettävyyttä, koska korkeataajuiset, erityisesti konsonanttiäänteille tärkeät akustiset vihjeet, puuttuvat signaalista. Etenkin meluisissa ympäristöissä matkapuhelimien puhesignaalien heikko ymmärrettävyys väsyttää käyttäjiä sekä aiheuttaa ongelmia puhujan tunnistettavuudessa. Vaikka laajakaistaisen (50–7000 Hz) puheensiirtotekniikan käyttöönotto on aloitettu, kapeakaistaiset puheensiirtomenetelmät ovat käytössä vielä vuosia uusien menetelmien rinnalla. Tässä väitöskirjassa tutkitaan kapeakaistaisen puhesignaalin keinotekoista kaistanlaajennusta. Tällä puheenparannusmenetelmällä pyritään parantamaan puheäänen laatua ja ymmärrettävyyttä lisäämällä puhesignaaliin sisältöä puuttuville taajuuksille, esimerkiksi 4–8 kHz:in taajuuskaistalle. Koska puuttuvan kaistan alkuperäisestä sisällöstä ei lähetetä mitään tietoa, laajennus voidaan toteuttaa puhelinyhteyden vastaanottopäässä, kuten vastaanottajan matkapuhelimessa puhesignaalin dekoodauksen jälkeen. Tässä työssä esitellään keinotekoisia kaistanlaajennusalgoritmeja. Algoritmit on suunniteltu ensisijaisesti monosignaaleille, mutta myös binauraalisen signaalin laajennusta on tutkittu. Algoritmikehityksessä huomioitiin matkapuhelinympäristön asettamat laskenta-, muisti- sekä algoritmiviiverajoitukset. Näitä ja muita menetelmään liittyviä tuotteistusasioita on myös käsitelty tässä tutkimuksessa. Kaistanlaajennusmenetelmien laatua on mitattu useilla subjektiivisiilla testeillä, kuten eri kielillä toteutetuilla kuuntelukokeilla ja keskustelukokeilla. Näissä laadunarvioinneissa on käytetty pääasiassa koodattua puhemateriaalia, jotta tulokset olisivat mahdollisimman todenmukaisia. Laadunarviointitulokset osoittavat, että keinotekoisella kaistanlaajennuksella pystytään parantamaan kapeakaistaisen puheen laatua ja ymmärrettävyyttä matkapuhelinympäristössä. Tätä tulosta tukevat myös algoritmin onnistuneet matkapuhelintoteutukset.Description
Supervising professor
Alku, Paavo, Prof., Aalto University, FinlandKeywords
speech processing, speech enhancement, artificial bandwidth extension, speech quality, mobile devices, puheenkäsittely, puheen siistaus, keinotekoinen kaistanlaajennus, puheen laatu, matkapuhelimet
Other note
Parts
- [Publication 1]: Laura Laaksonen, Juho Kontio, and Paavo Alku. Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), volume 1, pages 809–812, March 2005.
- [Publication 2]: Juho Kontio, Laura Laaksonen, and Paavo Alku. Neural networkbased artificial bandwidth expansion of speech. IEEE Transactions on Audio, Speech, and Language Processing, volume 15, issue 3, pages 873–881, March 2007.
- [Publication 3]: Hannu Pulakka, Laura Laaksonen, Martti Vainio, Jouni Pohjalainen, and Paavo Alku. Evaluation of an artificial speech bandwidth extension method in three languages. IEEE Transactions on Audio, Speech, and Language Processing, volume 16, issue 6, pages 1124–1137, August 2008.
- [Publication 4]: Laura Laaksonen, Hannu Pulakka, Ville Myllylä, and Paavo Alku. Development, evaluation and implementation of an artificial bandwidth extension method of telephone speech in mobile terminal. IEEE Transactions on Consumer Electronics, volume 55, issue 2, pages 780–787, May 2009.
- [Publication 5]: Laura Laaksonen and Jussi Virolainen. Binaural artificial bandwidth extension (B-ABE) for speech. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), volume 1, pages 4009–4012, April 2009.
- [Publication 6]: Laura Laaksonen, Ville Myllylä, and Riitta Niemistö. Evaluating artificial bandwidth extension by conversational tests in car using mobile devices with integrated hands-free functionality. In Proceedings of the 12th Annual Conference of the International Speech Communication Association, Interspeech, pages 1177–1180, August 2011.
- [Publication 7]: Hannu Pulakka, Laura Laaksonen, Santeri Yrttiaho, Ville Myllylä, and Paavo Alku. Conversational quality evaluation of artificial bandwidth extension of telephone speech. The Journal of the Acoustical Society of America, volume 132, issue 2, pages 848–861, August 2012.