Artificial bandwidth extension of narrowband speech - enhanced speech quality and intelligibility in mobile devices

 |  Login

Show simple item record

dc.contributor Aalto-yliopisto fi
dc.contributor Aalto University en
dc.contributor.author Laaksonen, Laura
dc.date.accessioned 2013-04-23T09:00:10Z
dc.date.available 2013-04-23T09:00:10Z
dc.date.issued 2013
dc.identifier.isbn 978-952-60-5125-3 (electronic)
dc.identifier.isbn 978-952-60-5124-6 (printed)
dc.identifier.issn 1799-4942 (electronic)
dc.identifier.issn 1799-4934 (printed)
dc.identifier.issn 1799-4934 (ISSN-L)
dc.identifier.uri https://aaltodoc.aalto.fi/handle/123456789/9015
dc.description.abstract Even today, most of the telephone users are offered only narrowband speech transmission. The limited frequency band from 300 Hz to 3400 Hz reduces both quality and intelligibility of speech due to the missing high frequency components that are important cues especially in consonant sounds. Particularly in mobile communications that often takes place in noisy environments, degraded speech intelligibility results in listener fatigue and difficulty in speaker recognition. The deployment of wideband (50–7000 Hz), and superwideband (50–140000 Hz) speech transmission is ongoing, but the current narrowband speech coding will coexist with the new technologies still for years. In this thesis, a speech enhancement method called artificial bandwidth extension (ABE) for narrowband speech is studied. ABE methods aim to improve quality and intelligibility of narrowband speech by regenerating the missing high frequency content in the speech signal, typically in the frequency range 4 kHz–8 kHz. Since the enhanced speech quality is achieved without any transmitted information, the algorithm can be implemented at the receiving end of a communication link, for example in a mobile device after decoding the speech signal. This thesis presents algorithms for artificially extending the speech bandwidth. The methods are primarily designed for monaural speech signals, but also the extension of binaural speech signals is addressed. The algorithms are developed such that they incur reasonable computational costs, memory consumption, and algorithmic delays for mobile communications. These and other implementational issues related to mobile devices are addressed here. The performance of the methods has been evaluated by several subjective tests, including listening-opinion tests in several languages, intelligibility tests, and conversational tests. The evaluations have been mostly carried out with coded speech to provide realistic results. The results from the subjective evaluations of the methods show that artificial bandwidth extension can improve quality and intelligibility of narrowband speech signals in mobile communications. Further evidence of the reliability of the methods has been obtained by successful product implementations. en
dc.description.abstract Suurin osa puhelinliikenteestä on vielä nykyäänkin kapeakaistaista, eli puhelignaalista lähetetään vain 300–3400 Hz:in taajuuskaista. Rajoitettu taajuuskaista huonontaa sekä puheen laatua että ymmärrettävyyttä, koska korkeataajuiset, erityisesti konsonanttiäänteille tärkeät akustiset vihjeet, puuttuvat signaalista. Etenkin meluisissa ympäristöissä matkapuhelimien puhesignaalien heikko ymmärrettävyys väsyttää käyttäjiä sekä aiheuttaa ongelmia puhujan tunnistettavuudessa. Vaikka laajakaistaisen (50–7000 Hz) puheensiirtotekniikan käyttöönotto on aloitettu, kapeakaistaiset puheensiirtomenetelmät ovat käytössä vielä vuosia uusien menetelmien rinnalla. Tässä väitöskirjassa tutkitaan kapeakaistaisen puhesignaalin keinotekoista kaistanlaajennusta. Tällä puheenparannusmenetelmällä pyritään parantamaan puheäänen laatua ja ymmärrettävyyttä lisäämällä puhesignaaliin sisältöä puuttuville taajuuksille, esimerkiksi 4–8 kHz:in taajuuskaistalle. Koska puuttuvan kaistan alkuperäisestä sisällöstä ei lähetetä mitään tietoa, laajennus voidaan toteuttaa puhelinyhteyden vastaanottopäässä, kuten vastaanottajan matkapuhelimessa puhesignaalin dekoodauksen jälkeen. Tässä työssä esitellään keinotekoisia kaistanlaajennusalgoritmeja. Algoritmit on suunniteltu ensisijaisesti monosignaaleille, mutta myös binauraalisen signaalin laajennusta on tutkittu. Algoritmikehityksessä huomioitiin matkapuhelinympäristön asettamat laskenta-, muisti- sekä algoritmiviiverajoitukset. Näitä ja muita menetelmään liittyviä tuotteistusasioita on myös käsitelty tässä tutkimuksessa. Kaistanlaajennusmenetelmien laatua on mitattu useilla subjektiivisiilla testeillä, kuten eri kielillä toteutetuilla kuuntelukokeilla ja keskustelukokeilla. Näissä laadunarvioinneissa on käytetty pääasiassa koodattua puhemateriaalia, jotta tulokset olisivat mahdollisimman todenmukaisia. Laadunarviointitulokset osoittavat, että keinotekoisella kaistanlaajennuksella pystytään parantamaan kapeakaistaisen puheen laatua ja ymmärrettävyyttä matkapuhelinympäristössä. Tätä tulosta tukevat myös algoritmin onnistuneet matkapuhelintoteutukset. fi
dc.format.extent 96 + app. 74
dc.format.mimetype application/pdf
dc.language.iso en en
dc.publisher Aalto University en
dc.publisher Aalto-yliopisto fi
dc.relation.ispartofseries Aalto University publication series DOCTORAL DISSERTATIONS en
dc.relation.ispartofseries 64/2013
dc.relation.haspart [Publication 1]: Laura Laaksonen, Juho Kontio, and Paavo Alku. Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), volume 1, pages 809–812, March 2005.
dc.relation.haspart [Publication 2]: Juho Kontio, Laura Laaksonen, and Paavo Alku. Neural networkbased artificial bandwidth expansion of speech. IEEE Transactions on Audio, Speech, and Language Processing, volume 15, issue 3, pages 873–881, March 2007.
dc.relation.haspart [Publication 3]: Hannu Pulakka, Laura Laaksonen, Martti Vainio, Jouni Pohjalainen, and Paavo Alku. Evaluation of an artificial speech bandwidth extension method in three languages. IEEE Transactions on Audio, Speech, and Language Processing, volume 16, issue 6, pages 1124–1137, August 2008.
dc.relation.haspart [Publication 4]: Laura Laaksonen, Hannu Pulakka, Ville Myllylä, and Paavo Alku. Development, evaluation and implementation of an artificial bandwidth extension method of telephone speech in mobile terminal. IEEE Transactions on Consumer Electronics, volume 55, issue 2, pages 780–787, May 2009.
dc.relation.haspart [Publication 5]: Laura Laaksonen and Jussi Virolainen. Binaural artificial bandwidth extension (B-ABE) for speech. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), volume 1, pages 4009–4012, April 2009.
dc.relation.haspart [Publication 6]: Laura Laaksonen, Ville Myllylä, and Riitta Niemistö. Evaluating artificial bandwidth extension by conversational tests in car using mobile devices with integrated hands-free functionality. In Proceedings of the 12th Annual Conference of the International Speech Communication Association, Interspeech, pages 1177–1180, August 2011.
dc.relation.haspart [Publication 7]: Hannu Pulakka, Laura Laaksonen, Santeri Yrttiaho, Ville Myllylä, and Paavo Alku. Conversational quality evaluation of artificial bandwidth extension of telephone speech. The Journal of the Acoustical Society of America, volume 132, issue 2, pages 848–861, August 2012.
dc.subject.other Telecommunications engineering en
dc.title Artificial bandwidth extension of narrowband speech - enhanced speech quality and intelligibility in mobile devices en
dc.title Puheen keinotekoinen kaistanlaajennus - parempilaatuista ja ymmärrettävämpää puhetta matkapuhelimiin fi
dc.type G5 Artikkeliväitöskirja fi
dc.contributor.school Sähkötekniikan korkeakoulu fi
dc.contributor.school School of Electrical Engineering en
dc.contributor.department Signaalinkäsittelyn ja akustiikan laitos fi
dc.contributor.department Department of Signal Processing and Acoustics en
dc.subject.keyword speech processing en
dc.subject.keyword speech enhancement en
dc.subject.keyword artificial bandwidth extension en
dc.subject.keyword speech quality en
dc.subject.keyword mobile devices en
dc.subject.keyword puheenkäsittely fi
dc.subject.keyword puheen siistaus fi
dc.subject.keyword keinotekoinen kaistanlaajennus fi
dc.subject.keyword puheen laatu fi
dc.subject.keyword matkapuhelimet fi
dc.identifier.urn URN:ISBN:978-952-60-5125-3
dc.type.dcmitype text en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.contributor.supervisor Alku, Paavo, Prof., Aalto University, Finland
dc.opn Yegnanarayana, Bayya, Prof., International Institute of Information Technology (IIIT), Hyderabad, India
dc.rev Kubin, Gernot, Prof., Graz University of Technology, Austria
dc.rev Stylianou, Yannis, Prof., University of Crete, Greece
dc.date.defence 2013-05-03


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search archive


Advanced Search

article-iconSubmit a publication

Browse

My Account