Development and evaluation of artificial bandwidth extension methods for narrowband telephone speech

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2013-02-15
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2013
Major/Subject
Mcode
Degree programme
Language
en
Pages
130 + app. 68
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 5/2013
Abstract
Telephone systems commonly transmit narrowband speech with an audio bandwidth limited to the traditional telephone band of 300–3400 Hz. The narrow bandwidth degrades the quality and intelligibility of speech. A significant improvement is provided by the transmission of wideband speech, which typically covers the frequency range of 50–7000 Hz. Currently, wideband speech services are increasingly deployed in cellular telephone networks, but the transition from narrowband to wideband speech transmission is expected to take a long time. The quality of narrowband speech can be improved by artificial bandwidth extension (ABE) that attempts to reconstruct the missing frequency content artificially from the narrowband speech signal. ABE can be implemented in the receiving terminal device and used with the existing narrowband speech coding and transmission techniques. ABE is expected to gain importance during the transition to wideband telephony as a means to reduce the perceived quality difference between narrowband and wideband speech. This thesis contributes to the development and evaluation of ABE, especially for the application in mobile phones. Two new ABE methods are proposed: the filter bank-based ABE (FB-ABE) for the high-frequency range above the traditional telephone band and the lowband ABE (LB-ABE) for the low-frequency range below the telephone band. The feasibility of implementation in mobile devices is taken into account in the design of the methods. The methods were evaluated primarily by subjective listening tests that simulated realistic telephone speech including the use of speech codecs. A subjective evaluation of ABE in three languages was also organized and ABE was found to improve the speech quality in all the evaluated languages. Furthermore, conversational evaluations were arranged for simulated telephone connections involving real-time ABE processing. The ABE methods presented in this thesis are shown to improve, in general, the perceived quality and preference over narrowband speech.

Useimmat puhelinjärjestelmät välittävät puheen kapeakaistaisena eli rajoittavat äänitaajuuskaistan perinteiseen puhelinkaistaan 300–3400 Hz. Kapea taajuuskaista heikentää puheen laatua ja ymmärrettävyyttä. Molempia voidaan parantaa merkittävästi siirtämällä puhe laajakaistaisena, mikä yleensä tarkoittaa äänitaajuusaluetta 50–7000 Hz. Laajakaistaiset puhelut alkavat olla mahdollisia yhä useammissa matkapuhelinverkoissa, mutta siirtymävaihe kapeakaistaisesta puheensiirrosta laajakaistaiseen kestänee pitkään. Kapeakaistaisen puheen laatua voidaan parantaa keinotekoisen kaistanlaajennuksen (artificial bandwidth extension, ABE) avulla. Keinotekoinen kaistanlaajennus muodostaa puuttuvan taajuussisällön pelkästään kapeakaistaisen puhesignaalin perusteella. Kaistanlaajennus voidaan toteuttaa vastaanottopään päätelaitteessa, ja sitä voidaan käyttää nykyisten kapeakaistaisten puheenkoodaus- ja puheensiirtomenetelmien yhteydessä. Kaistanlaajennuksen avulla voidaan vähentää kapea- ja laajakaistaisen puheen välistä laatueroa, ja siksi kaistanlaajennuksen merkityksen odotetaan kasvavan siirtymävaiheessa kapeakaistaisesta puheensiirrosta laajakaistaiseen. Tämä väitöskirja käsittelee keinotekoisen kaistanlaajennuksen kehittämistä ja evaluointia erityisesti matkapuhelimia varten. Työssä esitellään kaksi uutta kaistanlaajennusmenetelmää: suodinpankkiin perustuva FB-ABE-menetelmä puhelinkaistan yläpuoliselle taajuusalueelle ja LB-ABE-menetelmä puhelinkaistan alapuoliselle taajuusalueelle. Menetelmien suunnittelussa otettiin huomioon niiden toteutettavuus mobiililaitteissa. Menetelmiä evaluoitiin pääasiassa subjektiivisilla kuuntelukokeilla, joissa jäljiteltiin todellista matkapuhelinten puheensiirtoa muun muassa käyttämällä puhekoodereita. Työssä myös testattiin keinotekoista kaistanlaajennusta kuuntelukokeiden avulla kolmella eri kielellä, ja kaistanlaajennuksen todettiin keskimäärin parantavan puheen laatua kaikilla näillä kielillä. Lisäksi järjestettiin keskustelutestejä, joissa arvioitiin reaaliaikaista kaistanlaajennusta simuloidun puhelinyhteyden osana. Väitöskirjassa osoitetaan puheen laadun keskimäärin paranevan, kun kapeakaistainen puhesignaali muunnetaan laajakaistaiseksi työssä esitetyillä menetelmillä.
Description
Supervising professor
Alku, Paavo, Prof., Aalto University, Finland
Thesis advisor
Alku, Paavo, Prof., Aalto University, Finland
Keywords
speech, speech enhancement, artificial bandwidth extension, quality evaluation, puhe, puheen siistaus, keinotekoinen kaistanlaajennus, laadun evaluointi
Other note
Parts
  • [Publication 1]: Hannu Pulakka, Laura Laaksonen, Martti Vainio, Jouni Pohjalainen, and Paavo Alku, “Evaluation of an artificial speech bandwidth extension method in three languages,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, no. 8, pp. 1124–1137, August 2008.
  • [Publication 2]: Hannu Pulakka and Paavo Alku, “Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2170–2183, September 2011.
  • [Publication 3]: Hannu Pulakka, Ulpu Remes, Santeri Yrttiaho, Kalle Palomaki, Mikko Kurimo, and Paavo Alku, “Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 8, pp. 2219–2231, October 2012.
  • [Publication 4]: Hannu Pulakka, Laura Laaksonen, Santeri Yrttiaho, Ville Myllylä, and Paavo Alku, “Conversational quality evaluation of artificial bandwidth extension of telephone speech,” Journal of the Acoustical Society of America, vol. 132, no. 2, pp. 848–861, August 2012.
  • [Publication 5]: Hannu Pulakka, Laura Laaksonen, Ville Myllylä, Santeri Yrttiaho, and Paavo Alku, “Conversational evaluation of speech bandwidth extension using a mobile handset,” IEEE Signal Processing Letters, vol. 19, no. 4, pp. 203–206, April 2012.
Citation