Development and evaluation of artificial bandwidth extension methods for narrowband telephone speech

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorAlku, Paavo, Prof., Aalto University, Finland
dc.contributor.authorPulakka, Hannu
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorAlku, Paavo, Prof., Aalto University, Finland
dc.date.accessioned2013-02-11T09:30:06Z
dc.date.available2013-02-11T09:30:06Z
dc.date.defence2013-02-15
dc.date.issued2013
dc.description.abstractTelephone systems commonly transmit narrowband speech with an audio bandwidth limited to the traditional telephone band of 300–3400 Hz. The narrow bandwidth degrades the quality and intelligibility of speech. A significant improvement is provided by the transmission of wideband speech, which typically covers the frequency range of 50–7000 Hz. Currently, wideband speech services are increasingly deployed in cellular telephone networks, but the transition from narrowband to wideband speech transmission is expected to take a long time. The quality of narrowband speech can be improved by artificial bandwidth extension (ABE) that attempts to reconstruct the missing frequency content artificially from the narrowband speech signal. ABE can be implemented in the receiving terminal device and used with the existing narrowband speech coding and transmission techniques. ABE is expected to gain importance during the transition to wideband telephony as a means to reduce the perceived quality difference between narrowband and wideband speech. This thesis contributes to the development and evaluation of ABE, especially for the application in mobile phones. Two new ABE methods are proposed: the filter bank-based ABE (FB-ABE) for the high-frequency range above the traditional telephone band and the lowband ABE (LB-ABE) for the low-frequency range below the telephone band. The feasibility of implementation in mobile devices is taken into account in the design of the methods. The methods were evaluated primarily by subjective listening tests that simulated realistic telephone speech including the use of speech codecs. A subjective evaluation of ABE in three languages was also organized and ABE was found to improve the speech quality in all the evaluated languages. Furthermore, conversational evaluations were arranged for simulated telephone connections involving real-time ABE processing. The ABE methods presented in this thesis are shown to improve, in general, the perceived quality and preference over narrowband speech.en
dc.description.abstractUseimmat puhelinjärjestelmät välittävät puheen kapeakaistaisena eli rajoittavat äänitaajuuskaistan perinteiseen puhelinkaistaan 300–3400 Hz. Kapea taajuuskaista heikentää puheen laatua ja ymmärrettävyyttä. Molempia voidaan parantaa merkittävästi siirtämällä puhe laajakaistaisena, mikä yleensä tarkoittaa äänitaajuusaluetta 50–7000 Hz. Laajakaistaiset puhelut alkavat olla mahdollisia yhä useammissa matkapuhelinverkoissa, mutta siirtymävaihe kapeakaistaisesta puheensiirrosta laajakaistaiseen kestänee pitkään. Kapeakaistaisen puheen laatua voidaan parantaa keinotekoisen kaistanlaajennuksen (artificial bandwidth extension, ABE) avulla. Keinotekoinen kaistanlaajennus muodostaa puuttuvan taajuussisällön pelkästään kapeakaistaisen puhesignaalin perusteella. Kaistanlaajennus voidaan toteuttaa vastaanottopään päätelaitteessa, ja sitä voidaan käyttää nykyisten kapeakaistaisten puheenkoodaus- ja puheensiirtomenetelmien yhteydessä. Kaistanlaajennuksen avulla voidaan vähentää kapea- ja laajakaistaisen puheen välistä laatueroa, ja siksi kaistanlaajennuksen merkityksen odotetaan kasvavan siirtymävaiheessa kapeakaistaisesta puheensiirrosta laajakaistaiseen. Tämä väitöskirja käsittelee keinotekoisen kaistanlaajennuksen kehittämistä ja evaluointia erityisesti matkapuhelimia varten. Työssä esitellään kaksi uutta kaistanlaajennusmenetelmää: suodinpankkiin perustuva FB-ABE-menetelmä puhelinkaistan yläpuoliselle taajuusalueelle ja LB-ABE-menetelmä puhelinkaistan alapuoliselle taajuusalueelle. Menetelmien suunnittelussa otettiin huomioon niiden toteutettavuus mobiililaitteissa. Menetelmiä evaluoitiin pääasiassa subjektiivisilla kuuntelukokeilla, joissa jäljiteltiin todellista matkapuhelinten puheensiirtoa muun muassa käyttämällä puhekoodereita. Työssä myös testattiin keinotekoista kaistanlaajennusta kuuntelukokeiden avulla kolmella eri kielellä, ja kaistanlaajennuksen todettiin keskimäärin parantavan puheen laatua kaikilla näillä kielillä. Lisäksi järjestettiin keskustelutestejä, joissa arvioitiin reaaliaikaista kaistanlaajennusta simuloidun puhelinyhteyden osana. Väitöskirjassa osoitetaan puheen laadun keskimäärin paranevan, kun kapeakaistainen puhesignaali muunnetaan laajakaistaiseksi työssä esitetyillä menetelmillä.fi
dc.format.extent130 + app. 68
dc.format.mimetypeapplication/pdf
dc.identifier.isbn978-952-60-4964-9 (electronic)
dc.identifier.isbn978-952-60-4963-2 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/7745
dc.identifier.urnURN:ISBN:978-952-60-4964-9
dc.language.isoenen
dc.opnFingscheidt, Tim, Prof., Technische Universität Braunschweig, Germany
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Hannu Pulakka, Laura Laaksonen, Martti Vainio, Jouni Pohjalainen, and Paavo Alku, “Evaluation of an artificial speech bandwidth extension method in three languages,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, no. 8, pp. 1124–1137, August 2008.
dc.relation.haspart[Publication 2]: Hannu Pulakka and Paavo Alku, “Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 19, no. 7, pp. 2170–2183, September 2011.
dc.relation.haspart[Publication 3]: Hannu Pulakka, Ulpu Remes, Santeri Yrttiaho, Kalle Palomaki, Mikko Kurimo, and Paavo Alku, “Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 8, pp. 2219–2231, October 2012.
dc.relation.haspart[Publication 4]: Hannu Pulakka, Laura Laaksonen, Santeri Yrttiaho, Ville Myllylä, and Paavo Alku, “Conversational quality evaluation of artificial bandwidth extension of telephone speech,” Journal of the Acoustical Society of America, vol. 132, no. 2, pp. 848–861, August 2012.
dc.relation.haspart[Publication 5]: Hannu Pulakka, Laura Laaksonen, Ville Myllylä, Santeri Yrttiaho, and Paavo Alku, “Conversational evaluation of speech bandwidth extension using a mobile handset,” IEEE Signal Processing Letters, vol. 19, no. 4, pp. 203–206, April 2012.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries5/2013
dc.revHermansky, Hynek, Prof., Johns Hopkins University, the USA
dc.revO'Shaughnessy, Douglas, Prof., Institut national de la recherche scientifique, Canada
dc.subject.keywordspeechen
dc.subject.keywordspeech enhancementen
dc.subject.keywordartificial bandwidth extensionen
dc.subject.keywordquality evaluationen
dc.subject.keywordpuhefi
dc.subject.keywordpuheen siistausfi
dc.subject.keywordkeinotekoinen kaistanlaajennusfi
dc.subject.keywordlaadun evaluointifi
dc.subject.otherElectrical engineeringen
dc.titleDevelopment and evaluation of artificial bandwidth extension methods for narrowband telephone speechen
dc.titlePuhelinkaistan keinotekoisten laajennusmenetelmien kehittäminen ja evaluointifi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_65498

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
isbn9789526049649.pdf
Size:
1.14 MB
Format:
Adobe Portable Document Format