Techniques for speech intelligibility enhancement in mobile telephony

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2017-12-08
Date
2017
Major/Subject
Mcode
Degree programme
Language
en
Pages
79 + app. 85
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 208/2017
Abstract
Today's consumers can use their mobile telephony devices almost anywhere and at any time. This means that speech communication is often disturbed by environmental background noise, making it hard for the listener to understand what the speaker is saying. To further aggravate the situation, the listener and the speaker are typically in different locations when the communication is taking place. This means that without listener feedback the speaker is unable to adjust his or her speaking style to fit the listening environment, as is normally done in face-to-face communication situations. However, speech communication by mobile telephony in noisy conditions can be improved using intelligibility enhancement technology. This thesis contributes to the development of intelligibility enhancement techniques that can in principle be applied in real-time speech communication in a mobile device. The algorithms are intended to be used in a post-processing block in the receiving device to combat near-end noise in the listener's environment. The target application places tight restrictions on the algorithmic delay, which means that frame-based processing in short time frames (for instance, 10 to 20 ms in length) must be employed. Several algorithms for intelligibility improvement are proposed and their performance is demonstrated with subjective tests using simulated telephone speech. The majority of the introduced algorithms aim to mimic modifications that human speakers naturally employ when talking in noisy situations. In addition, a feature extraction technique that can be used to estimate the spectral tilt caused by the glottal excitation from telephone speech is proposed. Finally, the impact of noisy far-end conditions on post-processing in the receiving device is investigated. In general, the proposed post-processing techniques show clear intelligibility improvement over unprocessed telephone speech, ranging up to a 40 percentage point reduction in word-error rates.

Kuluttajat voivat nykypäivänä käyttää mobiililaitteitaan lähes missä ja milloin vain. Tämä tarkoittaa puolestaan sitä, että ympäristössä oleva melu häiritsee kuuntelijaa tehden puhujan viestin ymmärtämisestä haastavampaa. Tilannetta vaikeuttaa entisestään se, että puhuja ja kuuntelija ovat usein fyysisesti eri paikoissa puhuessaan keskenään. Tällöin puhuja ei välttämättä aina pysty mukauttamaan puhetyyliään kuuntelijan ympäristön mukaan, kuten normaalisti tapahtuisi kasvokkain käytävässä keskustelussa. Mobiililaitteissa tapahtuvan kommunikaation sujuvuutta meluisissa tilanteissa voidaan kuitenkin lisätä ymmärrettävyyden parantamiseen tähtäävillä tekniikoilla. Tässä väitöskirjassa on kehitetty puheen ymmärrettävyyden parantamiseen käytettäviä algoritmeja, jotka periaatteessa soveltuvat reaaliaikaiseen kommunikaatioon mobiililaitteissa. Nämä algoritmit on tarkoitettu erityisesti puheen jälkikäsittelyyn vastaanottavassa laitteessa ja niiden tavoitteena on kuuntelijan ympärillä olevan taustamelun vaikutusten vähentäminen. Reaaliaikaisuus vaatimuksena tarkoittaa, että algoritmien aiheuttama viive on rajoitettu, ja tästä syystä prosessointi tehdään lyhyitä kehyksiä käyttäen. Väitöskirjassa esitellään useita algoritmeja, joiden suorituskyky osoitetaan simuloitua puhelinyhteyttä hyödyntävien kuuntelukokeiden avulla. Suurin osa ehdotetuista algoritmeista pyrkii muuttamaan puhetta, kuten ihminen luonnollisesti tekisi puhuessaan meluisassa tilanteessa. Puheen ymmärrettävyyttä parantavien algoritmien lisäksi työssä esitellään piirteiden irroitukseen soveltuva tekniikka, jolla voidaan estimoida puheen äänilähteen aiheuttama spektrin kallistus suoraan koodatusta puheesta. Lisäksi on tutkittu puheessa olevan melun vaikutuksia jälkikäsittelyyn vastaanottimessa. Työssä kehitetyt tekniikat parantavat vastaanotetun puheen ymmärrettävyyttä jopa 40 prosenttiyksikön verran prosessoimattomaan puheeseen verrattuna.
Description
Supervising professor
Alku, Paavo, Academy Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
speech intelligibility enhancement, telephone speech, near-end noise, human speech production, puheen ymmärrettävyyden parannus, puhelinpuhe, taustamelu, ihmisen puheentuotto
Other note
Parts
  • [Publication 1]: Emma Jokinen, Santeri Yrttiaho, Hannu Pulakka, Martti Vainio, and Paavo Alku. “Signal-to-noise ratio adaptive post-filtering method for intelligibility enhancement of telephone speech”. The Journal of the Acoustical Society of America , vol. 132, no. 6, pp. 3990–4001, December 2012.
    DOI: 10.1121/1.4765074 View at publisher
  • [Publication 2]: Emma Jokinen, Marko Takanen, Martti Vainio, and Paavo Alku. “An adaptive post-filtering method producing an artificial Lombard-like effect for intelligibility enhancement of narrowband telephone speech”. Computer Speech & Language, vol. 28, no. 2, pp. 619–628, March 2014.
    DOI: 10.1016/j.csl.2013.03.005 View at publisher
  • [Publication 3]: Emma Jokinen, Ulpu Remes, Marko Takanen, Kalle Palomäki, Mikko Kurimo, and Paavo Alku. “Spectral tilt modelling with GMMs for intelligibility enhancement of narrowband telephone speech”. In Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), Singapore, pp. 2036–2040, September 2014.
  • [Publication 4]: Emma Jokinen and Paavo Alku. “Estimating the spectral tilt of the glottal source from telephone speech using a deep neural network”. The Journal of the Acoustical Society of America, vol. 141, no. 4, pp. EL327-EL330, April 2017.
    DOI: 10.1121/1.4979162 View at publisher
  • [Publication 5]: Emma Jokinen, Ulpu Remes, and Paavo Alku. “Intelligibility enhancement of telephone speech using Gaussian process regression for normal-to-Lombard spectral tilt conversion”. IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 10, pp. 1985–1996, October 2017.
    DOI: 10.1109/TASLP.2017.2740004 View at publisher
  • [Publication 6]: Emma Jokinen, Hannu Pulakka, and Paavo Alku. “Phase modification for increasing the loudness of telephone speech in near-end noise conditions – evaluation of two methods”. Speech Communication, vol. 83, pp. 64–80, October 2016.
    DOI: 10.1016/j.specom.2016.08.001 View at publisher
  • [Publication 7]: Emma Jokinen and Paavo Alku. “Intelligibility enhancement at the receiving end of the speech transmission system - effects of far-end noise reduction”. In Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH), San Francisco, CA, USA, pp. 2498–2502, September 2016.
Citation