Techniques for versatile spatial-audio reproduction in time-frequency domain

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2014-02-28
Checking the digitized thesis and permission for publishing
Instructions for the author
Date
2014
Major/Subject
Mcode
Degree programme
Language
en
Pages
186
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 5/2014
Abstract
We can perceive many spatial aspects about the sounds around us. These include the direction, the distance, and the size of the sound source, as well as properties about the space inside which we are. Thus, reproduction of sound should take these spatial properties into account if natural perception of a sound scene is desired. Directional audio coding (DirAC) is a recently proposed method for spatial sound reproduction. It operates in the time-frequency domain and aims to analyze the perceptually significant properties of the sound field. The analyzed parameters, namely the direction of arrival and the diffuseness, are used for manipulating recorded microphone signals in such a way that the perception of the reproduced sound field is equal to the original sound field. Subjective evaluations have shown that, compared to traditional methods, DirAC improves the perceived quality. However, DirAC was originally introduced for relatively limited use cases. This thesis presents methods to generalize the DirAC approach for more versatile use. The generalization is performed for three aspects: challenging spatial-sound scenarios, output systems, and input systems. As DirAC is a parametric method, the resulting quality is signal dependent. Thus, challenging sound scenarios for DirAC processing were sought in order to improve the processing and to enable good quality with all kinds of signals. A few problematic cases were found, e.g., multiple simultaneous talkers in low-echoic conditions and applause-type signals. This thesis shows that the decorrelation processing used in DirAC increases the perceived spaciousness with certain signals. Alternative methods for these problematic cases are introduced showing improvement in the perceived quality based on subjective evaluation. DirAC originally used loudspeakers for reproduction. As an addition to possible reproduction devices, a method for headphone reproduction is presented in this thesis. The method is based on binaural techniques and head tracking, and subjective evaluations show that natural spatial impression can be reproduced. DirAC was originally developed to be used with B-format microphones, but in practice they are rarely used for recording. A method for more common spaced-microphone arrays, which is additionally shown to have some advantages compared to the B-format processing, is presented in this thesis. Furthermore, DirAC is extended to be used with legacy multi-channel signals, such as 5.1 surround, and even further to virtual-world spatial audio. Finally, a modular structure for DirAC processing is introduced. The structure allows several types of inputs to be used simultaneously without compromising the quality of reproduction.

Havaitsemme ympärillämme olevista äänistä useita avaruudellisia ominaisuuksia, kuten äänilähteen suunnan, etäisyyden ja koon, ja lisäksi myös ominaisuuksia tilasta missä olemme. Näin ollen tilaäänen toistossa tulee ottaa nämä tilaa koskevat ominaisuudet huomioon, jos tavoitteena on luonnollinen havainto ääniympäristöstä. Directional audio coding (DirAC) on äskettäin esitelty menetelmä tilaäänen toistamiseen. Se käsittelee ääntä aika-taajuusalueessa ja pyrkii analysoimaan äänikentästä havaintojen kannalta merkityksellisiä ominaisuuksia. Analysoituja parametreja, eli tulosuuntaa ja diffuusisuutta, käytetään äänitettyjen mikrofonisignaalien muokkaamiseen siten, että toistettu äänikenttä havaitaan samalla tavalla kuin alkuperäinen äänikenttä. Kuuntelukokeet ovat osoittaneet, että DirAC parantaa havaittua laatua verrattuna perinteisiin menetelmiin. DirAC esiteltiin kuitenkin alunperin verrattain suppeisiin käyttötarkoituksiin. Tämä väitöskirja esittää menetelmiä, joilla voidaan yleistää DirAC-tekniikan lähestymistapaa monipuolisempiin käyttötarkoituksiin. Yleistys tehdään kolmesta eri näkökulmasta: haastavat tilanteet tilaäänen kannalta, toistojärjestelmät ja sisäänmenojärjestelmät. Koska DirAC on parametrinen menetelmä, toiston laatu riippuu signaalista. Tämän vuoksi tässä työssä etsittiin DirAC-toiston kannalta haastavia ääniskenaarioita prosessoinnin kehittämiseksi ja täten hyvän laadun mahdollistamiseksi kaikenlaisilla signaaleilla. Muutamia ongelmallisia tapauksia löydettiin, kuten monta samanaikaista puhujaa vähäkaikuisessa huoneessa ja taputuksia sisältävät signaalit. Tämä väitöskirja osoittaa, että DirAC-tekniikassa käytetty dekorrelointi lisää havaittua kaiuntaisuutta tietyillä signaaleilla. Vaihtoehtoisia menetelmiä esitetään näihin tilanteisiin, ja kuuntelukokeet osoittavat havaitun laadun paranevan. Alunperin DirAC käytti toistoon kaiuttimia. Lisänä mahdollisiin toistojärjestelmiin tässä väitöskirjassa esitetään menetelmä kuuloketoistoon. Menetelmä perustuu binauraalisiin tekniikoihin ja päänseurantaan ja mahdollistaa luonnollisen tilantunnun toiston. DirAC kehitettiin alunperin käytettäväksi B-formaattimikrofonien kanssa, mutta käytännössä niitä käytetään harvoin äänittämiseen. Tässä väitöskirjassa esitetään menetelmä yleisempien erillismikrofoniäänitysten käsittelyyn, josta lisäksi osoitetaan olevan etua verrattuna B-formaatin käsittelyyn. Lisäksi DirAC-tekniikkaa laajennetaan monikanavasignaalien, kuten 5.1-äänen, käsittelyyn ja jopa pidemmälle tilaäänentoistoon virtuaalimaailmoissa. Lopuksi esitetään modulaarinen rakenne DirAC-prosessointiin, joka mahdollistaa useanlaisten sisäänmenojen samanaikaisen käytön tinkimättä toiston laadusta.
Description
Supervising professor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Keywords
spatial audio, multi-channel reproduction, tilaääni, monikanavainen toisto
Other note
Parts
  • [Publication 1]: Mikko-Ville Laitinen, Fabian Kuech, Sascha Disch, and Ville Pulkki. Reproducing applause-type signals with directional audio coding. Journal of the Audio Engineering Society, vol. 59, no. 1/2, pp. 29–43, January/February 2011.
  • [Publication 2]: Mikko-Ville Laitinen and Ville Pulkki. Utilizing instantaneous direct-to-reverberant ratio in parametric spatial audio coding. In Proceedings of the 133rd Convention of the Audio Engineering Society, San Francisco, CA, USA, October 2012.
  • [Publication 3]: Archontis Politis, Mikko-Ville Laitinen, Jukka Ahonen, and Ville Pulkki. Parametric spatial audio coding for spaced microphone array recordings. In Proceedings of the 134th Convention of the Audio Engineering Society, Rome, Italy, May 2013.
  • [Publication 4]: Mikko-Ville Laitinen and Ville Pulkki. Binaural reproduction for directional audio coding. In Proceedings of the IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, NY, USA, pp. 337–340, October 2009.
  • [Publication 5]: Mikko-Ville Laitinen, Tapani Pihlajamäki, Stefan Lösler, and Ville Pulkki. Influence of resolution of head tracking in synthesis of binaural audio. In Proceedings of the 132nd Convention of the Audio Engineering Society, Budapest, Hungary, May 2012.
  • [Publication 6]: Mikko-Ville Laitinen and Ville Pulkki. Converting 5.1 audio recordings to B-format for directional audio coding reproduction. In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech Republic, pp. 61–64, May 2011.
  • [Publication 7]: Mikko-Ville Laitinen, Tapani Pihlajamäki, Cumhur Erkut, and Ville Pulkki. Parametric time-frequency representation of spatial sound in virtual worlds. ACM Transactions on Applied Perception, vol. 9, no. 2, article 8, June 2012.
  • [Publication 8]: Tapani Pihlajamäki, Mikko-Ville Laitinen, and Ville Pulkki. Modular architecture for virtual-world parametric spatial audio synthesis. In Proceedings of the 49th International Conference of the Audio Engineering Society, London, UK, February 2013.
Citation