Microphone front-ends for spatial sound analysis and synthesis with Directional Audio Coding
Loading...
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Doctoral thesis (article-based)
| Defence date: 2013-03-08
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Author
Date
2013
Major/Subject
Mcode
Degree programme
Language
en
Pages
65 + app. 67
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 33/2013
Abstract
A large number of professional and domestic audio applications utilize spatial sound reproduction. In addition to the conventional applications, such as the surround sound in movie and home theaters, spatial sound is also applied for telecommunication purposes. For instance in teleconferencing, sound emanated by talkers can be captured with multiple microphones at one end and reproduced spatially distributed with multiple loudspeakers at the other. This has benefit over a typical monophonic reproduction of the teleconference in terms of speech intelligibility and other elements of communication. During the last decade there has been an increasing research interest in parametric spatial sound processing. Several techniques for estimating the directional parameters of a sound field from multichannel audio files or from microphone signals have been proposed. In the parametric techniques, the directional information can be efficiently transmitted and then applied to spatial sound synthesis for various purposes. This thesis discusses Directional Audio Coding (DirAC) for capturing, transmitting and reproducing spatial sound. The perceptually motivated time-frequency processing of DirAC provides a parametric description of spatial sound, namely the arrival direction and diffuseness of sound. Direction and diffuseness, when analyzed in the time-frequency resolution of human hearing, are assumed to transmit enough information on the captured sound field for spatial hearing. DirAC has several applications of spatial audio, of which teleconferencing is mainly the focus here. The author's research addresses the development of different microphone front-ends for DirAC. The methods to analyze a sound field with input from arrays of omnidirectional microphones and from typical directional stereo microphones were studied. A novel method for diffuseness estimation was developed as a part of this work. Microphone arrays, which exploit an acoustic shadowing between microphones, are also proposed as an acoustical front-end for DirAC, as are the methods to conduct directional analysis with such arrays. These methods overcome the issues, which occur in direction analysis with input from the conventional microphone arrays, and thus provide reliable direction estimate over the entire audio frequency range. In the thesis, DirAC processing is also applied to bilaterally-fitted hearing aids with two microphones at each ear. The use of different microphone front-ends is evaluated through measurements and listening tests.Useat ammatti- ja kotikäyttöön tarkoitetut audiosovellukset hyödyntävät tilaäänentoistoa.Tavanomaisia sovelluksia ovat esimerkiksi elokuva- ja kotiteatterit. Näiden lisäksi myös telekommunikaatiosovelluksissa ääni voidaan toistaa siten, että sen tilaominaisuudet säilyvät kuulijalle. Esimerkiksi telekonferenssisovelluksessa osanottajien puhe voidaan tallentaa usealla mikrofonilla lähetyspäässä ja toistaa usealla kaiuttimella vastaanottopäässä, jolloin äänilähteet välittyvät kuulijalle eri suunnista. Tämä parantaa muun muassa puheenymmärrettävyyttä verrattuna perinteisesti käytettyyn yksikanavaiseen äänentoistoon. Parametrisia tilaäänen prosessointimenetelmiä on tutkittu laajalti viimeisten vuosikymmenten aikana. Menetelmissä mikrofonisignaaleista tai monikanavaäänitiedostosta analysoidaan suuntatietoa äänestä. Tämä suuntatieto voidaan tallentaa ja siirtää tehokkaasti ja hyödyntää tilaäänen synteesissä eri käyttötarkoituksia varten. Tässä väitöskirjatyössä käsitellään Directional Audio Coding (DirAC) -menetelmää, joka on tarkoitettu tilaäänen äänittämiseen, siirtoon ja toistoon. Menetelmä perustuu äänisignaalien aika-taajuusprosessointiin, jossa on huomioitu ihmisen kuulon ominaisuudet tilaäänen havaitsemiselle. Menetelmässa äänikentän parametrinen esitys koostuu äänen analysoidusta tulosuunnasta ja diffuusisuudesta. Näiden parametrien katsotaan välittävän riittävästi suunta-ja tilainformaatiota äänikentästä ihmisen suuntakuulolle, kun prosessointi suoritetaan vastaavalla aika-taajuusresoluutiolla, jolla ihmisen kuulo käsittelee ääntä. DirAC-menetelmää voidaan käyttää useissa erilaisissa audiosovelluksissa, joista tässä väitöskirjatyössä käsitellään pääasiallisesti telekonferenssisovellusta. Väitöskirjatyössä on kehitetty useita eri mikrofonitekniikoita DirAC-menetelmälle. Työssä on tutkittu äänikentän suunta-analyysia painemikrofonihilan sekä tyypillisten stereo-suuntamikrofonien signaaleista. Osana työtä on kehitetty uusi laskentamenetelmä äänen diffuusisuusanalyysille. Työssä käsitellään myös mikrofonihiloja, joissa mikrofonien välille muodostuu akustista varjostusta. Akustista varjostusta hyödynnetään tässä työssä kehitetyissä äänen suunta-analyysimenetelmissä. Kehitetyt menetelmät ratkaisevat pääosin ongelmia, joita esiintyy perinteisillä mikrofonihiloilla, sekä mahdollistavat näin ollen luotettavan äänen tulosuunta-analyysin koko kuultavalle taajuuskaistalle. Lisäksi DirAC-menetelmää on sovellettu kuulokojeilla väitöskirjatyössä. Eri mikrofonitekniikoiden käyttöä on arvioitu mittauksin sekä kuuntelukokein.Description
Supervising professor
Pulkki, Ville, Prof., Aalto University, FinlandThesis advisor
Pulkki, Ville, Prof., Aalto University, FinlandKeywords
spatial audio, microphone arrays, multichannel reproduction, teleconferencing, tilaääni, mikrofonitekniikat, monikanavainen äänentoisto, telekonferenssi
Other note
Parts
- [Publication 1]: Jukka Ahonen and Ville Pulkki. Speech Intelligibility in Teleconference Application of Directional Audio Coding. In AES 40th International Conference on Spatial Audio, Tokyo, Japan, October 2010.
- [Publication 2]: Giovanni Del Galdo, Maja Taseska, Oliver Thiergart, Jukka Ahonen and Ville Pulkki. The Diffuse Sound Field in Energetic Analysis. Journal of the Acoustical Society of America (JASA), 131(3), pp. 2141-2151, March 2012.
- [Publication 3]: Jukka Ahonen. Microphone Configurations for Teleconference Application of Directional Audio Coding and Subjective Evaluation. In AES 40th International Conference on Spatial Audio, Tokyo, Japan, October 2010.
- [Publication 4]: Jukka Ahonen, Giovanni Del Galdo, Fabian Kuech, and Ville Pulkki. Directional Analysis with Microphone Array Mounted on Rigid Cylinder for Directional Audio Coding. Journal of the Audio Engineering Society (JAES), Vol. 60, No. 5, pp. 311-324, May 2012.
- [Publication 5]: Jukka Ahonen and Ville Pulkki. Broadband Direction Estimation Method utilizing Combined Pressure and Energy Gradients from Optimized Microphone Array. In IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech Republic, May 2011.
- [Publication 6]: Jukka Ahonen, Ville Sivonen and Ville Pulkki. Parametric Spatial Sound Processing Applied to Bilateral Hearing Aids. In AES 45th Conference on Applications of Time-Frequency Processing, Helsinki, Finland, March 2012.