Microphone front-ends for spatial sound analysis and synthesis with Directional Audio Coding

dc.contributorAalto-yliopistofi
dc.contributorAalto Universityen
dc.contributor.advisorPulkki, Ville, Prof., Aalto University, Finland
dc.contributor.authorAhonen, Jukka
dc.contributor.departmentSignaalinkäsittelyn ja akustiikan laitosfi
dc.contributor.departmentDepartment of Signal Processing and Acousticsen
dc.contributor.schoolSähkötekniikan korkeakoulufi
dc.contributor.schoolSchool of Electrical Engineeringen
dc.contributor.supervisorPulkki, Ville, Prof., Aalto University, Finland
dc.date.accessioned2013-03-05T09:30:22Z
dc.date.available2013-03-05T09:30:22Z
dc.date.defence2013-03-08
dc.date.issued2013
dc.description.abstractA large number of professional and domestic audio applications utilize spatial sound reproduction. In addition to the conventional applications, such as the surround sound in movie and home theaters, spatial sound is also applied for telecommunication purposes. For instance in teleconferencing, sound emanated by talkers can be captured with multiple microphones at one end and reproduced spatially distributed with multiple loudspeakers at the other. This has benefit over a typical monophonic reproduction of the teleconference in terms of speech intelligibility and other elements of communication. During the last decade there has been an increasing research interest in parametric spatial sound processing. Several techniques for estimating the directional parameters of a sound field from multichannel audio files or from microphone signals have been proposed. In the parametric techniques, the directional information can be efficiently transmitted and then applied to spatial sound synthesis for various purposes. This thesis discusses Directional Audio Coding (DirAC) for capturing, transmitting and reproducing spatial sound. The perceptually motivated time-frequency processing of DirAC provides a parametric description of spatial sound, namely the arrival direction and diffuseness of sound. Direction and diffuseness, when analyzed in the time-frequency resolution of human hearing, are assumed to transmit enough information on the captured sound field for spatial hearing. DirAC has several applications of spatial audio, of which teleconferencing is mainly the focus here. The author's research addresses the development of different microphone front-ends for DirAC. The methods to analyze a sound field with input from arrays of omnidirectional microphones and from typical directional stereo microphones were studied. A novel method for diffuseness estimation was developed as a part of this work. Microphone arrays, which exploit an acoustic shadowing between microphones, are also proposed as an acoustical front-end for DirAC, as are the methods to conduct directional analysis with such arrays. These methods overcome the issues, which occur in direction analysis with input from the conventional microphone arrays, and thus provide reliable direction estimate over the entire audio frequency range. In the thesis, DirAC processing is also applied to bilaterally-fitted hearing aids with two microphones at each ear. The use of different microphone front-ends is evaluated through measurements and listening tests.en
dc.description.abstractUseat ammatti- ja kotikäyttöön tarkoitetut audiosovellukset hyödyntävät tilaäänentoistoa.Tavanomaisia sovelluksia ovat esimerkiksi elokuva- ja kotiteatterit. Näiden lisäksi myös telekommunikaatiosovelluksissa ääni voidaan toistaa siten, että sen tilaominaisuudet säilyvät kuulijalle. Esimerkiksi telekonferenssisovelluksessa osanottajien puhe voidaan tallentaa usealla mikrofonilla lähetyspäässä ja toistaa usealla kaiuttimella vastaanottopäässä, jolloin äänilähteet välittyvät kuulijalle eri suunnista. Tämä parantaa muun muassa puheenymmärrettävyyttä verrattuna perinteisesti käytettyyn yksikanavaiseen äänentoistoon. Parametrisia tilaäänen prosessointimenetelmiä on tutkittu laajalti viimeisten vuosikymmenten aikana. Menetelmissä mikrofonisignaaleista tai monikanavaäänitiedostosta analysoidaan suuntatietoa äänestä. Tämä suuntatieto voidaan tallentaa ja siirtää tehokkaasti ja hyödyntää tilaäänen synteesissä eri käyttötarkoituksia varten. Tässä väitöskirjatyössä käsitellään Directional Audio Coding (DirAC) -menetelmää, joka on tarkoitettu tilaäänen äänittämiseen, siirtoon ja toistoon. Menetelmä perustuu äänisignaalien aika-taajuusprosessointiin, jossa on huomioitu ihmisen kuulon ominaisuudet tilaäänen havaitsemiselle. Menetelmässa äänikentän parametrinen esitys koostuu äänen analysoidusta tulosuunnasta ja diffuusisuudesta. Näiden parametrien katsotaan välittävän riittävästi suunta-ja tilainformaatiota äänikentästä ihmisen suuntakuulolle, kun prosessointi suoritetaan vastaavalla aika-taajuusresoluutiolla, jolla ihmisen kuulo käsittelee ääntä. DirAC-menetelmää voidaan käyttää useissa erilaisissa audiosovelluksissa, joista tässä väitöskirjatyössä käsitellään pääasiallisesti telekonferenssisovellusta. Väitöskirjatyössä on kehitetty useita eri mikrofonitekniikoita DirAC-menetelmälle. Työssä on tutkittu äänikentän suunta-analyysia painemikrofonihilan sekä tyypillisten stereo-suuntamikrofonien signaaleista. Osana työtä on kehitetty uusi laskentamenetelmä äänen diffuusisuusanalyysille. Työssä käsitellään myös mikrofonihiloja, joissa mikrofonien välille muodostuu akustista varjostusta. Akustista varjostusta hyödynnetään tässä työssä kehitetyissä äänen suunta-analyysimenetelmissä. Kehitetyt menetelmät ratkaisevat pääosin ongelmia, joita esiintyy perinteisillä mikrofonihiloilla, sekä mahdollistavat näin ollen luotettavan äänen tulosuunta-analyysin koko kuultavalle taajuuskaistalle. Lisäksi DirAC-menetelmää on sovellettu kuulokojeilla väitöskirjatyössä. Eri mikrofonitekniikoiden käyttöä on arvioitu mittauksin sekä kuuntelukokein.fi
dc.format.extent65 + app. 67
dc.format.mimetypeapplication/pdf
dc.identifier.isbn978-952-60-5036-2 (electronic)
dc.identifier.isbn978-952-60-5035-5 (printed)
dc.identifier.issn1799-4942 (electronic)
dc.identifier.issn1799-4934 (printed)
dc.identifier.issn1799-4934 (ISSN-L)
dc.identifier.urihttps://aaltodoc.aalto.fi/handle/123456789/8838
dc.identifier.urnURN:ISBN:978-952-60-5036-2
dc.language.isoenen
dc.opnFaller, Christof, Dr., Ecole Polytechnique Fédérale de Lausanne (EPFL), Switzerland
dc.publisherAalto Universityen
dc.publisherAalto-yliopistofi
dc.relation.haspart[Publication 1]: Jukka Ahonen and Ville Pulkki. Speech Intelligibility in Teleconference Application of Directional Audio Coding. In AES 40th International Conference on Spatial Audio, Tokyo, Japan, October 2010.
dc.relation.haspart[Publication 2]: Giovanni Del Galdo, Maja Taseska, Oliver Thiergart, Jukka Ahonen and Ville Pulkki. The Diffuse Sound Field in Energetic Analysis. Journal of the Acoustical Society of America (JASA), 131(3), pp. 2141-2151, March 2012.
dc.relation.haspart[Publication 3]: Jukka Ahonen. Microphone Configurations for Teleconference Application of Directional Audio Coding and Subjective Evaluation. In AES 40th International Conference on Spatial Audio, Tokyo, Japan, October 2010.
dc.relation.haspart[Publication 4]: Jukka Ahonen, Giovanni Del Galdo, Fabian Kuech, and Ville Pulkki. Directional Analysis with Microphone Array Mounted on Rigid Cylinder for Directional Audio Coding. Journal of the Audio Engineering Society (JAES), Vol. 60, No. 5, pp. 311-324, May 2012.
dc.relation.haspart[Publication 5]: Jukka Ahonen and Ville Pulkki. Broadband Direction Estimation Method utilizing Combined Pressure and Energy Gradients from Optimized Microphone Array. In IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech Republic, May 2011.
dc.relation.haspart[Publication 6]: Jukka Ahonen, Ville Sivonen and Ville Pulkki. Parametric Spatial Sound Processing Applied to Bilateral Hearing Aids. In AES 45th Conference on Applications of Time-Frequency Processing, Helsinki, Finland, March 2012.
dc.relation.ispartofseriesAalto University publication series DOCTORAL DISSERTATIONSen
dc.relation.ispartofseries33/2013
dc.revMourjopoulos, John, Prof., University of Patras, Greece
dc.revPar, Steven, van de, Prof., Carl-von-Ossietzky University, Germany
dc.subject.keywordspatial audioen
dc.subject.keywordmicrophone arraysen
dc.subject.keywordmultichannel reproductionen
dc.subject.keywordteleconferencingen
dc.subject.keywordtilaäänifi
dc.subject.keywordmikrofonitekniikatfi
dc.subject.keywordmonikanavainen äänentoistofi
dc.subject.keywordtelekonferenssifi
dc.subject.otherElectrical engineeringen
dc.titleMicrophone front-ends for spatial sound analysis and synthesis with Directional Audio Codingen
dc.titleMikrofonitekniikat tilaäänen analyysiin ja synteesiin Directional Audio Coding-menetelmälläfi
dc.typeG5 Artikkeliväitöskirjafi
dc.type.dcmitypetexten
dc.type.ontasotDoctoral dissertation (article-based)en
dc.type.ontasotVäitöskirja (artikkeli)fi
local.aalto.digiauthask
local.aalto.digifolderAalto_64163
Files
Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
isbn9789526050362.pdf
Size:
642.15 KB
Format:
Adobe Portable Document Format