Perception and auditory modeling of spatially complex sound scenarios
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering |
Doctoral thesis (article-based)
| Defence date: 2015-12-18
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2015
Major/Subject
Mcode
Degree programme
Language
en
Pages
78 + app. 106
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 174/2015
Abstract
The sound localization ability of humans is dominantly based on temporal differences and sound-pressure-level differences between the ears. Localization is most accurate with a single sound source in the frontal horizontal plane. However, natural scenarios typically consist of more than one sound source having narrower or broader spatial extent. The aim of this thesis was to study how humans perceive such complex scenarios and how various attributes of the sound scene contribute to the perception. In all of the listening experiments of this thesis, the perception of widely distributed sound scenarios was studied on the horizontal plane. Sounds were presented from varying loudspeaker setups with up to thirteen loudspeakers close to one another. With noise signals, the directions of only up to three individual sound sources were accurately perceived at their original locations, and widely distributed sound source groups were perceived as narrower than they were. With monophonic music and ambient-noise signals that were synthesized to be spatially extended, the perception was found to be yet slightly narrower than with the noise cases. The effects of changes in the temporal domain were investigated as well. First, peaks in the signal envelope were shown to aid in the directional discrimination of a sound in the presence of two other simultaneous spatially non-overlapping sounds. Second, accurate spatial perception of temporally successive sounds was shown to be difficult, as the inter-stimulus-interval was required to be high in order to perceive the correct spatial distribution of the presented sounds. In addition to studying human perception, a binaural auditory model was developed to mimic human spatial hearing performance. The design of the model was motivated by knowledge on neurophysiology and psychoacoustics. A binaural activity map produced by the model showed performance matching that of humans in various listening scenarios. Importantly, spatially wide or complex sound scenarios can be analyzed as well, a feature uncommon in auditory modeling. Furthermore, the model was applied in the assessment of spatial sound reproduction techniques and showed differences in activation when there were perceivable differences in the reproduced scenarios. The results give new insight on spatial sound perception. Overall, spatial hearing is not accurate in localizing multiple simultaneous sounds as opposed to accuracy in vision. Obtained results help in the development of parametric spatial sound reproduction techniques, as the techniques do not need to reproduce details that are not perceived by human listeners.Äänten paikallistaminen perustuu ihmisillä ennen kaikkea korvienvälisiin aika- ja äänenvoimakkuuseroihin. Tarkimmillaan paikallistamiskyky on silloin, kun yksittäisiä ääniä esitetään horisontaalitasolla etusuunnassa. Luonnollisissa tilanteissa on kuitenkin yleensä useampi kuin yksi äänilähde, ja kukin näistä lähteistä saattaa muodostaa äänitapahtuman, joka havaitaan pistemäisenä tai leveämpänä. Tämän väitöskirjan tavoitteena oli tutkia ihmisten kykyä havaita tilajakaumaltaan monimutkaisia äänitapahtumia sekä sitä, miten äänten eri ominaisuudet vaikuttavat havaintoon. Väitöskirjan kaikissa kuuntelukokeissa tutkittiin horisontaalitasossa laajojen äänitapahtumien havaitsemista. Äänet esitettiin erilaisista kaiutinkokonaisuuksista, ja yhtäaikaisesti käytössä oli yhdestä kolmeentoista lähekkäin sijoitettua kaiutinta. Tutkimukset osoittivat, että kohinasignaaleilla enimmillään vain kolmen erillisen äänilähteen suunnat oli mahdollista havaita tarkasti. Laajalle levitetyt äänilähderyhmät vuorostaan havaittiin kapeampina kuin ne oikeasti olivat. Havainto oli vielä kapeampi, kun testiäänenä oli synteettisesti levitettyä musiikkia tai meren kohinaa. Ajallisten muutosten vaikutuksia tutkittiin käyttämällä testiääntä, jonka verhokäyrässä oli lyhyitä piikkejä. Piikikkyyden lisääntyminen helpotti tehtävää, jossa pyrittiin havaitsemaan kohdeäänen suunta kahden eri suunnista tulevan häiriöäänen välistä. Lyhyiden peräkkäin esitettyjen äänten suuntien tarkka havaitseminen osoittautui haastavaksi, sillä äänten tarkka tilajakauma havaittiin vasta, kun äänten välinen aikaero oli huomattavan suuri. Ihmisen havaintokyvyn tutkimisen lisäksi väitöskirjassa kehitettiin binauraalinen kuulomalli, jonka tehtävänä on jäljitellä ihmisen tilakuulon toiminnallisuutta. Sen toteutuksessa käytettiin pohjana neurofysiologian ja psykoakustiikan tietoja. Mallin suorituskyvyn osoitettiin olevan samankaltainen kuin ihmisten kyky useissa erilaisissa kuuntelutilanteissa. Myös tilajakaumaltaan leveiden tai monimutkaisten äänitapahtumien analysointi toimii, mikä on toistaiseksi harvinainen ominaisuus kuulomalleissa. Lisäksi testattiin mallin kykyä analysoida tilaäänentoistomenetelmiä, ja mallin tuottamassa aktivaatiossa oli nähtävissä muutoksia silloin, kun ihminenkin pystyi toistetuista äänitapahtumista sellaisia havaitsemaan. Väitöskirjan tulokset antavat uusia näkemyksiä tilaäänen havaitsemiseen. Yleisesti ottaen voidaan sanoa, että useiden samanaikaisten äänten paikantaminen on epätarkkaa verrattuna näkökyvyn tarkkuuteen. Tuloksista on hyötyä parametristen tilaäänentoistomenetelmien kehityksessä, sillä kyseiset tekniikat perustuvat ihmisen havaintokyvyn puutteiden hyödyntämiseen.Description
Supervising professor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, FinlandThesis advisor
Pulkki, Ville, Prof., Aalto University, Department of Signal Processing and Acoustics, FinlandKeywords
psychoacoustics, sound localization, spatial hearing, auditory modeling, psykoakustiikka, äänten paikallistaminen, tilakuuleminen, kuulon mallinnus
Other note
Parts
-
[Publication 1]: I Olli Santala and Ville Pulkki. Directional perception of distributed sound sources. Journal of the Acoustical Society of America, Volume 129, Issue 3, pp. 1522–1530, March 2011.
DOI: 10.1121/1.3533727 View at publisher
- [Publication 2]: II Tapani Pihlajamäki, Olli Santala, and Ville Pulkki. Synthesis of spatially extended virtual sources with time-frequency decomposition of mono signals. Journal of the Audio Engineering Society, Volume 62, Number 7/8, pp. 1–18, July/August 2014.
- [Publication 3]: III Olli Santala, Marko Takanen, and Ville Pulkki. Effect of target signal envelope on direction discrimination in spatially complex sound scenarios. In Proceedings of the 134th Convention of the Audio Engineering Society, Rome, Italy, pp. 1–10, May 4–7 2013.
- [Publication 4]: IV Olli Santala, Symeon Delikaris-Manias, Pekka Rönkkö, Eugen Azcoaga, Ilkka Rekola, and Ville Pulkki. Auditory perception of spatially distributed broadband pulse sequences. In Proceedings of the 55th international conference of the Audio Engineering Society, Helsinki, Finland, pp. 1–8, August 2014.
-
[Publication 5]: V Marko Takanen, Olli Santala, and Ville Pulkki. Visualization of functional count-comparison-based binaural auditory model output. Hearing Research, Volume 309, pp. 147–163, March 2014.
DOI: 10.1016/j.heares.2013.10.004 View at publisher
-
[Publication 6]: VI Marko Takanen, Olli Santala, and Ville Pulkki. Binaural assessment of parametrically coded spatial audio signals. The Technology of Binaural Listening, J. Blauert (Ed.), Springer-Verlag Berlin Heidelberg, Germany, pp. 333–358, 2013.
DOI: 10.1007/978-3-642-37762-4_13 View at publisher