Perceptual and modeling studies on spatial sound

Loading...
Thumbnail Image

URL

Journal Title

Journal ISSN

Volume Title

Doctoral thesis (article-based)
Checking the digitized thesis and permission for publishing
Instructions for the author

Major/Subject

Mcode

Degree programme

Language

en

Pages

74, [70]

Series

Raportti / Teknillinen korkeakoulu, Akustiikan ja äänenkäsittelytekniikan laboratorio, 83

Abstract

Humans have the ability to perceive various spatial auditory attributes, such as the localization and width of sound sources. The study of spatial hearing is important not only in terms of basic perceptual research, but also because ever more sophisticated audio reproduction algorithms and systems are introduced to consumers. From such systems, listeners regularly perceive complicated spatial auditory scenes involving several simultaneous sounds from different directions. These scenes can be thought as being complex ones, as opposed to perceiving a single, point-like source in an anechoic environment. The first part of this thesis investigates the perceptual issues related to such complex sound scenes via subjective listening tests. A single anechoic source results in localization cues that most listeners unambiguously interpret as indicating the actual direction of the sound. In the case of several interfering sound sources, the cues may vary greatly as a function of frequency. As illustrated by the results presented here, this is a common occurrence in modern multichannel reproduction systems. To gain further insight on this little-researched phenomenon, specific test cases where localization cues were manipulated as a function of frequency in the horizontal plane were investigated. The subjects reported the localization and width of the complex sounds, and these responses revealed several interesting phenomena. Most importantly, the listeners always perceived a horizontally wide sound source as being much narrower than it's physical width. Strong perceptual contrasts were also found to be significant. Another focus of this thesis is auditory modeling. The stimuli used in the previous experiments were simulated utilizing established auditory modeling techniques. The simulation results were not found to correspond entirely with the psychoacoustical results in all cases, prompting additional weighting of different frequencies in the modeling. This thesis also introduces a novel, general auditory model concept inspired by recent psychoacoustical results that partly contradict the previous modeling approaches. The model's capacity to account for common spatial hearing phenomena was examined. The initial simulation results validate the proposed concept. Quantitative comparisons with psychoacoustical results, including the data obtained from the listening tests performed in this thesis, are planned to be done in the future.

Ihmisillä on kyky havainnoida äänen tilaominaisuuksia, kuten äänilähteen lokalisaatiota ja leveyttä. Tilaäänen tutkimus on tärkeää sekä havainnoinnin perustutkimuksen, että myös kuluttajille tarjottavien hienostuneiden äänentoistojärjestelmien yleistymisen kannalta. Tälläiset järjestelmät tuottavat kuulijoille äänimaisemia, jotka koostuvat useista samanaikaisista ja erisuuntaisista lähteistä. Tälläiset äänimaisemat voidaan ajatella monimutkaisiksi verrattuna yhteen pistemäiseen lähteeseen heijastuksettomassa tilassa. Tämän väitöskirjan ensimmäinen osa tutkii edellisten kaltaisiin monimutkaisiin äänimaisemiin liittyvää havainnointia subjektiivisilla kuuntelukokeilla. Yksittäinen äänilähde kaiuttomassa tilassa tuottaa lokalisaatiovihjeitä, jotka useimmat kuulijat assosioivat äänilähteen todelliseen suuntaan. Useiden lähteiden tapauksessa vihjeet taas voivat vahdella huomattavasti taajuuden funktiona. Kuten työn tuloksista nähdään, tälläiset tilanteet ovat yleisiä moderneissä äänentoistojärjestemissä. Ilmiön tutkimista varten konstruoitiin kuuntelukoenäytteitä, joissa horisontaalitason suuntavihjeitä manipuloitiin halutulla tavalla. Kuulijat ilmaisivat kompleksisten ääninaytteiden lokalisaation ja leveyden ja nämä tulokset paljastivat lukuisia mielenkiintoisia ilmiöitä. Kuulijat eivät koskaan havainneet fyysiesti leveän äänilähteen koko leveyttä, vaan arvoivat leveyden paljon vähäisemmäksi. Vahvojen perkeptuaalisten kontrastien vaikutus havaittiin myös merkittäväksi. Väitöskirjan toinen tutkimuskohde on auditorinen mallinus. Edellämainittujen kokeiden koenäytteet simuloitiin käyttäen tunnettuja mallinnustekniikoita. Simulaatiotulokset eivät täysin vastanneet kuuntelukokeen tuloksia kaikissa tapauksissa, josta johtuen ehdotettiin eri taajuuskaistojen lisäpainotusta mallinnuksessa. Väitöskirja esittelee myös uudenlaisen yleisen auditorisen mallin konseptin, johon viimeaikaiset, vanhojen mallinnustekniikoiden kanssa ristiriitaiset, neurofysiologiset tulokset ovat vaikuttaneet. Mallin kykyä selittää yksinkertaisia psykoakustisia ilmiöitä tutkittiin. Alustavat simulaatiotulokset validoivat ehdotetun konseptin. Kvantitatiivisten vertailujen teko psykoakustisten tulosten, mukaalukien tämän väitöskirjan näytteiden, kanssa on suunnitteilla tulevaisuudessa.

Description

Other note

Parts

  • Pulkki, V. and Hirvonen, T., Localization of Virtual Sources in Multichannel Audio Reproduction, IEEE Transactions on Speech and Audio Processing, Vol. 13, No. 1, Jan. 2005, pp. 105-119. [article1.pdf] © 2005 IEEE. By permission.
  • Hirvonen, T. and Pulkki, V., Center and Spatial Extent of Auditory Events as Caused by Multiple Sound Sources in Frequency-Dependent Directions, Acta Acustica united with Acustica, Vol. 92, No. 2, Jan. 2006, pp. 320-330. [article2.pdf] © 2006 S. Hirzel Verlag. By permission.
  • Hirvonen, T., Segregation of Two Simultaneously Arriving Narrowband Noise Signals as a Function of Spatial and Frequency Separation, in Proceedings of the 8th International Conference on Digital Audio Effects (DAFx'05), Madrid, Spain, September 20-22, 2005. [article3.pdf] © 2005 by author.
  • Hirvonen, T. and Pulkki, V., Perception and Analysis of Selected Auditory Events with Frequency-Dependent Directions, Journal of the Audio Engineering Society, Vol. 54, No. 9, Sep. 2006, pp. 803-814. [article4.pdf] © 2006 Audio Engineering Society. By permission.
  • Hirvonen, T. and Pulkki, V., Interaural Coherence Estimation with Instantaneous ILD, in Proceedings of the 7th Nordic Signal Processing Symposium (NORSIG 2006), Reykjavik, Iceland, June 7-9, 2006, pp. 122-125. [article5.pdf] © 2006 IEEE. By permission.
  • Hirvonen, T. and Pulkki, V., Predicting Binaural Masking Level Difference and Dichotic Pitch Using Instantaneous ILD Model, in Proceedings of the AES 30th International Conference on Intelligent Audio Environments, Saariselkä, Finland, March 15-17, 2007. [article6.pdf] © 2007 Audio Engineering Society. By permission.
  • Pulkki, V. and Hirvonen, T., Computational Count-Comparison Models for ITD and ILD decoding, in Proceedings of the 19th International Congress on Acoustics (ICA 2007), Madrid, Spain, September 2-7, 2007. [article7.pdf] © 2007 by authors.

Citation

Permanent link to this item

https://urn.fi/urn:nbn:fi:tkk-010808