Analysis, synthesis, and perception of spatial sound : binaural localization modeling and multichannel loudspeaker reproduction
Doctoral thesis (monograph)
Acoustics and Audio Technology
Report / Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, Raportti / Teknillinen korkeakoulu, Akustiikan ja äänenkäsittelytekniikan laboratorio, 77
In everyday audio environments, sound from several sources arrives at a listening position both directly from the sources and as reflections from the acoustical environment. This thesis deals, within some limitations, with analysis of the resulting spatial sound field, reproduction of perceptually relevant features of the sound as measured in a chosen listening position, as well as with modeling of the related auditory localization. For the localization, the auditory system needs to independently determine the direction of each source, while ignoring the reflections and superposition effects of any possible concurrently arriving sound. A modeling mechanism with these desired properties is proposed. Interaural time difference (ITD) and interaural level difference (ILD) cues are only considered at time instants when only the direct sound of a single source has non-negligible energy within a critical band and, thus, when the evoked ITD and ILD represent the direction of that source. It is shown how to identify such time instants as a function of the interaural coherence (IC). The source directions suggested by the selected ITD and ILD cues are also shown to imply the results of a number of published psychophysical studies. Although the room reflections are usually suppressed in auditory localization, they contribute to the perception of the acoustical environment. The reviewed physical analysis techniques and psychoacoustical knowledge on spatial hearing are applied in development of the Spatial Impulse Response Rendering (SIRR) method. SIRR aims at recreating ITD, ILD, IC, and monaural localization cues by using a perceptually motivated analysis-synthesis method. The method is described in the context of multichannel loudspeaker reproduction of room responses with convolving reverberators. The analyzed quantities consist of the time- and frequency-dependent direction of arrival and diffuseness of sound. Based on the analysis data and a recorded omnidirectional signal, multichannel responses suitable for reproduction with any chosen surround loudspeaker setup are synthesized. In formal listening tests, it is shown that SIRR creates a more natural spatial impression than can be achieved with conventional techniques.Tyypillisissä ääniympäristöissä usean äänilähteen ääni saapuu kuuntelupaikkaan sekä suoraan lähteistä että heijastuksina akustisesta ympäristöstä. Tämä väitöskirja käsittelee tuloksena olevan äänikentän analyysiä valitussa kuuntelupisteessä, ihmiskuulijan kannalta oleellisten tilaominaisuuksien toistoa ja auditorisen paikannuksen mallinnusta. Auditorisen paikannuksen tapauksessa kuulojärjestelmä pystyy yleensä toisistaan riippumatta määrittämään äänilähteiden suunnat jättäen huomiotta huoneheijastukset ja mahdollisen samanaikaisesti saapuvan äänen aiheuttamat summautumisilmiöt. Väitöskirjassa esitetään nämä ominaisuudet sisältävä suuntakuulon mallinnusmekanismi. Korvien väliset aikaero (ITD) ja tasoero (ILD) huomioidaan vain ajanhetkinä, jolloin ainoastaan yhden lähteen suoran äänen energia on merkityksellinen analysoidulla kriittisellä kaistalla, ja jolloin ITD ja ILD siis kuvaavat kyseisen äänilähteen suuntaa. Työssä osoitetaan, että tällaiset ajanhetket voidaan tunnistaa korvien välisen koherenssin (IC) avulla. Mallin avulla valittujen ITD- ja ILD-vihjeiden osoitetaan myös vastaavan useiden aikaisemmin julkaistujen psykofyysisten kokeiden tuloksia. Vaikka huoneheijastuksia ei yleensä huomioida auditorisessa paikannuksessa, ne vaikuttavat akustisen ympäristön kuulohavaintoon. Väitöskirjassa kuvattuja analyysimenetelmiä ja tietoa tilakuulon toiminnasta hyödynnetään Spatial Impulse Response Rendering (SIRR) -menetelmän kehittämisessä. SIRR pyrkii toistamaan ITD-, ILD-, IC- ja monauraaliset paikannusvihjeet psykoakustisesti motivoidun analyysi-synteesimenetelmän avulla. Menetelmä esitetään sovellettuna konvoluoivien kaikulaitteiden avulla tapahtuvan huonevasteiden monikanavakaiutintoistoon. Analysoidut suureet ovat äänen tulosuunta ja diffuusisuus ajan ja taajuuden funktiona. Analyysitulosten ja pallosuuntakuvioisen mikrofonisignaalin avulla syntetisoidaan millä tahansa valitulla monikanavakaiutinjärjestelmällä tapahtuvaan toistoon soveltuvat monikanavavasteet. Formaaleissa kuuntelukokeissa osoitetaan myös, että SIRR tuottaa luonnollisemman tilavaikutelman kuin perinteiset tekniikat.Description
auditory localization, binaural models, precedence effect, multichannel reproduction, room responses, auditorinen paikannus, binauraaliset mallit, presedenssiefekti, monikanavainen äänentoisto, huonevasteet