Rapport Juin 2000

Chapitre 3

LOCALISATION

1. Localisation d'une source : principes de base

Lorsque nous entendons un signal sonore, comment le cerveau s'y prend-il pour localiser la source dont vient ce signal ? Voici un auditeur en champ libre, et une source ponctuelle. Le son émis par cette source va jusqu'à l'oreille droite de l'auditeur par le chemin 1, et jusqu'à son oreille gauche par le chemin 2 :

Regardons alors de plus près ce qui se passe :

	Oreille droite	Oreille gauche
Chemin suivi	Chemin 1	Chemin 2
Distance parcourue	d1	d2

Intensité du son	I1	I2
	-- avec I1>I2 --
Temps mis pour arriver	t1	t2
	-- avec t1<t2 --

Le cerveau de l'auditeur utilise alors une combinaison de trois méthodes pour localiser la source :

1°) La méthode D I repose sur I1>I2.
Si un son est plus fort à l'oreille droite, c'est que la source est localisée à droite. Le cerveau déduit la position de la source à partir de I1-I2, soit de D I.

2°) La méthode D t repose sur t1<t2.
Si un son arrive d'abord à l'oreille droite, c'est que la source est localisée à droite. Le cerveau déduit la position de la source à partir de t1-t2, soit de D t. Dans le cas d'une très petite différence, si D t est inférieur à la période T de la longueur d'onde fondamentale du signal si celui-ci est harmonique, on parle plutôt de D j , différence de phase.

3°) La méthode HRTF est un peu différente. Elle se base donc sur les "Head-Related Transfer Functions", qu'on appelle en français filtres de transfert binauraux.

Imaginons un individu en champ libre, et une source exactement à sa droite, à la hauteur de sa tête ; dans ce cas, la trajectoire que le son empruntera pour aller jusqu'à l'oreille droite sera à peu près rectiligne, y compris dans l'oreille externe de l'auditeur.

Par contre, pour aller jusqu'au tympan gauche, le son va devoir "tourner" autour de la tête - diffusion, détimbrage, et surtout, sa trajectoire dans le conduit auriculaire ne sera absolument pas rectiligne : le son qui arrivera jusqu'au tympan sera la somme de multiples réflexions sur ce conduit auriculaire. Il sera alors de nouveau détimbré par une série de filtres en peigne.

Ce détimbrage dépend de la position de la source, mais est le même pour une position de source donnée - c'est une "signature spectrale de position", qui fonctionne dans les trois directions de l'espace.

Cette méthode est surtout utilisée par le cerveau pour déterminer la hauteur d'une source.

Par exemple, en champ libre, deux sources exactement au dessus de la tête mais à des hauteurs différentes correspondent toutes deux à des D I et D j nuls et ne peuvent être discriminées en utilisant ces deux critères.

Par contre, les signatures spectrales correspondant respectivement à chacune des hauteurs seront différentes, ce qui permettra au cerveau de discriminer les deux sources.

Remarque importante :

Les signatures spectrales de position sont principalement dues à la forme de la tête et surtout des oreilles de l'auditeur. Il est donc évident que pour une position donnée, cette signature diffère suivant la personne.

On en déduit que si l'on cherche à simuler artificiellement une position par filtrage, le résultat dépendra de l'auditeur.

2. Une remarque à propos de l'attaque

Pierre Schaeffer a fait remarquer, dans le Traité des Objets Musicaux, que le cerveau identifie la nature d'un son bien plus en fonction de son attaque qu'en fonction de tout le reste de ce son. C'est-à-dire qu'en remplaçant, dans un son de cloche, l'attaque par celle d'un son de hautbois, on perçoit le son comme celui d'un hautbois.

On peut transposer ce type de constatations à la localisation de l'origine d'un son quand il y a un conflit - le même son, issu de deux endroits distincts presque simultanément. Dans ce cas, l'auditeur aura largement tendance à localiser la source sur le critère de l'antériorité : même si le son arrivant après est plus fort, on localise en se basant sur le son qui arrive avant.

Bien entendu, il y a des limites : si le second son est 40dB plus fort, on localisera la source comme étant à l'origine de ce son-là : il est ici seulement question de se demander quelle critère est prédominant en cas de doute…

3. Une remarque à propos de la phase

Voici une remarque qui, si elle n'a rien de rigoureux, reste très instructive.

Imaginons un système de HP classique, i.e. stéréo.

1°) On diffuse un son mono ; celui-ci apparaît au milieu des enceintes, et, comme on dispose d'un phase-mètre mesurant la corrélation entre signal droit et signal gauche, celui-ci indique +1.

2°) On ajoute de la reverb à ce son. Suivant le dosage et le type de reverb, le phase-mètre oscille généralement entre 0 et +3/4.

3°) On enlève cette reverb, et à la place, on utilise un delay LCR, qui ajoute au son mono ses retards panoramiqués droite-gauche. Suivant le dosage, le phase-mètre indique quelque chose entre -1/2 et +1/2.

4°) On met le son en oppo de phase, le phase-mètre indique -1.

Qu'a-t-on entendu ?

1°) Le son au milieu - pas de largeur particulière
2°) Le son un peu plus large, dans une ambiance très large
3°) Le son de plus en plus large… jusqu'à remplir l'espace stéréo puis ne plus être localisable.
4°) Plus de localisation possible

Conclusion (très schématique):

En phase (+1) -> localisation précise
Phase aléatoire (0) -> largeur, espace
Phase négative -> pas de localisation, situation artificielle

(par "artificielle", on entend bien qu'une phase proche de -1 est un artifice, un effet uniquement obtenu en studio, qui n'existe pas dans les espaces acoustiques réels, à part situation exceptionnelle)

4. Cube et localisation : approche "réflexions"

Les principes de localisation mis en jeu lors de l'utilisation de l'approche "réflexions" sont simples, puisque le principe est de projeter un rayon acoustique sur les murs.

Le cerveau de l'auditeur se sert alors des trois méthodes de localisation habituelles - D I, D j , et HRTF, pour localiser l'origine de la réflexion.

En laissant de côté tout problème lié à l'acoustique des lieux, il convient seulement de faire en sorte que la perception de la réflexion soit perturbée le moins possible par le rayon venant directement du cube.

A la lumière du paragraphe "Une remarque à propos de l'attaque", on comprend l'importance de la décision qu'aura à prendre le cerveau en face de deux informations contradictoires : le son venant du cube arrive en premier, mais le son venant la réflexion est plus fort.

Il est donc important, dans le cas d'une projection sur, par exemple, un mur latéral, de veiller à ce que le cube soit à ce moment là le plus directif possible, pour que l'auditeur reçoive le moins possible de son direct.

Il convient donc de chercher la position, entre cardio et bi, à partir de laquelle le lobe arrière typique des directivités hypercardioides devient gênant, et se positionner en dessous.

5. Cube et localisation : approche "volume"

A la lumière des paragraphe 1 et 3, on cherche maintenant à comprendre comment le cerveau de l'auditeur va réagir en face d'une spatialisation réalisée à l'aide de l'approche "volume".

En effet, supposons un son émis en bidirectionnel, horizontal, et un auditeur juste en face du cube

Champ libre

1. Sensation de délocalisation. (cf paragraphe 3)
2. Le son vient physiquement du cube : D I & D t nuls (cf par. 1)

D I et D t nuls, et pourtant délocalisation… le cerveau va donc recourir aux HRTF, et se baser sur un certain type d'enveloppe spectrale qu'il croit détecter dans ce son pour localiser une source… où il pourra la localiser, s'il le peut ; c'est-à-dire à un endroit le plus souvent aberrant.

Influence des réflexions latérales

Si la pièce est symétrique et le cube à mi chemin entre les murs, l'effet de réflexions/diffusion va être identique de chaque côté du cube.

Donc :

1. ces réflexions vont renforcer le sentiment de hors-phase, car même si l'auditeur n'est plus exactement au milieu, la corrélation entre les réflexions gauches et droites risque d'être de toutes façons négative.

2. les D I & D t resteront nuls

L'effet sera donc renforcé.

Si la pièce n'est pas symétrique, ou si le cube est disposé plus près d'un mur que d'un autre, les D I & D t ne seront plus nuls.

Il s'agit alors de voir à partir de quand leurs valeurs seront suffisantes pour, soit influencer le phénomène décrit en champ libre, soit, à partir d'un certain seuil, fournir suffisamment d'informations pour que le cerveau ne soit plus perturbé par les relations de phase négatives qu'il reçoit.

Influence du mouvement

Faisons maintenant tourner l'axe de diffusion dans les trois directions de l'espace, à une vitesse raisonnable : au grand maximum quelques tours par seconde.

On sait que le cerveau arrive mieux à localiser une source réelle en mouvement qu'une source fixe. On peut s'en convaincre en fermant les yeux et en écoutant, sans bouger la tête pendant quelques temps, le ronron d'un ordinateur. On s'aperçoit qu'on finit par ne plus localiser précisément l'ordinateur en question. Puis on bouge la tête par de lents aller-retours : tout de suite, l'ordinateur retourne précisément à sa place.

On peut en conclure que le cerveau localise mieux en fonction des mouvements de l'enveloppe spectrale des HRTF que des HRTF elles-mêmes.

On peut donc en déduire que si l'on fait tourner l'axe de diffusion dans le cas d'une figure bidirectionnelle, le cerveau percevra une source imaginaire de manière bien plus spectaculaire que dans le cas d'une diffusion fixe, ce tant que les mouvements de spectre qu'il perçoit ou imagine restent cohérents à ce qu'il arriverait si une vraie source bougeait vraiment.

Ce qui veut dire : des impressions de sources virtuelles plus vivaces, mais de manière très fugitive - jusqu'à ce que le cerveau s'aperçoive que les mouvements d'enveloppe spectrale ne correspondent en fait à rien.

C'est à peu près ce qui arrive en pratique : des trajectoires bien perceptibles, qui s'évanouissent rapidement.

6. Approche "volume" : un perfectionnement possible

Il existe, depuis la fin des années 80 environ, des systèmes de "virtualisation" se basant sur les HRTF qui fonctionnent à peu près. Depuis 1998, certains fonctionnent même remarquablement bien, en particulier des systèmes basés sur une écoute au casque.

Ceux-ci reposent sur de larges études statistiques cherchant à dégager des éléments universels des filtres de transfert binauraux.

Pourquoi les systèmes "casque" sont-ils les plus efficaces ? Parce que les HRTF viennent par couples - pour une position dans l'espace, un HRTF par oreille. Dans le cas d'une diffusion aux HP, chaque HRTF membre du couple perturbe l'autre en arrivant aux deux oreilles.

On peut alors se poser la question suivante : dans le cadre de l'approche "volume", serait-il possible d'utiliser ce genre de systèmes pour simuler une position précise dans l'espace ?

A priori, difficilement : comment donner séparément à chaque oreille le HRTF qu'elle demande pour une position donnée ? L'obstacle est encore plus ardu que dans le cas d'une diffusion en stéréo.

Il faudrait donc limiter l'usage des HRTF aux cas où les fonctions de transfert sont communes aux deux oreilles.

C'est-à-dire : en haut, ou en bas uniquement.

Les HRTF n'apporteraient alors que des positions de hauteur.

Dans ces deux cas, l'utilisation de HRTF simulées semble tout à fait possible.