Sylvain Busson

[busson 05] Busson S. (2005), "Individualisation d'indices acoustiques pour la synthèse binaurale", thèse de l'université de la Méditerranée Aix-Marseille II.


[download .pdf]

Abstract : Binaural synthesis is a sound spatialization technology, which is the closest to natural hearing. It allows the spatialization of a monophonic sound source with only two filters for a given position. The filters are defined by the HRTFs (Head Related Transfer Function) corresponding to the left and right ear of the listener. The major drawback of binaural synthesis is that the HRTF, which are related to the listener's morphology, are strongly individual. Listening with non-individual HRTF could lead to audible artifacts. Therefore binaural rendering of high quality requires individualized HRTF. This thesis tackles the problem of the individualization of binaural synthesis in the framework of its implementation as a pure delay, the interaural time difference (ITD), and a minimal phase filter determined by the magnitude of the HRTF. The work conducted on the ITD validates the implementation chosen even for the positions where the HRTF are poorly minimum phase filters. In addition the ITD calculation methods which are close to perception are pointed out. An experimental study is also undertaken to investigate the resolution of the ITD with the elevation angle along the cones of confusion. Perceptual results indicate that the ITD variation with the elevation angle needs to be reproduced. In order to account for this variation, a new formula is proposed on the basis of the spherical head model. Optimization of the parameters of this formula for a whole ITD database provides an average formulation which is appropriate for a large number of subjects and for many applications. Concerning the modeling of the spectral cues (HRTF magnitude), the Boundary Element Method (BEM) has been examined. It is concluded that BEM methods are useful in combination with measurement for the modeling of the low frequency part. A new approach, which involves statistical learning technique, is proposed for the HRTF prediction. A neural network is built to compute HRTF in any direction from a limited set of measured HRTF. Preliminary assessment of this modeling shows that the neural network succeeds well in individualizing spectral cues. This result suggests a simplified protocol of HRTF measurement : HRTF are measured for only a few directions and the HRTF for the other locations are obtained by the neural network.

Keywords
: Binaural synthesis, 3D sound, HRTF, minimum phase filter, psychoacoustics, ITD, JND, BEM, neural network.


Résumé
: La synthèse binaurale est la technique de spatialisation sonore la plus proche de l'écoute naturelle. Elle permet un rendu spatialisée d'une source monophonique à une position donnée avec seulement deux filtres qui correspondent aux oreilles gauche et droite : les HRTF (Head Related Transfer Function). L'inconvénient majeur de la technique binaurale repose sur le fait que les HRTF, liées à la morphologie de l'auditeur, sont propres à chaque utilisateur. Une écoute avec des HRTF non-individuelles comporte des artefacts audibles : il faut acquérir des HRTF individuelles. Cette thèse aborde le problème de l'individualisation de la synthèse binaurale dans le cadre de son implémentation en un retard pur, la différence interaurale de temps (ITD), et un filtre à phase minimale déterminé par le module de la HRTF. Le travail sur l'ITD a permis de valider l'implémentation choisie même pour les positions où les HRTF sont mal décrites par des filtres à phase minimale et a permis de déterminer parmi les méthodes classique de calcul de l'ITD celles qui estiment une ITD proche de la perception. Une étude expérimentale est aussi menée pour établir la résolution de l'ITD avec l'angle d'élévation. Les résultats indiquent la nécessité perceptive de reproduire les variations de l'ITD en élévation. Une nouvelle formule d'estimation de l'ITD créée sur la base d'un modèle de tête sphérique, la formule de déplacement des oreilles (FDO), est développée pour rendre compte de ces variations. L'optimisation des paramètres de cette formule aux ITD de toute une base de données de HRTF permet d'entrevoir une formulation moyenne convenant pour un grand nombre de personne et pour de nombreuses applications. L'étude s'est ensuite focalisée sur la modélisation du module spectral (filtre à phase minimale). Le travail réalisé sur l'application des méthodes de calcul par éléments de frontière (BEM pour Boundary Element Method) pour l'acquisition de HRTF, indique que cette méthode, peut notamment être utilisée en complément des mesures pour l'acquisition de la partie basse fréquence des HRTF. Une approche originale, qui applique des techniques d'apprentissage statistique, est proposée et étudiée pour la modélisation de HRTF. Un réseau de neurones artificiels (RNA) pour calculer des HRTF d'un individu à partir de la connaissance des HRTF mesurées en un nombre réduit de positions. Les premiers résultats sont encourageants : le modèle permet d'atteindre un degré assez fin d'individualisation, ce qui suggère un protocole simplifié d'acquisition de HRTF. Un faible nombre de directions sont mesurées et les autres sont prédites par le modèle.

Mots clés : Synthèse binaurale, son 3D, HRTF, filtre à phase minimale, psychoacoustique, ITD, JND, BEM, réseaux de neurones artificiels.