ACOUSTIQUE DES SALLES

Responsable : Olivier Warusfel

La mission de l'équipe d’acoustique des salles est l’étude du comportement et du contrôle des espaces acoustiques et électroacoustiques. Ses activités couvrent à la fois la recherche fondamentale, menée dans le cadre de thèses, et la recherche appliquée qui fait généralement l’objet de conventions ou de collaborations avec des organismes externes. Les recherches pures s’organisent autour des 4 axes suivants : la caractérisation objective et perceptive de la qualité acoustique des salles, la modélisation physique de la propagation acoustique dans les salles (acoustique prévisionnelle), les techniques de codage et de restitution du son et les algorithmes de synthèse de la localisation et de l’effet de salle. Les applications pratiques sont, notamment, le développement de logiciels d’aide à la conception architecturale, et le développement d’un processeur d’acoustique virtuelle : le Spatialisateur. Ce logiciel, fruit d’une collaboration avec Espaces Nouveaux, permet de reconstruire et contrôler, en temps réel, les effets de localisation et les effets de salle en pilotant différents systèmes de diffusion électroacoustique de complexités diverses : casque, paire de haut-parleurs, systèmes multi-HP... Son exploitation couvre les domaines de la spatialisation dans le contexte de la composition musicale ou de la post-production d’enregistrement, ainsi que les domaines de la réalité virtuelle et de la communication de groupe.

1.1.1 Etude des techniques de spatialisation sur écouteurs dans le contexte de la réalité virtuelle

Validation perceptive de la synthèse binaurale

Une première étude perceptive a été consacrée à la qualité de localisation d'un système de synthèse binaurale bicanal, statique, et non-individuel. Les HRTF étaient modélisées sous forme d'un retard pur et d'un filtre à phase minimal d'ordre 20. Le test a été passé par 22 sujets, "écoutant'' 17 têtes différentes. L'analyse s'est notamment focalisée sur les artefacts de localisation tels que les taux de sons perçus au centre de la tête, le taux de confusion avant-arrière ou haut-bas et les biais de perception directionnelle dans le plan médian ou pour les positions latérales.

Une seconde étude a permis de comparer les résultats précédents dans le cas d'une implantation multicanal de la synthèse binaurale. Les 6 techniques de décomposition linéaire des HRTF testées présentaient différents compromis sur :

- l'encodage explicite de l'ITD ou non,

- l'encodage binaural universel ou individuel,

- le nombre de canaux actifs de l'encodeur,

- le nombre de filtres du décodeur (3 ou 7).

Pour les positions du plan horizontal, les principaux résultats sont :

- le biais en azimut provoqué par une décomposition Binaural B au premier ordre est supérieur à celui obtenu pour un ordre 3,

- l'Analyse en Composantes Indépendantes spatiales provoque un biais en azimut supérieur à celui obtenu pour un Binaural B d'ordre 3.

Ce test n'a pas permis de mettre en évidence d'autres différences majeures par rapport à l'implantation bicanal, ce qui souligne les bonnes performances des techniques de décomposition étudiées.

Adaptation individuelle de la synthèse binaurale

Les HRTF, filtres à la base de la synthèse binaurale, varient en fonction de l'incidence, mais également en fonction de la tête sur laquelle ils ont été mesurés. A l'origine de ce phénomène : la morphologie de la tête, qui, faisant obstacle au son incident, modèle les caractéristiques temporelles et fréquentielles des HRTF. Une écoute binaurale non individuelle, i. e. proposant à l'auditeur des HRTF différentes des siennes, entraîne une augmentation des artefacts de localisation, notamment les confusions avant-arrière et les occurences de sons perçus à l'intérieur de la tête. Pour des raisons pratiques évidentes, il est pourtant peu envisageable de mesurer les HRTF de chaque auditeur. Plusieurs stratégies permettant d'atténuer les effets d'une écoute non-individuelles ont été étudiées.

Adaptation discrète

Un premier effort d'adaptation individuelle peut être réalisé à l'aide d'une adaptation discrète, appairant un auditeur avec l'une des têtes constituant la base de données. Une méthode d'évaluation de la distance entre ces têtes et tout nouvel auditeur, et ne s'appuyant que sur les relevés morphologiques de ce dernier, a été proposée. Ce travail nécessite l'acquisition de données morphologiques sur un échantillon de population.

Le relevé de 9 paramètres morphologiques a été réalisé sur 16 sujets, après la définition d'un protocole de mesure, élément n'ayant pas encore rencontré de consensus dans la communauté scientifique. Cette session de mesures complète celle menée sur 20 sujets en 1999. Certains paramètres ont été mesurés sur le "relief naturel'', à l'aide d'un pied à coulisse. D'autres dimensions ont été estimées à partir de projections 2D du relief naturel de la tête, obtenues par photographie. Pour la session de 1999, première expérience de relevé morphologique pour le laboratoire, un test de reproductibilité de la mesure a été effectué, afin d'éliminer les paramètres mesurés avec trop d'incertitude.

Les principales caractéristiques de la population observée ont été dégagées (largeur du cou, largeur de la tête, profondeur de la tête, longueur du pavillon, longueur de la conque, largeur de la conque). Il est illusoire de spécifier une tête unique pour représenter l'ensemble de la population, et il est au contraire nécessaire de diviser celles-ci en clusters afin d'atteindre une représentativité suffisante de la tête "barycentre''. A titre d'exemple, on peut penser que les paramètres de l'oreille externe, tout comme hauteur et profondeur de tête sont significativement différents entre les hommes et les femmes. Par conséquent, construire une tête artificielle spécifique pour les hommes d'une part et pour les femmes de l'autre semble faire sens.

Une seconde étude a été menée à partir de données plus exhaustives d'Algazi et al. Sur les 19 paramètres retenus, on constate de fortes disparités entre individus : les grandes dimensions de la tête présentent une variance d'environ 10% de leur valeur moyenne, tandis que pour la conque, ces écarts sont plus près de 20%. Les plus fortes variances sont obtenues pour les paramètres de décalage (jusqu'à 154% pour le paramètre de décalage vertical de l'oreille).

Une méthode a été développée pour insérer un nouvel auditeur dans un espace de représentation de têtes, dans l'objectif de déterminer la tête qui lui convient le mieux. L'approche adoptée permet de s'affranchir de la mesure (longue) des paramètres de l'espace des têtes (HRTF, ITD) et ne requiert que la mesure de paramètres plus rapidement accessibles (moins de 19 paramètres morphologiques). La méthode de superposition des espaces de représentation des têtes s'appuie sur des outils mathématiques traditionnels tels que la projection orthogonale.

Adaptation continue par "scaling fréquentiel''

L'objectif de l'adaptation continue est de synthétiser les HRTF de l'auditeur final sans avoir à les mesurer. Cet objectif est plus satisfaisant qu'une adaptation discrète car il doit théoriquement conduire à une plus grande fidélité. En outre, l'adaptation continue permet de s'affranchir du temps consacré à la constitution des bases de données et d'économiser la place en mémoire qui serait requise pour l'implantation d'une adaptation discrète.

La technique de scaling fréquentiel étudiée est une possibilité pour l'adaptation continue. Elle s'appuie sur les relations "physiques'' entre paramètres morphologiques et caractéristiques des HRTF développées par exemple par E.A.G. Shaw. Une tête est alors transformée en une autre par un morphisme des caractéristiques spectrales de leurs HRTF. L'opération de base est une homothétie de l'axe des fréquences. Middlebrooks en a proposé une mise oeuvre simple, et on a constaté l'efficacité de l'adaptation réalisée à l'aide d'un test perceptif.

Cette approche a été reprise en l'appliquant à nos données, puis certaines extensions ont été proposées. L'efficacité du scaling est améliorée par une application indépendante sur deux bandes de fréquences situées au dessus de 1kHz. Il semble en revanche qu'on doive s'abstenir de modifier les basses fréquences, intervalle fréquentiel sur lequel les différences interindividuelles ne répondent pas aux hypothèse du scaling : les têtes possèdent les mêmes résonances structurelles, qui ne se distinguent que par une translation constante sur l'axe des fréquence.

Le facteur de scaling obtenu en hautes fréquences est fortement corrélé aux dimensions de la conque, et plus spécialement à sa longueur, ce qui laisse ouvert la perspective d'une adaptation des HRTF à partir de la simple mesure de ce paramètre morphologique. Par ailleurs, une autre approche permet de faciliter la mise en oeuvre du scaling : le facteur de scaling hautes fréquences peut être estimé à partir d'un sous-ensemble de positions, celles qu'indiquent l'analyse statistique des HRTF avec l'Analyse en Composantes Indépendantes (cf rapport 1999). En outre, et en première approximation, on peut utiliser le même facteur de scaling pour les structures bicanal et multicanal, élément utile dans le cas d'une implantation "mixte'' de la synthèse binaurale.

Participants :

Ircam : V. Larcher

1.1.2 Capture, échantillonnage et manipulations de fonctions de directivité

Le sujet initialement proposé était d'exploiter les mesures effectuées sur un microphone 3D, appelé SoundField, afin de réaliser un encodage optimum du champ sonore dans un format usuel de description de scènes sonores 3D: le format-B. Bien que le microphone soit pourvu de son propre module de transcodage, il a paru intéressant de consacrer une étude à la possibilité de corriger certaines "aberrations" liées à la directivité intrinsèque des capsules constitutives du microphone et à leur disposition géométrique.

Au delà du simple intérêt pratique, cette étude a fourni l'occasion de se familiariser avec le formalisme sous-jacent au format B. L'effort s'est concentré sur:

- l'étude des harmoniques sphériques, correspondant aux solutions élémentaires de l'équation des ondes dans le cas particulier où la description du champ sonore est restreinte à la distribution angulaire.

- la généralisation du théorème d'échantillonnage dans le domaine des harmoniques sphériques, par extension du théorème unidimensionnel. Une attention particulière à été consacrée à la mise en évidence des phénomènes de repliement de spectre sphérique, des notions d'échantillonnage critique en repère sphérique. Ces études ont permis de dégager plusieurs considérations pratiques pour effectuer des mesures de directivité.

- une tentative de généralisation de certains éléments de la théorie du filtrage unidimensionnel au repère sphérique, notamment la notion de distribution de Dirac directive ainsi que la convolution sphérique. Un effort particulier à été consacré à l'étude des différentes techniques de rotation.

- l'analyse du microphone SoundField à l'aide des seuls outils précédemment introduits. Son fonctionnement est assimilé un échantillonneur directif régulier du champ sonore.

- l'étude d'une méthode permettant de corriger les erreurs introduites sur les mesures par les conditions expérimentales, notamment par une compensation de la trajectoire de déplacement du microphone de mesure à partir de la seule connaissance des mesures.

Ce travail s'est accompagné du développement d'un ensemble de routines Matlab, gérant les principaux opérateurs liés à la transformée de Fourier sphérique : décomposition, synthèse, re-échantillonnage, convolution.

Participants

Ircam : Arnaud Laborie sous la direction de V. Larcher

1.1.3 Caractérisation et optimisation de la qualité de la restitution sonore dans l’habitacle d’un véhicule automobile

Développement d'un simulateur d'habitacle basé sur le Spat

Un simulateur d'habitacle de véhicule a été développé. Son intérêt réside dans la possibilité de comparer une approche de simulation par convolution avec des réponses réelles mesurées et une approche partant d'une modélisation de l'effet d'habitacle réalisées par des modules dérivés du Spatialisateur. Dans ce dernier cas, les paramètres de réglage sont issus d'une analyse temps-fréquence des réponses de l'habitacle. Par ailleurs, ce simulateur permet de tester l'apport de traitements correctifs sur les signaux sonores de manière à optimiser la qualité d'écoute dans l'habitacle. Certains modules ont été modifiés pour tenir compte des spécificités de la diffusion en habitacle; c'est le cas pour les sources sonores situées à l'avant de la cabine. Chaque source est dédoublée puisque, en général, l'habitacle est doté de haut-parleurs spécifiques et très éloignés pour les fréquence graves et aiguës. Le module gérant le son direct est ainsi divisé en deux sources ayant chacune une réponse fréquentielle et une direction de provenance particulières. La réverbération est commune à l'ensemble des sources. Plusieurs configurations de réverbération ont été mises en oeuvre (variation du nombre de canaux de rebouclage, et du nombre de sections).

Deux dispositifs de restitution ont été testés: double-transaural sur quatre haut-parleurs, et Ambisonic sur huit haut-parleurs. Plusieurs campagnes de réglage ont été effectuées. La référence était constituée par des fichiers sons convolués avec les réponses impulsionnelles de l'habitacle, mesurées soit par un mannequin acoustique, soit par un micro SoundField. Il ressort de ces essais que la diffusion à l'aide du système Ambisonic est assez loin de la référence. En revanche, l'utilisation du double-transaural est convaincante.

Démonstrateur audio embarqué en véhicule

Un prototype de système temps-réel embarqué a été développé. Il permet de juger auditivement les améliorations apportées par différents traitements sur le signal audio, avant sa diffusion par les haut-parleurs du véhicule. Quatre axes ont été explorés: la correction fréquentielle, le recentrage de l'image sonore, la sensation d'enveloppement, et l'ajout de réverbération. La correction fréquentielle est menée séparément pour le champ direct et le champ réverbéré. Le recentrage de l'image stéréophonique s'appuie sur un algorithme double-transaural non symétrique. L'augmentation de la sensation d'enveloppement est réalisée par ajout de filtres passe-tout afin de décorréler les signaux, utilisés de manière préférentielle sur l'arrière. Un module de réverbération peut être ajouté de manière à créer des ambiances de salles particulières.

Inversion de l'effet d'habitacle

L'inversion de la réponse d'habitacle vise d'une part, la correction de l'image stéréophonique affectée par le décentrage du conducteur par rapport aux haut-parleurs, et la correction de l'effet de l'habitacle.

La première étape passe par la mise en oeuvre d'un algorithme transaural non symétrique. Celui-ci vise à recréer deux haut-parleurs virtuels placés symétriquement par rapport au conducteur. Contrairement au décodage transaural symétrique qui possède des propriétés de phase minimale jointe, l'inversion doit être ici menée sur les réponses à phase totale. Comme il n'y a pas de solution exacte, il faut procéder à une approximation (optimisation au sens des moindres carrés). Plusieurs solutions ont été testées: régularisation par écrêtage et prolongement dans le domaine spectral par palier, régularisation par filtrage, et décomposition tronquée en valeurs singulières. En outre, concernant les deux premières méthodes, il existe une technique temporelle et une technique fréquentielle, la deuxième étant moins exacte mais beaucoup moins coûteuse. Plusieurs objets externe en C pour Matlab ont été écrits.

La deuxième étape requiert un processus d'inversion plus complexe, puisqu'il faut, en partie au moins, inverser la réponse de l'habitacle. Cela rend illusoire l'emploi de filtres RII, et nécessite donc de disposer d'un outil de convolution temps-réel. La réjection des trajets croisés est supérieure à 20 dB au-delà de 400 Hz. Par ailleurs, étant donnée la présence d'un effet d'habitacle, les conditions d'inversibilité sont encore plus sévères et imposent l'utilisation de procédures limitant la complexité de la réponse. Différentes techniques peuvent être envisagées, telles que la troncature de la réponse ou une simplification préalable de la réponse opérée dans le plan temps fréquence (extraction des réflexions prépondérantes).

Participants :

Ircam : G. Vandernoot

Renault : E. Le Chevalier

1.1.4 Format audio et systèmes de notation pour la transmission, la manipulation et la composition de scènes sonores.

L'objectif de ce travail est de trouver des techniques permettant d'estimer à partir d'un enregistrement spatialisé les caractéristiques liées à l'effet de salle et aux caractéristiques spatiales de la scène sonore. Celles-ci peuvent être rangées en trois catégories:

- d'une part, les attributs inhérents à la salle. Ceux-ci ne sont liés qu'à la géométrie et aux propriétés physiques des matériaux (temps de réverbération, densité de réflexions, réponse en fréquence de la salle), et peuvent reposer sur une analyse monophonique.

- d'autre part, les caractéristiques spatiales de la source, c'est-à-dire principalement sa localisation et son éloignement par rapport à la cible. Leur détermination nécessite une analyse multicanal (stéréophonie, binaural).

- pour finir, les attributs reposant sur les liens entre la source et la salle. Par exemple, la directivité de la source aura une grande influence sur la densité de réflexions latérales, et donc sur l'impression d'espace. La aussi, l'estimation de ces attributs nécessite plusieurs canaux.

Deux voies ont été envisagées et étudiées pour mener à bien cette étude. La première part d'un point de vue de traitement de signal, et considère la propagation dans une salle (ou bien l'effet de spatialisation synthétique) comme la convolution du son en champ libre par une ou plusieurs réponses impulsionnelles. Nous avons étudié diverses techniques (analyse cepstrale, segmentations temporelles) pour tenter d'isoler de l'ensemble certaines caractéristiques propres à ces réponses impulsionnelles.

La seconde voie, qui semble la plus prometteuse, est l'utilisation de modèles binauraux. En employant des techniques de modélisation de l'audition, de l'oreille (cochléogrammes) au système nerveux (analyses par corrélation, ou égalisation-annulation), et en nous inspirant des techniques de détection de hauteur spectrale et de localisation que l'on trouve dans la littérature, nous avons cherché à révéler les réflexions précoces et tardives, pour pouvoir ensuite estimer les différents attributs de l'effet de salle.

Participants :

Ircam : A. Baskind

1.1.5 Cognition spatiale auditive

Ce projet concerne l’étude des facteurs spatiaux qui régissent l’organisation perceptive d’une scène sonore. La notion d’espace peut être simultanément considérée comme une dimension particulière de la représentation cognitive et comme facteur intervenant dans les mécanismes de ségrégation entre les constituants élémentaires d’une scène sonore Ce projet mené en collaboration avec l’équipe Perception/Cognition vise à traiter le sujet à la fois sur le plan scientifique en abordant les points de vue du neurologue et de l’ingénieur, et sur le plan des sciences humaines. La perception spatiale a été bien étudiée sur le plan des mécanisme de localisation. Cependant on connaît moins les mécanismes de ségrégation spatiale, notamment dans le cas de sources multiples, et plus généralement l’organisation perceptive d’une scène sonore.

Une première expérience a été menée pour préciser les indices binauraux, qui déterminent l'organisation de messages parlés concurrents provenant de sources séparées dans l'espace. Différentes modalités de restitution ont été testées, telles que l'indice de retard interaural couplé ou non aux informations spectrales véhiculées par les fonctions de tranfert d'oreille. L'analyse se focalise sur la détection des situations ou paramètres dominant dans la tâche de ségrégation (séparation privilégiée droite/gauche, corrélation du taux de discrimination avec l'écart angulaire ou le retard interaural, etc..).

Participants:

Ircam: A. Baskind, V. Larcher

Collaboration interne : A. de Cheveigné

1.1.6 Module de convolution multicanal rapide sans retard

Le travail s'inscrit dans le cadre de la simulation d'effet de salle par convolution avec une réponse impulsionnelle mesurée. L'objectif était de réaliser un objet externe pour les environnements MAX/MSP et jMax réalisant la convolution d'un signal avec une réponse impulsionnelle longue, typiquement quelques secondes comme les réponses de salle.

Il est établi que l'opération de convolution, implantée sous forme directe est irréalisable pour des réponses longues puisque trop coûteuse en temps de calcul (typiquement plusieurs milliers de mips). De même, un calcul de convolution par FFT n'est pas applicable non plus dans le cadre d'applications temps réel puisqu'il induirait une latence initiale de deux fois la longueur de la réponse impulsionnelle (si l'on uniformise la charge de calculs du processeur), soit plusieurs secondes dans le cas de réponses de salle.

Le développement a été basé sur un algorithme de convolution décrit par William Gardner et utilisant à la fois la convolution classique et la convolution FFT, par découpage de la réponse impulsionnelle en blocs de longueur croissante. Cet algorithme cumule l'avantage du retard très faible induit par la convolution directe pour les premiers blocs, dont on requiert le résultat immédiatement, avec la rapidité de calcul de la convolution par FFT pour les blocs tardifs, pour lesquels une latence est acceptable puisque leur résultat n'est requis que plus tard. Le nombre de calculs à effectuer reste cependant supérieur à celui d'un algorithme de convolution par FFT classique, mais la puissance des ordinateurs actuels permet d'envisager l'utilisation de cet algorithme.

Différentes options sont proposés à l'utilisateur, telles que le choix du compromis entre la latence acceptable et la taille de la réponse impulsionnelle. Enfin, les modules permettent la convolution avec des réponses multicanal, afin d'exploiter, par exemple des réponses de salle enregistrée à partir d'une tête artificielle, ou un microphone SoundField.

Participants

Ircam : R. Bruno

1.1.7 Influence de la qualité acoustique d'une salle sur le jeu de l'instrumentiste

Cette étude était consacrée à l'observation de l'influence de la qualité acoustique d'une salle sur le mode de jeu d'un instrumentiste. La flûte traversière a été choisie en raison des libertés de jeu timbral qu'elle autorise. Le but était de parvenir à quantifier les éventuelles variations de timbre opérées, consciemment ou non, par l'instrumentiste en fonction de la qualité acoustique du lieu d'exécution. Le protocole expérimental choisi utilisait un processeur de traitement numérique du signal, le Spatialisateur, afin de simuler différentes qualités acoustiques de salles diffusées par un système de huit enceintes dans un studio.

L'étape préalable a consisté à caractériser le spectre de puissance de l'instrument afin d'alimenter le processeur d'acoustique. En pratique, le respect du spectre de puissance lors de la diffusion du signal réverbéré était obtenu en corrigeant le signal capté dans le corps de l'instrument (bouchon) par la fonction une fonction de transfert mesurée en chambre réverbérante (correction entre le spectre du signal de captation et spectre de puissance). Cette étape s'est montrée très convaincante sur le plan perceptif.

La seconde étape avait pour objectif de caractériser spectralement les variations de mode de jeu volontaires de l'instrumentiste (trois nuances dynamiques, mode timbré, détimbré, cuivré, soufflé, …). Ces différents modes de jeu présentent des différences très notables sur les spectres cumulés, ce qui valide le choix de la flûte comme terrain d'expérimentation.

L'expérience, proprement dite, a consisté à enregistrer six sujets flûtistes, jouant un répertoire fixe dans 11 salles différentes de manière à évaluer l'influence sur la manière de timbrer l'instrument. Les enregistrements étaient effectués, d'une part, sur le micro d'embouchure et, d'autre part, sur un micro captant l'effet de salle et un micro placé en proximité des oreilles de l'instrumentiste. L'enjeu était de vérifier si l'instrumentiste a tendance à compenser ou non l'effet de salle pour maintenir une qualité timbrale constante,

Les résultats ont montré de très faibles variations de mode de jeu entre les différentes salles ce qui ne permet pas de dégager une loi régissant cette influence, les variations restant du même ordre de grandeur que celles observées dans des expériences de reproductibilité.

Il semble que cette absence d'effet décelable réside dans le choix des configurations de salles qui ne s'accompagnaient pas de modifications spectrales suffisantes dans les zones fréquentielles affectées par les modifications de jeu instrumental. Cette étude fait donc figure de tentative non-aboutie, cependant le protocole expérimental, basé sur une simulation de l'effet de salle s'est montré convaincant et peut être maintenu dans son principe pour des expériences similaires.

Participants:

Ircam: X. Marsais

1.1.8 Le Spatialisateur

. Portage sur la plate-forme de montage numérique Pro-Tools de Digidesign (P. Prévot)

L'objectif est d'implémenter une version du Spatialisateur sur l’outil de montage numérique PRO-TOOLS de DIGIDESIGN: ProTools III à base de DSP Motorola 56002 et ProTools IV à base de DSP Motorola56300). Ce portage nécessite cependant d'adapter le traitement (localisation, effet de salle) en fonction de la puissance disponible en DSP. L'architecture reprend les différents modules élémentaires de la librairie du Spatialisateur

L’interface propose le contrôle du positionnement de la source dans un espace cartésien ou par ses coordonnées polaires. Ce contrôle peut être déconnecté pour donner accès directement aux paramètres de traitement. Tous les paramètres de traitement, même de plus bas niveau, sont contrôlables, par un jeu de différentes fenêtres. L'effet de salle est contrôlable par facteurs perceptifs ou par les paramètres de bas-niveau. Les fonctions réciproques, des paramètres de bas-niveau vers les paramètres perceptifs, ont été programmées.

Compte tenu des limites de temps de calculs, quatre plugIns distincts, et réalisant tout ou partie des traitements du spatialisateur, peuvent tourner sur 56002:

- Réverbération complète constituée de 8 canaux de rebouclage, avec module Early sans filtrage, module Cluster, pan-pot stéréo du son direct.

- Tranche "direct" et traitement binaural, sans effet Doppler, avec réverbération à 4 canaux, sans Cluster.

- Tranche "direct" et traitement binaural, avec une version d'effet de salle basée sur 4 canaux de rebouclage et gérant l'effet de salle précoce (Early et Cluster), mais sans réverbération tardive.

- Version à 4 canaux contenant tous les modules (panoramique stéréo du son direct).

La carte DigiDesign à base de 56002 (carte “ Farm ”) présente 3 DSP. On peut donc instancier 3 quelconques de ces PlugIns simultanément.

En termes de précision, on se heurte aux faiblesses du calcul en entier, qui ne peuvent être palliées que par la double précision, engendrant un accroissement du temps d’exécution.

En termes de temps, on se heurte aux limitations de vitesse des DSP et de mémoire interne disponible. L'ensemble du code ne rentre pas dans la mémoire programme interne, d'où un accroissement du temps d'exécution. Un Spatialisateur de haute qualité (réverbération sur 8 canaux et restitution binaurale) déborde largement la fenêtre de temps d'un dsp 56002.

Une solution vectorisée a été recherchée pour économiser du temps d’exécution. Elle se révèle décevante par la limitation en registres et accumulateurs.

La puissance de calcul disponible sur un DSP 56300 permet d’implémenter une version complète sur un seul DSP (présent en 6 exemplaires sur la carte ProTools IV). En conclusion, seuls les DSP 56300 des cartes ProTools IV de DigiDesign permettent une implémentation complète du SPAT sous ProTools.

. Portage de la librairie Spat sous forme d'objets externes

L'ensemble des modules de traitement du signal de la librairie du Spatialisateur a été porté sous forme d'objets externes écrits en langage C. Ce travail a été effectué dans les deux environnements MAX/MSP et jMax/FTS. Ce portage a permis d'optimiser considérablement la charge de calcul. A titre d'exemple, sur plate-forme Mac (MAX/MSP) le gain est de 40% par rapport aux versions précédentes écrites sous forme de patchs.

. Modules d'encodage directionnel 3D

Dans le cadre de l'implémentation de modules de localisation tri-dimentionnel sur haut-parleurs (technique VBAP), une refonte des modules concernant l'encodage directionnel 3D a été réalisée, notamment par la gestion de l'élévation des premières réflexions.

. Module de décodage transaural généralisé

Un module de décodage transaural asymétrique a été développé. Deux topologies (classique/shuffler) et deux types de filtrage (RIF/RII) ont été étudiées. Le filtrage RIF résultant d'une inversion avec régularisation par filtrage est très efficace, au regard de l'annulation des trajets croisés (réjection de plus de 50 dB), mais il nécessite l'utilisation d'un outil de convolution en temps-réel. Le filtrage RII résultant d'une régularisation par écrêtage permet quant à lui une réjection de 20 dB dans la bande [200 - 4 kHz], et l'ordre peu élevé du modèle permet un calcul peu coûteux.

Participants à l'Ircam :

[développement] R. Bruno, V. Larcher, G. Vandernoot

[portage sur environnement Digidesign] P. Prévot

1.1.9 Valorisation et collaborations extérieures

Proposition technique sur une configuration de restitution sonore pour simulateur de conduite automobile

Dans le cadre d'un marché d'étude avec la société Renault, un travail d'expertise et de traitement d'échantillons sonores a été réalisé pour l'amélioration de la qualité d'un simulateur de conduite. Ce simulateur de conduite est utilisé pour tester certains dispositifs techniques ou encore pour des études comportementales de conducteurs. A partir de la capture des différents paramètres de conduite (volant de direction, changement de rapports, pédales, …) différentes modalités sensorielles sont restituées à l'utilisateur navigant dans une scène urbaine ou routière :

- la restitution visuelle est obtenue par projection sur écrans extérieurs au véhicule,

- les sensations kinesthésiques restituées grâce au montage de l'habitacle sur verins;

- les sensations auditives telles que le bruit du moteur, le bruit de roulement, le bruit aérodynamique ou les bruits des véhicules extérieurs sont restituées sur haut-parleurs.

Le travail a consisté principalement à traiter les échantillons sonores enregistrés sur banc de mesure afin de restituer les caractéristiques qu'un conducteur aurait naturellement perçues dans l'habitacle. Les corrections mises en œuvre ont porté principalement sur l'évaluation de fonction de transfert extérieur/intérieur et sur l'inversion du système électroacoustique de reproduction.

Participants

Ircam : Guillaume Vandernoot

Renault : Stéphane Danan, Alexandre Heidet, Bénédicte Saint-Loubry

Soumission de projets : Carrouso, Edissohn, Listen

Pendant l'année 2000, plusieurs projets de recherche ont été proposés en partenariat avec différentes institutions françaises ou européennes. Trois projets, dont deux européens, verront le jour en 2001.

Projet CARROUSO (Creating, Assessing and Rendering in Real Time of High Quality Audio-Visual Environments in MPEG-4 Context) : ce projet fait l'objet d'un partenariat entre une dizaine d'institutions ou établissements industriels européens au sein desquels l'équipe acoustique des salles collaborera principalement avec France-Télécom, l'Université de Delft et la société Studer. Ce projet est dédié à l'enregistrement, la transmission et la restitution d'une scène sonore réelle ou virtuelle préservant ses propriétés perceptives, notamment spatiales, et autorisant leur manipulation interactive. Ce projet s'appuie sur le format de codage MPEG4 qui privilégie, sur le plan de la spatialisation, une approche descriptive et paramétrique de la scène sonore. Projet financé par la Communauté Européenne dans le cadre de l'appel d'offre IST. Durée 30 mois.

Projet LISTEN (Augmenting everyday environments through interactive soundscapes) : ce projet, mené en partenariat avec le GMD, la société AKG, le Musée de Bonn et l'Université de Vienne, s'inscrit dans le domaine de la réalité augmentée, considérée principalement dans sa dimension sonore. Son objectif est d'étudier comment des environnements naturels peuvent être "prolongés" plutôt que "remplacés" par des éléments ou traitements sonores virtuels. Les questions de réalité augmentée ont été, jusqu'à présent, principalement abordées dans le domaine visuel et dans le cadre d'applications industrielles. Le projet LISTEN est dédié au développement de technologies de réalité sonore augmentée utilisables dans des contextes traditionnellement dominés par la composante visuelle. La première application envisagée est celle d'un guide audio évolué pour les expositions artistiques ou commerciales. Projet financé par la Communauté Européenne dans le cadre de l'appel d'offre IST. Durée 36 mois.

Projet EDISSOHN (Edition & DIffusion de Scènes SonOres 3D normalisées (MPEG4), à l’aide d’une interface de Haut Niveau) : l’objectif de ce projet, mené en partenariat avec France Télécom et Digigram, est de développer, valider et commercialiser un environnement logiciel auteur permettant à des créateurs de contenus sonores d'éditer, de manipuler et de synthétiser, en temps réel, des scènes sonores tri-dimensionnelles. La synthèse est basée sur un moteur de rendu sonore intégrant les fonctions de positionnement 3D des sources et la création d'effets de salle pour de nombreux formats multicanaux. L'édition et la manipulation des scènes sonores utilisent des interfaces de haut niveau reposant sur une modélisation perceptive ou physique de la salle. Cette application, intégrée à une station de montage audio numérique, permettra d’exploiter pleinement les possibilités des nouvelles technologies de spatialisation des sons et sera compatible avec le nouveau standard multimédia MPEG-4. Les marchés visés sont ceux de la production, post-production et diffusion audio, notamment pour les domaines de la radio, musique, Internet, et cinéma. Cela concerne également la création de contenus et d’environnements sonores 3D pour les musées, parcs d’attractions, les salles de spectacles, magasins et autres lieux ouverts au public. Projet financé par le Ministère de l'Industrie dans le cadre de l'appel d'offre PRIAMM. Durée 24 mois.

Publications et rapports d'étude en 1999

[Bruno00] R. Bruno, Implémentation d'un algorithme de convolution rapide sans retard dans un environnement de programmation temps réel. Rapport de Stage Supélec. Juin 2000

[Laborie00] A. Laborie, Capture, échantillonnage et manipulations de fonctions de directivité. Application à l'enregistrement de scènes sonores 3D avec un micro SoundField. Rapport de Stage. ENST. Octobre 2000

[Larcher00] V. Larcher, J.M. Jot, Guyard, et O. Warusfel, Study and comparison of efficient methods for 3D audio spatialization based on linear decomposition of HRTF data. 108ème convention de l'Audio Eng. Soc. à Paris, preprint n°5097. Février 2000.

[Marsais00] X. Marsais Etude de l'influence de la qualité acoustique d'une salle sur le mode de jeu de l'instrumentiste. Rapport de stage ENS Lumière. Juin 2000.

Conférences et communications

Véronique Larcher, Olivier Warusfel Spatialization Technics With Multichannel Audio.

ICMC 2000 Workshop - Elektronisches Studio der TU-Berlin

Véronique Larcher, Techniques de spatialisation et applications musicales, Section Etudiante de la 108ème convention AES. février 2000

Véronique Larcher, Workshop sur la diffusion multicanal. 108ème convention l'AES. février 2000

Olivier Warusfel, Digital control of looudspeaker directivity, Workshop sur la directivité des haut-parleurs . 108ème convention l'AES. février 2000

Olivier Warusfel, Perceptual and Physical modeling of sound source radiation. XXX th ASA meeting. Atlanta Mai 2000.

Organisation de Colloque

Dans le cadre du festival Agora 2000, un colloque "Espace décomposé, Espace recomposé" a réuni architectes, acousticiens, musiciens et psychologues de la perception autour des différents aspects liés aux recherches et développements concernant l'interaction musique/espace.

Espace et Musique : J. Blauert (professeur, Université de Bochum), E. Daubresse (assistant musical,Ircam), E. Nunes (compositeur), P. Szendy (musicologue, Ircam), O.Warusfel (chercheur, Ircam).

Perception Spatiale : M. Cassé (astrophysicien, Institut d'astrophysique), N. Château (chercheur, France Télécom), A. de Cheveigné (chercheur, CNRS-Ircam), F. Nicolas (Compositeur), M. Seban (architecte).

Espaces Virtuels : O. Delerue (chercheur, Sony CSL), M. Emerit (ingénieur, France Télécom), H. Frossard (architecte), J.M. Jot (ingénieur, Creative Lab),

Construire l'Espace : L. Bayle (directeur Ircam), J.P. Brossman (directeur Châtelet), C. de Portzamparc (architecte), E. Kahle (acousticien, Artec), V. Larcher (chercheur Ircam), P. Manoury (compositeur), D. Perrault (architecte).

Ircam, Espace de Projection. 9 et 10 juin 2000

Organisation : Véronique Larcher, Olivier Warusfel

Jury de thèse

Jérôme Daniel, Représentations de champs acoustiques, application à la transmission et à la reproduction de sons complexes dans un contexte multimedia. Thèse de l'Université Paris 6. Octobre 2000.

O. Warusfel, examinateur

Applications du Spatialisateur en production musicale et en post-production

Collaborations à la création de nouvelles oeuvres :

Manuel Poletti pour Al Segno de Y. Maresh / F. Raffinot

S. le Mouton pour K de P. Manoury

Gilbert Nouno pour L'Amour de loin de K. Saariaho

Collaboration à la production d'enregistrements ou de concert :

Andrew Gerzso pour Anthèmes de P. Boulez

Collaboration à la post-production d'une œuvre électroacoustique

Philip Samartzis pour My Room le Grand Canal.

Equipe Acoustique des salles

Olivier Warusfel Responsable

Philippe Prévot Chercheur détaché du Ministère de la Culture

.Chercheurs stagiaires et étudiants

Alexis Baskind Universtité Paris 6

Rémy Bruno Supélec

Pascal Henriot Université Paris 6

Arnaud Laborie ENST

Véronique Larcher Université Paris 6

Xavier Marsais ENS Louis Lumière

Guillaume Vandernoot Université Paris 6

. Collaborations internes

Alain de Cheveigné Perception, Cognition Musicales

René Caussé Acoustique instrumentale

Louis Dandrel Design sonore

Nicolas Misdariis Design sonore

Serge Lemouton Production

Gilbert Nouno Production

Manuel Poletti Production

Suzanne Winsberg Perception et Cognition Musicales

. Collaborations externes

Marc Emerit France Télécom R&D

Alexandre Heidet Renault

Jean-Marc Lyswa CNSMDP

Bénédicte Saint-Loubry Renault

Philip Samartzis Université de Melbourne