ACTIVITES DE L'EQUIPE ACOUSTIQUE DES SALLES - SPATIALISATION
Année 2002

Responsable: Olivier Warusfel




1. Méthodes d'extraction automatique des facteurs de description spatiale d'une scène sonore.
2. Projet CARROUSO
3. Projet LISTEN
4. Perception Multimodale

5. Restitution de l'Enveloppement en format 5.1
6. Projet Orgues - Palais des Beaux-Arts - Bruxelles
7. Spatialisateur

8. Publications



L'activité de l'équipe Acoustique des salles est consacrée aux problèmes de perception, de modélisation et de synthèse d'une scène sonore, réelle ou virtuelle, et considérée principalement dans sa dimension spatiale. Les orientations de recherche de l'équipe s'organisent autour de trois axes majeurs : les technologies de captation-reproduction d'un champ sonore, les modèles de codage / décodage des scènes sonores privilégiant notamment une approche <<par le contenu>>, et les questions de perception et de cognition spatiale auditive. Ces actions se situent dans le prolongement des travaux précédents mais permettent d'ouvrir le champ d'applications à différents utilisateurs ou à de nouvelles pratiques artistiques de l'espace du concert  à celui, notamment, des installations sonores interactives.

Au cours de l'année 2002, l'activité de l'équipe Acoustique des Salles a été principalement articulée autour de deux projets européens assez emblématiques des enjeux actuels des recherches sur la spatialisation : le codage et la transmission de spectacles (Projet Carrouso) et la réalité augmentée (Projet Listen). Le projet Carrouso a permis d'initier un travail sur le mode de reproduction par reconstruction de champ sonore (Wave Field Synthesis) qui se révèle prometteur pour de nouvelles expériences d'écoute. Le projet Listen a permis de consolider  les recherches de l'équipe sur le mode de reproduction binaural (restitution 3D sur casque d'écoute). Les deux projets ont nécessité un travail de réflexion et de développement d'outils auteur dédiés à la création de scènes sonores interactives.

Les modèles de description d'une scène sonore requièrent une meilleure connaissance des mécanismes qui sous-tendent notre perception spatiale, auditive principalement mais plus généralement multi-sensorielle. L'équipe poursuit ses études sur les méthodes d'extraction automatique des descripteurs spatiaux d'une scène sonore, domaine qui peut s'avérer important, à terme, pour les procédés d'incrustation sonore ou de mixage automatique. Par ailleurs, l'équipe initie un travail de recherche sur la perception multimodale avec, pour terrain d'application principal, les installations sonores interactives et les situations de réalité augmentée.



1. Méthodes d'extraction automatique des facteurs de description spatiale d'une scène sonore.

Les mesures objectives de l'écoute spatiale sont utilisées tant à des fins de prévision que d'évaluation de la qualité d'une salle. Elles reposent le plus souvent sur une connaissance plus ou moins approfondie des propriétés physiques et géométriques de la salle et des transducteurs, ainsi que d'un jeu de réponses impulsionnelles issues de mesures acoustiques, et associées à la propagation dans la salle pour des positions données de source et récepteur. L'objet de cette recherche est de proposer des méthodes visant à développer des mesures objectives de la perception spatiale d'une scène sonore enregistrée, sans aucune connaissance a priori ni sur l'espace de diffusion (description physique, géométrique, ou mesures de réponses impulsionnelles), ni sur les sources et récepteurs (directivité, position), ni sur le son diffusé. Cette description concerne dans l'absolu les différents aspects de l'impression spatiale, tant relatifs à la source (localisation, largeur apparente) qu'à la salle (taille apparente, réverbérance, enveloppement). Dans un souci de simplification préliminaire, l'étude se concentre sur le cas d'une scène réduite à une seule source immobile, et d'enregistrements binauraux ou issus de synthèse binaurale.
Cette étude s'est concentrée plus spécifiquement sur deux aspects de l'impression spatiale, qui sont la direction apparente de la source (ainsi que l'élargissement apparent en présence d'un effet de salle) et la réverbérance (précoce et tardive). La méthode de localisation repose sur la comparaison entre les indices interauraux estimés dans l'enregistrement [Baskind02a] avec ceux correspondant aux fonctions de transfert liées à la tête (HRTF) à plusieurs positions angulaires. La durée de la réverbération est estimée par analyse de la décroissance de l'énergie en bande étroite après l'extinction de la source.
La principale difficulté de ce problème réside dans la nécessité de dégager ces informations spatiales de l'ensemble des données. En l'absence de connaissances sur le message transmis par la source, il faut repérer les instants les plus susceptibles de fournir les informations recherchées avec un minimum d'ambiguïté. Ainsi, il est indispensable d'estimer au préalable les instants correspondants aux attaques et extinctions de chacun des évènements de la scène car il s'agit des moments où les informations relatives respectivement à la position de la source et à la réverbérance de la salle sont les plus saillants. Ces indices sont déduits par analyse temps-fréquence au moyen de la cohérence à court-terme entre les deux voies de l'enregistrement. De plus, lorsque la source est harmonique, la fréquence fondamentale instantanée fournit une information très utile, car elle permet de guider et de rendre plus précise la détection des attaques et des extinctions [Baskind03a].
Cette recherche propose une présentation détaillée de ces méthodes, appuyée par des notions théoriques sur la propagation du son en espace clos et sur la perception spatiale. Leur pertinence est évaluée par l'étude de l'adéquation entre les estimations qu'elles fournissent et des données objectives de la scène comme la position physique de la source ou les durées de réverbération précoces et tardives.
Participant : A. Baskind.
Collaboration interne : A. de Cheveigné (équipe Perception et cognition musicales).


2. Projet CARROUSO

Le projet Carrouso (Creating, Assessing and Rendering in Real Time of High Quality Audio-Visual Environments in MPEG-4 Context) fait l'objet d'un partenariat entre une dizaine d'institutions ou établissements industriels européens parmi lesquels France-Télécom, la société Studer, l'Université de Delft et l'IRT (Institut für Rundfunk Technik) sont les collaborateurs principaux de l'Ircam. Ce projet est dédié à l'enregistrement, la transmission et la restitution d'une scène sonore réelle ou virtuelle préservant ses propriétés perceptives, notamment spatiales, et autorisant leur manipulation interactive. Ce projet s'appuie sur le format de codage MPEG4 qui privilégie, sur le plan de la spatialisation, une approche descriptive et paramétrique de la scène sonore.
Les deux grandes particularités du projet sont, d'une part, le codage par contenu lors de la transmission de la scène sonore et, d'autre part, l'utilisation de l'approche holophonique pour l'enregistrement et la restitution de la scène sonore avec un haut niveau de restitution spatiale. Cette approche est choisie afin de dépasser les limites des systèmes conventionnels en termes de fidélité de reproduction sur une zone d'écoute étendue.
Les missions qui incombaient à l'Ircam concernent deux volets distincts. D'une part, un travail sur l'égalisation du système de reproduction multicanal, travail qui sera poursuivi par l'étude de procédés de compensation du lieu d'écoute. D'autre part, un travail a été consacré à l'élaboration et au développement d'une interface utilisateur et d'un outil auteur permettant de créer et de manipuler la scène sonore.

2.1 Egalisation multi-canal de haut parleurs MAP dans le cadre de la reproduction holophonique
Ce travail a pour vocation d’effectuer une égalisation dans le cadre d’une restitution holophonique à l’aide de haut-parleurs MAP (Multi-Actuator Panel). Ce type de haut-parleurs est dérivé de la technologie DML (Distributed Mode Loudspeaker). Il utilise 8 excitateurs, alimentés indépendamment, répartis suivant une ligne horizontale et collés au dos d'une plaque. La directivité de chacun des excitateurs étant complexe, une procédure a été mise en place afin d’égaliser le système complet dans une zone étendue. Cette procédure assure la reproduction du front d’onde d’une source virtuelle cible et optimise la qualité du champ acoustique reproduit (réponse en phase, en fréquence) dans toute la zone d’écoute. In fine, le mode de reproduction repose sur la constitution préalable d'une base de données consignant pour un ensemble de positions de sources virtuelles ou de directions d'ondes planes les filtres qui doivent être implantés en amont de chaque excitateur. Les filtrages correspondants sont effectués en temps réel par des processeurs de convolution temps réel sans retard.

2.2 Qualité de restitution par panoramique sur un jeu d'ondes planes ou de points sources virtuels
L'intégration de la Wave Field Synthesis dans les outils de spatialisation nécessite une réflexion sur les modes d'analyse/description de l'effet de salle et l'architecture algorithmique nécessaire. Afin de valider la capacité de la Wave Field Synthesis à reproduire efficacement des monopoles et des ondes planes, des modèles permettant d'estimer la localisation perçue ont été développés. Ces modèles auditifs ont été utilisés par la suite dans le cadre d'une étude consacrée à l'estimation de la qualité de reproduction de la localisation sous forme de combinaison d'ondes planes (notion de panoramique). L'idée directrice est de limiter la puissance de calcul nécessitée par une reconstruction exacte d'une onde plane, en travaillant sous la forme de combinaison linéaire sur un jeu limité d'ondes planes ou de haut-parleurs virtuels. L'objectif de l'étude était de dégager l'ordre de grandeur de l'angle maximal séparant deux ondes planes consécutives pour que leur combinaison offre une qualité de reproduction satisfaisante. Cette estimation était faite sur une zone d'écoute étendue face au banc de haut-parleurs. La même estimation a été effectuée pour la reproduction de sources localisées par combinaison de monopoles. Cette étude s'est limitée au mode de gestion panoramique par intensité. Elle sera complétée dans les années à venir avec l'étude d'autres modèles de panoramique et par des tests perceptifs.

2.3 Intégration de l’holophonie dans le spatialisateur
La reproduction d’une scène sonore dans le cadre de l’holophonie se traduit par :
- La synthèse d’un front d’onde correspondant à la position de la source virtuelle.
- La reproduction d’un effet de salle suivant un nombre limité de directions angulaires synthétisées par des ondes planes par le système holophonique (cf. ci-dessus).
L’intégration dans le spatialisateur a donc été effectuée en utilisant les encodeurs directionnels existants pour la reproduction de l'effet de salle et en transmettant, après traitement, ces différents signaux ainsi que le son direct à des processeurs dédiés. Un patch DSP ainsi qu’une interface de contrôle communiquant par messages OSC (OpenSoundControl) ont été développés afin de commander ces modules sur des machines distantes (autre MacIntosh ou programme de convolution multicanal sur PC).
Participants :     E. Corteel, S. Roux.

2.4 Définition d'un outil auteur et d'une interface utilisateur pour Carrouso
Dans le projet Carrouso la chaîne émission – transmission – réception repose sur la construction d'une scène sonore encodée en format MPEG4. Ce standard permet de séparer le codage des signaux audio (flux individuels émanants des sources sonores) et la description paramétrique de la scène. Celle-ci comprend la position et l'orientation des sources et les caractéristiques de la salle décrite soit par des paramètres perceptifs soit par des données géométriques (parois). L'intérêt d'une approche descriptive est de permettre une adaptation au dispositif de restitution (nombre, placements des enceintes, techniques de reproduction), et d'autoriser une interaction de la part de l'auditeur. L'une des missions de l'Ircam dans le projet Carrouso est le développement de cette interface utilisateur. Par ailleurs, au cours du projet, le besoin d'un outil auteur permettant de créer des scènes au format MPEG-4 a émergé.

Création de scènes au format MPEG-4
L'outil auteur ListenSpace, développé dans le cadre du projet Européen Listen, a été étendu avec des fonctionnalités qui permettent la création de scènes sonores compatibles avec le format de défini dans le standard MPEG-4. En pratique, cela veut dire que chaque source virtuelle de la scène est associée à un flux audio, issu d'un fichier son ou d'une prise de son en temps réel, et d'un ensemble de descripteurs de la qualité acoustique de salle. Cette scène est transmise par une communication UDP en format textuel à un encodeur MPEG-4 (développé par EPFL), où la scène est transformée en format binaire et multiplexée avec les flux audio compressés. Les sons et la scène créée sont transmis à un décodeur MPEG-4 où la scène virtuelle est restituée. Bien que le projet Carrouso privilégie le mode de rendu au format Wave Field Synthesis, la scène peut être restituée dans le format choisi par l'utilisateur (ambisonics, binaural, pairwise panning) puisque la technique de reproduction ne fait pas partie de la norme.

Interaction de l'utilisateur
La  description de scène MPEG-4 inclut également des objets graphiques et des fonctions d'interaction qui, dans le contexte CARROUSO sont utilisés pour créer une interface utilisateur qui permet de contrôler et modifier la scène sonore à la réception. Pour chaque scène sonore créée dans l'environnement ListenSpace, une représentation visuelle est générée et transmise au décodeur à l'aide d'objets 2D graphiques simples appartenant à la norme MPEG-4. Cette interface créée par l'outil auteur est transmise dans le flux MPEG-4 en même temps que la scène sonore. La scène MPEG-4 contient ainsi sa propre interface utilisateur qui peut être utilisée pour bouger les sources dans l'espace virtuel, ou encore changer les valeurs des différents paramètres perceptifs associés à chaque source. Cette interaction est implantée en utilisant les mécanismes de senseurs de la norme MPEG-4 comme, par exemple, un senseur plan qui peut être utilisé pour bouger la position d'un objet graphique (symbole d'une source, potentiomètre, …) à l'aide de la souris. L'auteur peut cependant décider quels seront les paramètres qui seront visibles et/ou modifiables par l'utilisateur de manière à contrôler les possibilités d'interaction ou simplement de visualisation.
Participant :     R. Väänänen.

2.5 Extraction des paramètres perceptifs à partir de la réponse d'une salle.
L'équipe dispose depuis plusieurs années d'un outil de description de la réverbération, nommé 'EDR', et intégré dans la distribution du Spat. Cette librairie Matlab vise à fournir une description de la réverbération tardive en bande étroite, pré-requis permettant le débruitage à des fins de spatialisation de réponses impulsionnelles mesurées, et également nécessaires pour fournir une description perceptive de haut-niveau permettant entre autres de piloter le Spat. Le but de ce travail était de réactualiser cette librairie et de la fondre dans une interface utilisateur plus intuitive. La librairie actuelle, nommée "Room Analysis Toolbox", permet d'effectuer d'effectuer des traitements par lot sur ensemble de fichiers, et est complètement modulaire, si bien que d'autres outils de mesure objectives peuvent être joints à EDR, ainsi que des méthodes d'import de mesures de salles utilisant notamment les outils de déconvolution de l'équipe. Le couplage de la librairie MAX/MSP de mesures acoustiques développée au sein de l'équipe est également a l'étude, de manière a fournir un outil complet de mesure et d'analyse de réponses de salles. L'algorithme EDR a été revu en profondeur, ce qui a permis de rendre l'estimation plus stable.
Participant :     A. Baskind, Guillaume Vandernoot

Collaborations extérieures principales pour l'ensemble du projet CARROUSO :
Fraunhofer : Thomas Spörer.
Studer : Renato Pellegrini.
FranceTélécom : Yannick Mahieux, Marc Emerit, Rozenn Nicol.        
Technische Universiteit Delft : Diemer de Vries, Edo Hulsebos.
Universität Erlangen : Sascha Spors
IRT : Helmut Wittek.
EPFL : Giorgio Zoia, Alexandre Simeonov.

Projet financé par la Communauté Européenne dans le cadre de l'appel d'offre IST. Durée 30 mois.


3. Projet LISTEN

Le projet LISTEN (Augmenting everyday environments through interactive soundscapes), mené en partenariat avec le Fraunhofer Institut (Institut für Media Kunst – IMK), la société AKG, le KunstMuseum de Bonn et l'Université de Vienne, s'inscrit dans le domaine de la réalité augmentée, notion ici considérée principalement dans sa dimension sonore. Le principe de Listen est d'enrichir l'environnement réel par des événements ou espaces sonores individualisés, artistiques ou didactiques, auxquels l'utilisateur accède de manière immersive, transparente, intuitive. L'individualisation des scènes sonores est rendue possible par l'utilisation de casques sans fil, repérés en position et en orientation. Leur aspect intuitif et immersif est obtenu en combinant des modèles comportementaux de chaque utilisateur avec des techniques de spatialisation du son pour la reproduction sur casque.
La première application envisagée est celle d'un guide audio évolué pour les expositions artistiques ou commerciales. Les principaux domaines de recherche impliqués dans le projet sont la modélisation de la scène sonore interactive proposée au visiteur, le moteur de rendu sonore et le développement du dispositif technique. L'équipe acoustique des salles est notamment impliquée dans la conception et la supervision du moteur de rendu sonore, dans les études et développements liés à la modélisation acoustique de la scène sonore et dans la réalisation et l'analyse des tests d'évaluation psycho-perceptive des différents modules développés et des prototypes réalisés.
En termes de restitution sonore, les enjeux technologiques de Listen impliquent des recherches dans le domaine des techniques binaurales. Les principaux axes de travail sont : l'encodage multicanal du binaural, l'adaptation individuelle. Par ailleurs, les nouvelles formes de contenu multisensoriel proposées par le projet Listen nécessitent la conception d'un outil-auteur dédié.
1.2.3.1 Format multicanal pour la restitution binaurale
Le contexte de la réalité augmentée implique un effort spécifique sur la qualité de la spatialisation de la scène auditive, notamment l'adaptation de la synthèse binaurale aux critères de localisation propres à l'auditeur. De plus, le coût de calcul demandé par la spatialisation de chacune des sources sonores à restituer rend l'élaboration de scènes complexes délicate.
La constitution d'un format intermédiaire multicanal destiné à l'écoute en binaural est une solution à ces deux problèmes. Il permet de dimensionner le coût de la spatialisation en fonction de la puissance de calcul disponible et de la qualité désirée. De même, il permet de distinguer deux étapes dans le processus de spatialisation. Pendant l'étape d'encodage, chaque source sonore est distribuée sur un nombre déterminé de canaux, selon des coefficients qui dépendent de sa position dans l'espace (fonctions spatiales). Ce format multicanal intermédiaire, qui peut être stocké ou transmis directement, est dans une seconde étape décodé par des filtres (filtres de reconstruction) dont les caractéristiques sont adaptées à l'auditeur cible.
Une des méthodes disponibles pour accéder à ces fonctions spatiales et filtres de reconstruction est basée sur l'analyse statistiques (PCA) des fonctions de transfert de la tête de l'auditeur (HRTF). Ce processus d'analyse statistique a été optimisé afin de pouvoir équilibrer la restitution selon les directions de provenance du son et la gamme de fréquence, permettant ainsi d'adapter la restitution aux caractéristiques de la localisation auditive (amélioration de la restitution pour les directions et les fréquences clefs) ou aux circonstances de l'application cible (scène sonore limitée au plan horizontal). Ces optimisations ont fait l'objet d'une communication [Rio2a].
Le cas particulier où les fonctions spatiales sont définies mathématiquement par les harmoniques sphériques (méthode Ambisonics) a donné lieu à des optimisations semblables. Dans ce cas, le contrôle et l'optimisation de la qualité de restitution peuvent s'effectuer en faisant varier le sous-ensemble des positions à partir desquelles les filtres de reconstruction sont calculés (haut-parleurs virtuels). Cette dernière technique trouve son application dans le cadre du projet Listen en permettant d'incruster des scènes sonores pré-calculées ou enregistrées par un microphone dédié.
Implémentations
- Matlab : fonctions de synthèse en temps différé (binaural 2 canaux et binaural multicanal)
- Max/MSP : implémentation des outils de spatialisation associés sous forme d'objet externes
Participant :    E. Rio.

3.2 Mesures
Afin d’améliorer la qualité et la précision de l’information spatiale diffusée par un casque d’écoute, les efforts ont été concentrés sur les fonctions de transfert de tête (HRTF) et sur les différents modes de construction et d’implémentation. Ce travail consiste à se donner les moyens de mesurer ces fonctions de transfert sur des individus, mais également à définir des méthodes permettant de générer ces HRTF individuelles sans passer par une séance de mesure ; nous cherchons également à établir différentes méthodes d’encodage et de décodage spatial des informations audio qui peuvent être diffusées au casque.
La réalisation d’une base de données de HRTF passe par la mise au point d’un dispositif de mesures efficace, tant pour la capture de ces fonctions de transfert elles-même, que pour le balayage d’un grand nombre de positions possibles dans l’espace.
Nous avons donc décidé d’améliorer notre capacité à mesurer des réponses impulsionnelles, qui dépendait jusqu’à présent d’une carte électronique ne permettant l’acquisition que d’un seul canal acoustique. Nos besoins en mesures multi-canal (2 canaux pour le projet Listen, et un grand nombre de canaux pour le projet Carrouso) nécessitaient la réécriture d’un logiciel de mesures, soit dans l’environnement Matlab sous Windows™, soit dans l’environnement Max/MSP sous MacOS. C’est la deuxième solution qui a été retenue. Le nombre maximal de canaux de mesures dépend de la carte son associée, de la longueur de la séquence de mesure, et de la puissance du processeur hôte. Le logiciel se présente sous la forme d’une boîte à outils permettant de construire sa propre application. Deux types de signaux de mesures peuvent être utilisées : les codes de Golay, et les balayages fréquentiels. Le logiciel fonctionne en temps réel, ou en temps différé. Dans le premier cas, les réponses impulsionnelles sont obtenues immédiatement, et stockées sous forme d’un fichier son. Dans le deuxième cas, il est nécessaire de déconvoluer le signal enregistré ; cette déconvolution peut être effectuée directement dans l’environnement Max/MSP, ou dans l’environnement Matlab pour lequel une suite de fonctions a été développée.
Nous avons également mis en place un nouveau système de mesures dans la chambre sourde. Il se compose d’une table tournante permettant de faire varier la position en azimut (0° Æ 359°), et d’un portique articulé permettant de faire varier la position en site (-45° Æ +90°). Pour notre application, nous avons fixé une chaise sur la table tournante, et un haut-parleur sur le portique. Le contrôle de ce dispositif est effectué dans l’environnement Max/MSP. La commande de la chaise tournante étant réalisée par un programme déjà existant dans notre équipe, dans l’environnement Windows™, une interface a été développée pour gérer la communication avec Max/MSP. D’autre part, la commande du portique est réalisée par une interface MIDI reliée à deux unités de puissance, permettant de faire fonctionner deux moteurs pas-à-pas.
Afin de rendre les mesures plus fiables, nous avons aussi acquis une technique de réalisation de moules du conduit auditif, dans lesquels il est possible d’insérer de manière reproductible les micros de mesures.
Avec ce dispositif, 46 sujets ont été mesurés (187 points de mesures répartis dans l’espace, pour chaque sujet). Nous avons créé un site Web (http://www.ircam.fr/equipes/salles/listen) sur lequel il est possible de télécharger ces mesures ainsi que des exemples sonores. Cette base de données nous a permis d’étendre les possibilités de simulation binaurale du Spat~, pour lequel nous avons calculé tous les filtres correspondants.
Participants : G. Vandernoot, A. Terrier, G. Bertrand, N. Lescot, F. Lienhart,  E. Rio, O. Delerue

3.3 Adaptation individuelle
Les recherches visant à adapter à l’individu un ensemble de HRTF génériques sont menées dans le cadre d’une étude visant à corréler des critères morphologiques à des critères acoustiques. Parallèlement aux mesures de HRTF, un certain nombre de paramètres morphologiques ont été rassemblés sur les mêmes sujets. Plusieurs séries de HRTF ont également été mesurées avec un mannequin possédant une réplique de l’oreille externe de différents individus. Des variations géométriques ont également été apportées aux répliques d’oreilles fixées sur le mannequin, afin d’analyser les corrélations entre les changements morphologiques et les modifications acoustiques engendrées. Les différences inter-individuelles sont observées dans trois espaces : le domaine morphologique, le domaine signal et le domaine perceptif, qu’il faut chercher à relier.
Plusieurs techniques de captation des caractéristiques morphologiques ont été envisagées, à savoir la construction d’un maillage 3D à partir d’un scanner (optique ou IRM) d’une reproduction des oreilles, la construction d’un modèle 3D à partir d’un ensemble de photos, ou la mesure directe sur les individus, associée à quelques photos. Le dépouillement de ces mesures, ainsi que l’étude des corrélations entre les domaines morphologiques/signal/perceptif, est en cours.
Notons qu’il est également possible d’utiliser des techniques numériques pour analyser ces paramètres morphologiques, par le biais des éléments finis de frontières (BEM). L’idée est de modéliser le comportement acoustique de la tête et des oreilles sous une forme plus ou moins simplifiée, les paramètres du modèle étant extraits de mesures anthropométriques réalisées sur des scanners 3D (collaboration FTR&D). On peut donc espérer être en mesure de générer un ensemble de HRTF individuelles capables de reproduire avec une bonne précision les indices classiques de localisation auditive dans l’espace. Ce travail fait l'objet de la thèse de Sylvain Busson en collaboration avec France-Télécom. Cette thèse débute fin 2002.
Afin d’effectuer des tests d’écoute permettant d’estimer avec une bonne précision la localisation auditive des sujets, un nouveau système de présentation de sons en 3D est à l’étude dans l’environnement Virtools (collaboration FTR&D) ; le but recherché est de créer un environnement audio aussi immersif que possible afin, d’une part, d’augmenter le degré de plausibilité de la restitution et, d’autre part, de réduire le biais entre la tâche de localisation proprement dite et la tâche de report de l’information sur l’interface.
Participants : B.  Katz, S. Busson, G. Vandernoot.

3.4 ListenSpace
Ces travaux ont été initiés dans le cadre du projet européen LISTEN, à partir du constat de la nécessité d’un outil auteur permettant de décrire et manipuler aisément les éléments virtuels d’une scène sonore au travers d’une représentation bidimensionnelle. Répondant directement à ces besoins, ListenSpace est une interface graphique pour l'édition et le contrôle de scènes sonores. La scène est décrite au moyen d’objets graphiques représentant à la manière d’une vue d’oiseau les différents éléments physiques d’une part et virtuels d’autre part, présents dans le cadre d’applications de réalités augmentées.
L’année 2002 a été consacrée à la consolidation et la poursuite des travaux et objectifs de l’année précédente. Si la priorité générale est restée la demande en matière d’outil auteur dans le cadre du projet LISTEN, nous avons tenté cependant d’ouvrir notre travail dans des directions nouvelles, visant d’une part d’autres possibilités d’application et d’autre part une dimension davantage orientée vers la recherche.

Communications
Des travaux importants ont été réalisés au niveau des communications, essentiellement dans le cadre de l’intégration de ListenSpace au reste des éléments logiciels du projet LISTEN. Cette communication s’effectue au niveau « fichier » d’une part, au moyen d’un format commun de description de scènes sonores basé sur le standard XML, et au niveau « réseau » d’autre part, permettant de partager en temps réel toute modification effectuée sur la scène par l’un ou l’autre des composants logiciels. Les problèmes majeurs rencontrés dans ce développement résidaient dans le maintien de la cohérence des différentes instances de la scène sonore, en particulier au niveau des identifiants de chaque objet auxquels il est nécessaire de faire référence.
Typiquement, au cours d’une session d’« authoring » LISTEN, chacune des applications (principalement ListenSpace et Avango) commence par le chargement en mémoire d’une scène à partir d’un fichier commun puis se connecte via le réseau afin que toute modification de la scène soit répercutée au sein des autres applications.
Une des propriétés importantes de ce développement est que ListenSpace est capable de communiquer avec lui-même… Cette particularité permet de travailler sur plusieurs instances de ListenSpace simultanément, partageant la même scène mais en produisant des vues différentes. Elle ouvre la voie aux applications multi-utilisateurs.

Élargissement au projet Carrouso
ListenSpace a été adapté et intégré au projet européen Carrouso qui manifestait des besoins similaires en termes d’outils auteur et d’interface de contrôle. Le rôle de ListenSpace dans ce contexte est double : d’une part  il assure le contrôle de la scène au niveau de son encodage au format MPEG-4, et d’autre part il permet de convertir la représentation graphique de la scène sonore par le biais d’un ensemble de routines compatibles avec le format MPEG-4, de sorte qu’il soit encore possible d’intervenir sur la scène au moment du décodage et rendu sonore.
Les points clés de ce développement sont d’assurer au sein de ListenSpace une structure logicielle et une organisation objet suffisamment souples pour permettre une adaptation rapide et aisée à ce type d’application. Les développements de ListenSpace spécifiques au projet Carrouso sont décrits plus en détail dans la section 1.2.2 de ce document.

Réflexions
Une recherche sur le calcul et la sélection des réflexions précoces a été menée de manière à étudier l’impact et le bénéfice d’une approche par modèle physique par rapport à une approche plus statistique, au niveau de la sensation de réalisme dans le rendu sonore. Celle-ci s’inscrit dans le cadre précis du projet LISTEN, celui des réalités sonores augmentées et tend à observer si une simulation plus cohérente des sources sonores par rapport à l’environnement physique réel améliore l’effet d’immersion et de réalisme attendu dans ce type de média.
Sur le plan pratique, un algorithme de calcul de sources-images a été incorporé au projet ListenSpace en tirant parti de toutes les simplifications que le type de scènes utilisées permet de faire par rapport au cadre général : il est ainsi possible de calculer en temps réel les réflexions précoces d’ordre 1, 2 et 3 de plusieurs sources sonores lorsque l’architecture utilisée n’est pas trop complexe. Pour rester compatible avec les concepts de contrôle perceptif qui font la richesse du Spat, ces réflexions sont filtrées pour n’en garder qu’un faible nombre, qui viendront affiner par un jeu de paramètres nouveaux le contrôle du module « early » du spatialisateur. Des développements correspondants ont été réalisés dans le Spat et restent encore à l’état de prototype.
L’originalité de ce développement tient aux diverses possibilités de filtrage des réflexions précoces permettant d’insister sur des éléments perceptifs tels que la présence de la source, celle de la salle ou encore la sensation d'enveloppement. Des études perceptives futures permettront de mieux contrôler ces paramètres et d’en évaluer l’efficacité.
Composants Logiciels Complémentaires
Un ensemble de composants logiciels externes a été développé et permet d’échanger des informations avec ListenSpace. Typiquement, ces modules augmentent les possibilités de contrôle par un utilisateur en en proposant des modalités différentes. Il s’agit par exemple de l’application « ListenStick », qui capte les informations provenant d’un « joystick » et les transmet à ListenSpace pour contrôler la position des sources sonores. L’apport immédiat du contrôle par joystick (dotés de 5 ou plus degrés de liberté par rapport aux 2 degrés de liberté de la souris) réside dans la possibilité de maîtriser plus précisément les propriétés « géométriques » d’une source sonore par exemple, en permettant le contrôle simultané de sa position, ainsi que de son orientation et éventuellement son élévation ou sa directivité. Un autre exemple de composant logiciel complémentaire permet d’exploiter directement des informations de suiveut de position provenant d’un système de type « Flock of birds ».
Participant: O. Delerue

Participants pour le projet Listen : O. Delerue (Conception, développement ListenSpace), B. Katz (Adapation individuelle), E. Rio (Format binaural multicanal, transparence casque), S. Roux (développement du Spatialisateur), G. Vandernoot (Mesures binaurales, tests perceptifs).
Collaboration interne : A. Terrier, G. Bertrand.
Collaborations extérieures principales :
IMK-Fraunhofer : Gerhard Eckel, Joachim Gossman.
AKG : Bernd Ruprechter, Christoph Schwald.
KunstMuseum Bonn : Ruth Diehl, Julia Haringer.
Technische Universität Wien : Alois Goiser.
FranceTélécom R&D : Sylvain Busson, Guillaume Le Nost, Jean-Marie Ternaux.

Projet financé par la Communauté Européenne dans le cadre de l'appel d'offre IST. Durée 36 mois.



4. Perception Multimodale

Plusieurs projets de collaboration de l'équipe couvrent des applications qui impliquent une perception multimodale de l'organisation spatiale mettant en jeu notamment des interactions visuo-auditives mais également des dimensions kinesthésiques ou proprioceptives. En particulier, les situations de réalité augmentée ou mixte, telles que proposées par le projet LISTEN, posent des difficultés de mise en cohérence entre les événements sonores incrustés et les perceptions visuelle et kinesthésique liées à l'évolution dans la scène réelle. Plus généralement, on constate que la perception de l'espace doit être coordonnée au travers de plusieurs modalités sensorielles. L'un des moyens pour tenter de comprendre comment ces différentes modalités se combinent entre elles pour donner lieu à un percept unique est d'étudier la façon dont le système nerveux central réagit lorsque deux sens fournissent des informations contradictoires. L'étude des conflits sensoriels représente ainsi une approche des principes d'organisation multimodale.

Pour aborder ces questions, l'équipe s'associe avec le laboratoire Vulnérabilité, Adaptation et Psychopathologie du CNRS (UMR 7593) qui se consacre à l'étude des troubles de la perception de l'espace. Entre les deux équipes il y a donc communauté d'intérêt sur le plan des développements nécessaires à la construction de mondes virtuels multi-sensoriels et sur le plan de la méthodologie. Pour l'Ircam l'enjeu est principalement d'étudier le rôle de ces interactions dans la qualité spatiale auditive perçue en particulier dans le mode de diffusion binaurale.

En 2002  les tâches principales ont été :
- le développement de la plate-forme de tests permettant de réaliser des expériences multi-sensorielles. La plate-forme s'oriente vers le couplage d'outils standard de développement d'applications de réalité virtuelle avec le Spatialisateur.
- des premières expériences testant les effets de recalibration spatiale auditive induite par des ancrages visuels.


Une première expérience de recalibration visuo-auditive en réalité virtuelle a été réalisée à partir du paradigme classique de l'effet. L'objet est d'étudier si un conflit tel qu'une rotation systématique de 10° entre les stimuli visuels et auditifs peut engendrer une recalibration de l'ensemble de la sphère auditive, incluant l'espace arrière. Plus précisément on cherche à observer si l’exposition au conflit visuo-auditif se manifeste dans l’espace dorsal par une rotation ou une translation (latéralisation) des événements perçus. Ces deux dernières hypothèses révèleraient des mécanismes de plasticité distincts car intervenant à différents niveaux d'intégration de l'information de localisation auditive.

Les résultats sont en cours d'analyse. Les premières observations montrent un effet significatif d'adaptation entre les phases 1 et 3, ainsi que différentes interactions entre facteurs (hémi-espaces frontal, dorsal, gauche et droit). Nous avons observé également de grandes différences inter-individuelles et les résultats actuels ne permettent pas de trancher entre les différentes hypothèses.

D'autres expériences sont en cours de préparation et ont nécessité le développement d'une plate-forme de test intégrant des dispositifs de suivi de position et d'orientation d'un individu, un dispositif de visualisation d'un monde virtuel et la spatialisation des composantes sonores. Les expériences envisagées consisteront notamment à proposer au sujet différentes tâches de navigation afin d'étudier les propriétés de cognition spatiale auditive
Participants :  Alexis Baskind, Brian Katz, Emmanuel Rio, Guillaume Vandernoot
Collaboration extérieure(UMR7593) : Isabelle Viaud-Delmon, Ludivine Sarlat, Angeline Seguelas, Yazid Ouallouche.



5. Caractérisation et contrôle de la sensation d'enveloppement dans le cadre de la diffusion au format 5.1

Compatible avec les standards stéréophoniques classiques, le standard de diffusion 5.1 permet de les compléter par l'ajout d'effets d'ambiance ou encore de localisation d'événements sonores arrière et latéraux. Sous l'impulsion des industries multimédia et cinématographique ce format tend à s'imposer comme standard de diffusion. L'industrie musicale et audio est ainsi amenée à produire pour ce standard. Cependant, contrairement au formats stéréophoniques conventionnels, aux formats binaural ou Ambisonics, le standard 5.1 ne recouvre qu'une notion de système de diffusion sans que lui soit associée une technique particulière de prise de son. Plusieurs études ont été consacrées ces dernières années à la définition de systèmes de prise de son capables de restituer "naturellement" les qualités spatiales d'une scène sonore.
Parmi ces systèmes nous avons choisi d'étudier plus particulièrement un dispositif opérant un découplage des signaux sources et des signaux de la salle basés sur l'utilisation du Hamasaki square, constitué de quatre microphones bi-directionnels. L'avantage reconnu d'un tel système basé sur le découplage son direct / son réverbéré est de permettre une plus grande souplesse dans la construction de la scène sonore au moment du mixage. Le but de l'étude était justement d'étudier les effets perceptifs liés à un ensemble de paramètres de réglages lors de la prise de son et lors du mixage. Deux configurations du système de captation du champ réverbéré ont été étudiées, ainsi que deux paramètres élémentaires de mixage : le délai temporel entre signaux directs et signaux réverbérés, ainsi que la répartition spatiale des signaux réverbérés entre les canaux avant et arrière du dispositif d'écoute. La méthodologie a consisté à proposer différentes configurations de prise de son et de mixage à un ensemble d'auditeurs appelés à juger ou comparer les différentes situations à l'aide d'échelles perceptives.
Des effets significatifs ont pu être observés entre les deux configurations microphoniques qui différaient par l'espacement inter-microphones. Par ailleurs, la distribution spatiale de la réverbération s'est montrée plus efficace pour le contrôle des attributs spatiaux de la scène sonore que le retard temporel entre son direct et son réverbéré.
Participants : M. Deschamps
Co-encadrement : Olivier Warusfel, Alexis Baskind, Guillaume Vandernoot



6.  Projet Orgues – Palais des Beaux Arts de Bruxelles

En parallèle à la construction de l'orgue du Palais des Beaux-Arts de Bruxelles par Georg Westenfelder, l'IRCAM a été chargé de concevoir le prototype d'un système de synthèse sonore pouvant s'adjoindre à l'orgue (de facture classique) et étendre les possibilités de registration sonore. Les principales fonctions à étudier sont les procédés de synthèse pour la création ou la transformation de sons étendant la palette sonore de l'orgue et les procédés de diffusion sonore intégrant des fonctions de spatialisation. Ce projet met en jeu les compétences des deux équipes Acoustique des salles et Analyse-Synthèse.
Le système de synthèse retenu s’inspire du fonctionnement classique des échantillonneurs mais effectue une synthèse temps-réel d’un son représenté par un fichier de description (décrit par le standard SDIF) pouvant contenir différents types de modèles (sommes de sinusoïdes par exemple). Cette solution permet de partir d’un corpus de sons existant pouvant servir à la fois d’échantillons de référence (pour une restitution approchée) et de matière sonore ductile propre à subir diverses transformations permettant d’étendre les possibilités timbrales de l’instrument acoustique. Le développement a été effectué en utilisant la plate-forme de développement Max/MSP. Le démonstrateur était construit autour de 4 ordinateurs et d'un ensemble électroacoustique de diffusion (huit haut-parleurs disposés sur 2 niveaux, et un dispositif à directivité contrôlée dit « Timée »). Deux ordinateurs étaient dédiés à la synthèse sonore, un troisième à la diffusion et spatialisation et le dernier, un ordinateur portable, était dédié à l’interface utilisateur. Le démonstrateur était pourvu d’une matrice de huit haut-parleurs et d’une Timée. Ce système de diffusion autorise le contrôle de l’émission dans un plan vertical (en azimut et en élévation) ainsi qu’un contrôle des figures de rayonnement pour les signaux émis par le dispositif de contrôle du rayonnement .
La présentation finale du projet s’est déroulé le 5 novembre 2002 dans l’Espace de Projection de l’Ircam.

Participants : Vincent Rioux, Manuel Poletti



7. Le Spatialisateur

7.1 Librairie d'objets de spatialisation Spat
Les principales évolutions du Spatialisateur concernent la poursuite des travaux d'implémentation de modules de localisation et le développement d'un outil de contrôle général.
La majorité des évolutions concerne le portage sous formes d’objets externes des modules de contrôle utilisés par le Spatialisateur. Ainsi, les patches liés au contrôle du module Pan et les plus importants constituant le Spat_Oper ont été portés sous forme d'objets externes. Ce portage devrait permettre d’augmenter les performances en termes de coût de calcul.
Tous les objets externes ont été compilés pour les systèmes OS9 et OS10.
Participants: S. Roux

7.2 Interface utilisateur
Pour le contrôle, l'évolution majeure repose sur le développement de ListenSpace. Cette application, développée en Java, permet de contrôler le Spatialisateur à travers un port de communication. Ce choix technique permet notamment de s'adresser indifféremment aux versions du Spatialisateur fonctionnant sous environnement Linux ou MacOS.
Participants: O. Delerue

7.3 SpatPluggo
SpatPluggo est une collection de 20 plugins issus du Spatialisateur et compatibles avec la plupart des séquenceurs audio/midi tels que ProTools, Cubase, Digital Performer ou Logic Audio et les éditeurs de sons tels que Peak, Sonic Works ou Spark.
Ces modules ont été créés grâce à l'outil Pluggo permettant de convertir des patchs Max/MSP en modules runtime fonctionnant au sein des applications hôte de type séquenceur ou éditeur et de bénéficier automatiquement de leur fonctions de preset, d'automation ou de batch processing. L'exploitation du Spatialisateur, jusque là réservée aux utilisateurs de Max/MSP ou de jMax est étendue à un mode de production reposant sur l'utilisation des applications typiques des studios ou home-studios.
Chaque plugin intègre l'ensemble des traitements d'un spatialisateur classique (modules Source, Room, Pan) et l'interface utilisateur donne accès au contrôle de haut-niveau (SpatOPer et Circ). Une architecture a été conçue autour d'un bus multicanal interne de manière à pouvoir exploiter l'ensemble des modes de diffusion multicanal comprenant jusqu'à 8 voies de sortie.
Le travail s'oriente vers le développement d'un plugin limité exclusivement aux fonctions de contrôle avec communication OSC(Open Sound Control)/UDP vers des serveurs DSP, éventuellement délocalisés et fonctionnant sous différents environnements hardware (Max/MSP, jMax, Windows+SpatLib FTR&D, plug-in, PC-Carrouso, etc.). Ces plugins permettent notamment de contrôler différents Spatialisateurs situés sur des machines distantes.
Participants: M. Poletti

2.7.4 Plugin TDM
En raison des limites de vitesse de calcul et de mémoire interne disponible sur les processeurs 56002 le Spatialisateur a été implémenté sur 56300. L'architecture reprend les différents modules élémentaires de la librairie du Spatialisateur.
Les plugIns partiels qui sont implémentés distinctement sur 56002 sont  intégrés en un ensemble unique sur 56300. La quasi totalité des modules rentre dans un seul DSP, mais le dimensionnement de certains modules est adapté à chacun des DSP de la carte, notamment en matière de mémoire. Tous les modules de traitement sont compilés et assemblés conditionnellement et exécutés sous contrôle de bypass individuels. On étudie un moyen interactif pour que l’utilisateur puisse définir son propre dimensionnement.
Bien que les contraintes de calcul en nombre entier soient toujours présentes, la vitesse du DSP et la quantité de mémoire interne permettent le recours systématique à la double précision et améliorent la qualité des filtres. Au total, un Spat sous ProTools présente :
- 14 à 22 filtres IIR d’ordre 1 et 4 d’ordre 12 pour les différents modules,
- 8 à 16 délais avec matriçage pour le module Cluster,
- 8 ou 16 délais avec filtres IIR pour le module Réverb,
- un retard variable par interpolateur d’ordre 3 pour le module Doppler,
- un retard variable intervenant dans certains modules de panoramique (binaural),
- contrôle panoramique d'intensité en sortie.
Par ailleurs, le plugIn fournit des outils de test (génération interne de signaux tels dirac, rampe, sinus) et des contrôles logiques (ProcessOnOff, StepByStep, bypass individuels, mesure du temps de traitement, etc.).
L’interface propose le contrôle du positionnement de la source par coordonnées cartésiennes ou polaires. Ce contrôle peut être déconnecté pour donner accès soit aux paramètres de traitement soit aux paramètres perceptifs. Pour faire face au très grand nombre de paramètres à contrôler, l’interface présente plusieurs panneaux, tels que "paramètres perceptifs", "paramètres de traitement du signal", "contrôle interne des délais", "logique de traitement et outils de test".
Participants  : P. Prévot


8. Publications et rapports d'étude en 2002

Actes de congrès avec comité de lecture

[Baskind 02a] Baskind A., Methods for blind computational estimation of perceptual attributes of room acoustics, 22nd AES Conference, Espoo Finland.

[Baskind03a] Baskind A., de Cheveigné A. (2003) Pitch-Tracking of Reverberant Sounds, Application to Spatial Description of Sound Scenes, proc. AES 24th conference, Banff, Canada

[Delerue02a]  Delerue, 0. Warusfel, 0. Authoring of Virtual Sound Scenes in the Context of the LISTEN Project. 22nd AESConference, Espoo, Finland.

[Misdariis 02a] Misdariis N., Warusfel O., Caussé R., Nicolas F.,  Le contrôle de la directivité par un système multi haut-parleurs. Actes des Journées d'Informatique Musicale. Marseille, mai 2002.

[Misdariis 02b] Misdariis N., Warusfel O., Radiation control on a new sound diffusion system. ICAD 2002.

[Rio 02a] Rio E., Warusfel O., Optimization of multi-channel binaural formats based on statistical analysis, Forum Acusticum Sevilla 2002, Seville, Septembre 2002.

[Rioux02a] Rioux, V., Poletti, M. (2002). An experimental SDIF-sampler for Max/MSP. Proceedings of the International Computer Music Conference, Gothenburg, Sweden 2002.

[Väänänen 02] Väänänen R., Warusfel O., Emerit M., Encoding and Rendering of Perceptual Sound Scenes in the CARROUSO Project, 22nd AES Conference, Espoo Finland.

[Warusfel 02a] Warusfel, 0. Blauert, J. Wessel, D. Synopsis of reverberation enhancement systems. Forum Acusticum Sevilla 2002, Seville, Septembre 2002.

Actes de congrès sans comité de lecture

[Corteel 02a] Corteel, E., Horbach, U., Pellegrini, R., (2002) Multichannel Inverse Filtering of multiexciter distributed mode loudspeakers for wave field Synthesis, in Proc. AES 112th convention, München.

[Corteel 02b] Corteel, E. Roux, S. Warusfel, O. Creation of Virtual Sound Scenes Using Wave Field Synthesis, 22 Tonmeistertagung Hannover, nov 2002.

[Horbach 02a] Horbach U., Corteel E., de Vries D., (2002) Spatial Audio Reproduction using Distributed Mode Loudspeaker Arrays, in Proc. AES 21st Conference, Saint-Petersburg.

Travaux universitaires

[Roux 02a] Roux, S. , Synthèse d'un effet de salle dans le contexte de diffusion holophonique, DEA ATIAM, Université Paris 6, Juillet 2002.

[Deschamps03a] Deschamps, M., Restitution de l'Enveloppement en 5.1 : Optimisation du Système Hamasaki Square. FSMS, Concservatoire Nal Sup de Musique et de Danse de Paris – Février 2003.

Rapports de recherche
[Rioux02c] Rioux, V., « Projet Orgue, Palais des Beaux-Arts (III) : rapport final de synthèse », 2002

Delerue, O. Projet Listen - Deliverables 3.3 - Modelling and authoring components.- 2002

Rio, E. Projet Listen - Deliverables 4.1 - Binaural Rendering - 2002

Vandernoot, G. , Rio E. - Projet Listen Deliverable 4.2 - Binaural Measurements – dec 2002

Väänänen, R. Projet Carrouso, Deliverable 8 - User Interface.


Conférences invitées
Warusfel, O. (2002) "Spatialisation - Enregistrement, Synthèse et contrôle de scènes sonores"  9ème rencontres de la CST. Paris. Mars 2002.

Diffusion de connaissances
Démonstration du système de diffusion utilisant la technique Wave Field Synthesis [Projet Carrouso] :
- 112ème conférence de l’AES , Munich, Mai 2002
- Festival Résonances 2002, Paris, IRCAM, Octobre 2002
- 22ème Tonmeistertagung, Hanovre, Novembre 2002
 Site de téléchargement de de mesures binaurales (projet Listen] :
- http://www.ircam.fr/equipes/salles/listen/index.html

Colloques et séminaires
Viaud-Delmon I., Warusfel, 0.Traitement des informations multisensorielles en réalité virtuelle : application à la psychopathologie – CTI01-54 – Journées CNRS - Cognition et Traitement de l’Information – Dec 2002