ACOUSTIQUE DES SALLES

Responsable : Olivier Warusfel

L'activité de l'équipe Acoustique des Salles a été principalement consacrée ces dernières années aux procédés de synthèse et de contrôle des scènes sonores. Cette activité a suscité des collaborations internes avec l'équipe temps-réel (jMax), l'équipe Perception et Cognition Musicales (perception spatiale) et l'équipe Design Sonore (source à directivité variable). Sur le plan musical, les développements ont permis d'établir une solide collaboration avec la communauté des compositeurs et assistants musicaux autour des questions de spatialisation. Au-delà du terrain musical, ces recherches et développements trouvent également des applications dans les domaines de la réalité virtuelle ou de la communication, et ont motivé de nouvelles collaborations tant universitaires qu'industrielles.

L'année 2001 a été marquée par l'initiation de différents projets européens (Carrouso, Listen et Rimm). Ces projets constituent simultanément l'aboutissement des travaux menés précédemment et le point de départ de nouveaux thèmes de recherche. Ils fournissent notamment l'occasion d'intégrer les outils de spatialisation et de contrôle d'une scène sonore (modèles perceptifs et physiques) dans des contextes applicatifs nouveaux pour l'Ircam : le codage et la transmission de spectacles ou de scènes sonores (Carrouso) ou la réalité augmentée (Listen). Ces applications induisent de nouveaux champs de réflexion, en particulier sur les technologies de reproduction du champ acoustique, et les modalités de contrôle d'une scène sonore dans un environnement interactif et multi-sensoriel.

1.1.1 Méthodes d'extraction automatique des facteurs de description spatiale d'une scène sonore.

L'objectif de ce travail est de développer des techniques d'estimation des caractéristiques spatiales d'une scène sonore à partir d'un enregistrement multi-canal. Les travaux généralement menés s'attachent à extraire uniquement l'information de localisation des sources. L'ambition est ici plus large car l'estimation vise également les aspects liés à l'effet de salle. D'autre part, l'extraction doit se faire sans connaissance a priori de la réponse impulsionnelle de la salle ou de sa géométrie. Parmi les applications envisagées, citons l'incrustation d'événements sonores dans une scène pré-enregistrée ou encore le doublage cinématographique. Dans ces deux situations, l'enjeu est de mettre en cohérence les événements rapportés avec la scène pré-existante.

Les caractéristiques spatiales peuvent être regroupées en trois catégories :

- les attributs inhérents à la salle; ceux-ci ne sont liés qu'à la géométrie et aux propriétés physiques des matériaux (temps de réverbération, densité de réflexions, réponse en fréquence de la salle), et peuvent reposer sur une analyse monophonique.

- les caractéristiques spatiales de la source, c'est-à-dire principalement sa localisation et son éloignement par rapport à la cible. Leur détermination nécessite une analyse multicanal (stéréophonie, binaural).

- les attributs reposant sur les liens entre la source et la salle. Par exemple, la directivité de la source aura une grande influence sur la densité de réflexions latérales, et donc sur l'impression d'espace. La aussi, l'estimation de ces attributs nécessite plusieurs canaux.

L'étude menée jusqu'ici a consisté à développer des outils permettant de révéler les aspects plus ou moins bas-niveau de l'effet de salle, comme la distribution temporelle et l'amplitude des réflexions précoces, ou le temps de réverbération. Les techniques cepstrales de déconvolution homomorphique servent à isoler, sur chaque canal, l'information stationnaire (principalement l'effet de salle) de l'information fluctuante (le signal). Les méthodes d'analyse de champ diffus par décroissance intégrée peuvent être appliquées à l'étude de la réverbération lors d'un transitoire d'extinction du signal.

La seconde voie est l'utilisation de modèles binauraux pour l'analyse des indices spatiaux. En employant des techniques de modélisation de l'audition, de l'oreille (cochléogrammes) au système nerveux (analyses par corrélation, ou égalisation-annulation), et en nous inspirant des techniques de détection de hauteur spectrale et de localisation que l'on trouve dans la littérature, nous avons cherché à révéler les réflexions précoces et tardives, pour estimer ensuite les différents attributs de l'effet de salle.

Les prochaines étapes seront consacrées notamment à l'intégration de ces outils pour former l'estimation des descripteurs de plus haut-niveau comme les facteurs perceptifs utilisés dans le Spatialisateur et le format MPEG-4. L'idée est de concevoir, à terme, un moteur d'analyse/prédiction intégrant une série de méthodes heuristiques privilégiant l'estimation de certains paramètres en fonction de la nature du signal observé. Ces méthodes tenteront de s'inspirer de l'audition qui se focalise sur des aspects spatiaux différents en fonction du message sonore. Ainsi, il est par exemple plus facile de juger de la réverbérance lors d'une extinction brusque plutôt que durant le discours musical. Il est également plus difficile de juger des aspects liés à la source lorsque celle-ci diffuse un son stationnaire et périodique. On peut aisément corréler ces particularités de notre audition à nos différents outils, qui fournissent des résultats plus ou moins fiables en fonction du message sonore. De fait, il paraît judicieux de concevoir un moteur pouvant, en fonction du message sonore, piloter les modules d'analyse et les focaliser sur les aspects les plus pertinents de l'effet de salle, juger de la qualité de l'estimation fournie et confronter celle-ci avec les estimations obtenues au préalable.

Participants :

Ircam : A. Baskind

Financement : MESR.

1.1.2 Cognition spatiale auditive

Ce projet concerne l’étude des facteurs spatiaux qui régissent l’organisation perceptive d’une scène sonore. La notion d’espace est simultanément considérée comme une dimension particulière de la représentation cognitive et comme facteur intervenant dans les mécanismes de ségrégation entre les constituants élémentaires d’une scène sonore Ce projet mené en collaboration avec l’équipe Perception/Cognition vise à traiter le sujet à la fois sur le plan scientifique en abordant les points de vue du neurologue et de l’ingénieur, et sur le plan des sciences humaines. La perception spatiale a été bien étudiée sur le plan des mécanismes de localisation. Cependant on connaît moins les mécanismes de ségrégation spatiale, notamment dans le cas de sources multiples, et plus généralement l’organisation perceptive d’une scène sonore.

Une première expérience a été menée pour préciser les indices binauraux, qui déterminent l'organisation de messages parlés concurrents provenant de sources séparées dans l'espace. Cette première expérience était basée uniquement sur des différences de localisation entre les messages concurrents. Différentes modalités de restitution ont été testées, telles que l'indice de retard interaural couplé ou non aux informations spectrales véhiculées par les fonctions de tranfert d'oreille. L'analyse se focalise sur la détection des situations ou paramètres dominant dans la tâche de ségrégation (séparation privilégiée droite/gauche, corrélation du taux de discrimination avec l'écart angulaire ou le retard interaural, etc..). Une deuxième expérience aborde les aspects mettant en jeu un effet de salle, en travaillant notamment sur la notion de largeur de source.

Participants:

Ircam: Reinhard Gretzki, A. Baskind,

Collaboration interne : A. de Cheveigné

1.1.3 Projet CARROUSO

Le projet Carrouso (Creating, Assessing and Rendering in Real Time of High Quality Audio-Visual Environments in MPEG-4 Context) fait l'objet d'un partenariat entre une dizaine d'institutions ou établissements industriels européens parmi lesquels France-Télécom, la société Studer, l'Université de Delft et l'IRT (Institut für Rundfunk Technik) sont les collaborateurs principaux de l'Ircam. Ce projet est dédié à l'enregistrement, la transmission et la restitution d'une scène sonore réelle ou virtuelle préservant ses propriétés perceptives, notamment spatiales, et autorisant leur manipulation interactive. Ce projet s'appuie sur le format de codage MPEG4 qui privilégie, sur le plan de la spatialisation, une approche descriptive et paramétrique de la scène sonore.

Les deux grandes particularités du projet sont, d'une part, le codage par contenu lors de la transmission de la scène sonore et, d'autre part, l'utilisation de l'approche holophonique pour l'enregistrement et la restitution de la scène sonore. Cette approche est choisie afin de dépasser les limites des systèmes conventionnels en termes de fidélité de reproduction sur une zone d'écoute étendue. Pour atteindre cet objectif, de nouvelles techniques de modélisation, d'enregistrement et de restitution sonores sont développées, implantées et évaluées autour de démonstrateurs.

Du côté de la prise de son, le principe envisagé est basé sur l'utilisation d'antennes microphoniques permettant de capter les sources sonores statiques ou mobiles en maximisant le son direct par rapport à l'effet de salle. Les caractéristiques de localisation des sources sonores et de la qualité acoustique de la salle d'émission sont paramétrées dans un format adapté à la transmission.

L'étape de transmission est réalisée dans le contexte du standard MPEG-4 sous la forme d'objets sonores constitués de différents flux sonores (liés aux sources enregistrées) assortis des paramètres de description de la scène sonore : position, orientation, directivité des sources et description physique ou perceptive de la qualité acoustique.

Dans l'espace de restitution, les données transmises sont décodées et traitées afin de reconstituer le champ sonore original en utilisant une approche holophonique pour garantir un résultat perceptif homogène sur une zone d'écoute étendue.

La partie qui incombe à l'Ircam est liée à l'encodage et au décodage de la scène sonore en ce qui concerne la description de la qualité acoustique de la salle. Cette description prend la forme de paramètres destinés à être transmis conjointement avec les signaux des différentes sources sonores dans le cadre du standard MPEG4. Celui-ci prévoit la possibilité de décrire la scène sonore, soit à partir de paramètres physiques et architecturaux, soit à partir de paramètres perceptifs. La description perceptive est déduite d'une conversion entre les paramètres physiques et perceptifs, soit directement à partir des signaux captés par le réseau de microphones.

Modifications in the Spatialisateur interface

A l'occasion du projet Carrouso, un travail a été réalisé pour compléter les modules de contrôle du Spatialisateur. Il est rappelé que le contrôle du Spatialisateur peut s'effectuer à deux niveaux. L'un, dit de bas niveau, correspond à la description simplifiée de la réponse temps-fréquence sous forme d'un ensemble de valeurs énergétiques dans différentes sections temporelles et spectrales, assorties du temps de réverbération en fonction de la fréquence. L'autre, dit de haut-niveau et dénommé Spat_OPer, consigne la traduction de ces paramètres sous forme de facteurs perceptifs qui s'expriment sous la forme de lois de variations des paramètres de bas niveau. Jusqu'alors, seule la traduction haut-niveau vers bas-niveau avait été implantée. Un nouveau module permet de commander le Spatialisateur à partir du bas-niveau et de refléter les conséquences sur l'interface de haut-niveau. Cette fonctionnalité est notamment intéressante lors de l'utilisation de réglages issus de la mesure d'une salle existante : la réponse de la salle donne accès aux paramètres bas niveau, communiqués au Spatialisateur. L'utilisateur peut ensuite reprendre le contrôle par ajustement dans le domaine des facteurs perceptifs.

Scalabilité du Spatialisateur

Le réglage de l'ensemble des facteurs perceptifs présuppose le découpage de la réponse de la salle en quatre sections temporelles. Chacune d'elles fait l'objet d'un module de traitement de signal dédié et contrôlable indépendamment (direct, early, cluster, reverb). Pour s'adapter à la puissance de calcul disponible, notamment lorsque le nombre de sources sonores d'une scène donnée augmente, le Spatialisateur peut être instancié dans une version réduite n'incluant pas les sections de réflexions précoces ou tardives. La réduction du nombre de degrés de liberté est alors palliée par le contrôle du recouvrement temporel entre les sections de premières réflexions et la réverbération tardive et les formules de passage entre facteurs perceptifs et paramètres de bas niveau doivent être adaptées. Par ailleurs pour éviter les problèmes de réduction de la densité de réflexions ou l'apparition de d'écho, la structure de l'algorithme de réverbération a été légèrement modifiée.

Définition d'un outil auteur et d'une interface utilisateur pour Carrouso

Au cours du projet est apparu le besoin d'un outil auteur et d'une interface utilisateur pour créer la scène sonore et interagir avec ses différentes composantes. Dans le cadre de Carrouso, chaque source (ou éventuellement chaque groupe de sources) est enregistrée et transmise individuellement et de façon la plus anéchoïque possible. La position, l'orientation de la source et l'effet de salle associé sont décrits de manière paramétrique et transmis sous la forme d'un flux MPEG-4 séparé. Ce choix permet de prendre en compte les modifications ou interactions à l'étape d'encodage ou de décodage. Un travail de réflexion a été mené pour définir les modalités requises pour ces interfaces en tenant compte notamment des contraintes liées au standard MPEG-4 et au contexte particulier Carrouso. Bien que le contexte applicatif soit différent, il apparaît qu'une partie du travail pourrait être basée sur l'interface ListenSpace décrite dans le paragraphe 1.1.4. Par ailleurs, les mécanismes de transmission de l'interface au sein du flux MPEG-4 ont été étudiés en particulier pour s'adapter au différents contextes de transmission (profiles) : purement audio (audio profile) ou incluant audio et graphique. Dans le cas d'une transmission globale (audio et graphique), la description graphique de l'interface de contrôle et les modalités d'interaction sont elles-mêmes transmises au sein du flux MPEG-4. Dans le cas d'une transmission audio, il reste néanmoins possible de transmettre des contraintes d'interaction sur les différents paramètres de spatisalisation, en particulier pour limiter les plages de variations de différents paramètres de la scène sonore.

Extraction des paramètres perceptifs à partir de la réponse d'une salle.

Dans le cas de la transmission d'une scène sonore réelle, la premiètre étape consiste à associer aux différents signaux sources une description de la scène sonore. Celle-ci peut-être basée sur une caractérisation acoustique des conditions d'enregistrement à partir d'un jeu de réponses impulsionnelles. Le programme d'extraction, implanté dans Matlab, utilise d'une part les modules d'analyse temps-fréquence développés précédemment par l'équipe (Toolbox EDR) et est relié à l'outil-auteur décrit ci-dessus. A partir de la représentation temps-fréquence les différents paramètres perceptifs sont déduits et doivent être transcrits dans le langage de description de scène MPEG-4 (Binary Formats for Scenes, BIFS).

Participant:

Ircam : Riitta Väänänen

Collaborations extérieures principales :

Fraunhofer : Thomas Spörer

Studer: Ulrich Horbach, Etienne Corteel, Renato Pellegrini

FranceTélécom: Yannick Mahieux, Marc Emerit

Technische Universiteit Delft: Diemer de Vries

Erlangen Universität Rudolf Rabinstein

EPFL Giorgio Zoia

Projet financé par la Communauté Européenne dans le cadre de l'appel d'offre IST. Durée 30 mois.

1.1.4 Projet LISTEN

Le projet LISTEN (Augmenting everyday environments through interactive soundscapes), mené en partenariat avec le Fraunhofer Institut (Institut für Media Kunst – IMK), la société AKG, le KunstMuseum de Bonn et l'Université de Vienne, s'inscrit dans le domaine de la réalité augmentée, notion ici considérée principalement dans sa dimension sonore. Le principe de Listen est d'enrichir l'environnement réel par des événements ou espaces sonores individualisés, artistiques ou didactiques, auxquels l'utilisateur accède de manière immersive, transparente, intuitive. L'individualisation des scènes sonores est rendue possible par l'utilisation de casques sans fil, repérés en position et en orientation. Leur aspect intuitif et immersif est obtenu en combinant des modèles comportementaux de chaque utilisateur avec des techniques de spatialisation du son pour la reproduction sur casque.

L'objectif est d'immerger les visiteurs dans une scène sonore qui prolonge l'espace réel dans lequel ils évoluent. Ils portent un casque sans fil muni d'un capteur de position et d'orientation dont les informations sont transmises à un serveur qui délivre, en conséquence, les messages sonores de manière à "fondre" ces événements dans la scène réelle, aussi naturellement que possible. Les messages de paroles, extraits musicaux ou effets sonores sont intégrés dynamiquement dans une scène sonore individualisée en fonction des déplacements du visiteur, son parcours dans l'exposition et ses préférences exprimées explicitement, ou inférées à partir de l'analyse de son comportement. Les signaux sonores peuvent être un commentaire didactique ou la composante sonore et musicale d'une œuvre multi-sensorielle.

La première application envisagée est celle d'un guide audio évolué pour les expositions artistiques ou commerciales. Au cours du projet seront réalisés différents prototypes permettant de mener des études de validation des concepts et des technologies développés. Un prototype virtuel sera conçu pour tester, en laboratoire, les différentes modalités de description et de contrôle de la scène sonore composée par le commissaire d'exposition. Un prototype réel sera installé au Musée de Bonn. Dans un premier temps, des artistes et professionnels de la muséographie seront conviés pour expérimenter l'outil. Dans un second temps, l'exposition réalisée sera ouverte au public, et donnera l'occasion d'une campagne d'évaluation du concept. Le projet Listen aboutira, en 2003, à la démonstration du système dans le cadre d'une exposition au KunstMuseum de Bonn. De manière plus générale, les prototypes réalisés au cours du projet pourront constituer une plateforme d'étude des relations entre audition et vision et ouvrir la voie à des études à dominante cognitive.

Les principaux domaines de recherche impliqués dans le projet sont la modélisation de la scène sonore interactive proposée au visiteur, le moteur de rendu sonore et le développement du dispositif technique. L'équipe acoustique des salles est notamment impliquée dans la conception et la supervision du moteur de rendu sonore, dans les études et développements liés à la modélisation acoustique de la scène sonore et dans la réalisation et l'analyse des tests d'évaluation psycho-perceptive des différents modules développés et des prototypes réalisés.

En termes de restitution sonore, les enjeux technologiques de Listen impliquent des recherches et des développements qui s'incrivent dans le droit fil des travaux déjà réalisés à l'Ircam dans le domaine des techniques binaurales. Les principaux axes de travail sont : l'encodage multicanal du binaural, l'adaptation individuelle de la diffusion sur casque et la transparence entre les espaces sonores réel et virtuel. Par ailleurs, les nouvelles formes de contenu multisensoriel proposées par le projet Listen nécessitent la conception d'un outil-auteur dédié. L'une des particularités de cet outil est d'intégrer dans un système de représentation commun les univers réels (notamment à travers ses contraintes architecturales) et virtuels comprenant à la fois l'incrustation de nouveaux objets sonores ou des modifications globales de la sensation d'espace.

Moteur de spatialisation

L'objectif est de réaliser un moteur de spatialisation qui doit fournir à chaque visiteur une scène sonore tridimensionnelle diffusée sur son casque d'écoute. Le traitement comprend la synthèse de la localisation des différentes sources sonores conformément à la position et l'orientation du visiteur dans le lieu d'exposition et l'ajout d'un effet de salle. Parmi les différents enjeux liés à cette partie de l'étude citons :

la possibilité de traiter simultanément un grand nombre de sources sonores avec un mode de restitution binaural réputé coûteux en termes de puissance de calcul requise. Ce problème se situe dans la continuité des études menées précédemment dans le cadre de la thèse de Véronique Larcher consacrée aux différentes techniques d'encodage d'une scène sonore au format binaural.
l'adaptation individuelle de la restitution binaurale. Les performances de localisation en mode binaural sont, en partie, liées aux caractéristiques morphologiques de l'individu ce qui interdit l'utilisation d'une base de données de HRTF (Head Related Transfer Function) universelle.
l'une des clefs du système envisagé est d'assurer la transparence du système de restitution et la continuité entre le monde réel et le monde virtuel. Cette condition est importante pour préserver les liens sociaux entre les visiteurs et éviter que chacun se sente isolé dans sa "bulle virtuelle".

Format multicanal pour la restitution binaurale

Ce travail s'appuie sur les résultats obtenus par V. Larcher au cours de sa thèse. Il en constitue, dans le cadre du projet européen Listen, la continuation directe. L'élaboration d'espaces sonores complexes, constitués de nombreuses sources sonores restituées en mode binaural, amène à aborder le problème de la réduction des coûts de calculs, en utilisant un format intermédiaire multicanal.

Ces techniques font appel à une décomposition des HRTF (Head Related Transfer Function) sous la forme d'un jeu réduit de filtres de reconstruction. Chaque direction est encodée sous la forme de gains associés à ces filtres, ce qui justifie le terme d'implantation multi-canal de la synthèse binaurale. Une étude a été consacrée à la sélection et à l'optimisation du format le plus approprié au contexte d'utilisation.

Analyse et évaluation objective

Différentes sources Matlab, issues des études précédentes dans le domaines, ont été rassemblées en une toolbox Matlab unique. De nouvelles fonctionnalités ont été ajoutées pour l'évaluation objective :

de la restitution (en particulier l'évaluation de l'ITD)
de la distance spectrale entre les données mesurées et le résultat de la modélisation.

Différentes améliorations possibles de la décomposition statistique des HRTFs (PCA et ICA) ont été envisagées, particulièrement en ce qui concerne la bonne restitution des basses fréquences (warping fréquentiel).

Implémentation temps-réel de ces formats

Les encodeurs et décodeurs issus de cette modélisation ont été implantés sous le double environnement Max et jMax, en prenant parti des paticularités de chacun de ces deux logiciels. La modélisation multicanal a été intégrée dans l'architecture du Spat~.

L'implémentation de la PCA sous forme d'un encodage universel avec décodage individuel, a montré l'intérêt de la scalabilité de la méthode pour la maîtrise de la puissance processeur utilisée, ainsi que de la pertinence de l'adaptation individuelle.

Transparence du casque

L'une des clefs du système envisagé est d'assurer la transparence du système de restitution et la continuité entre le monde réel et le monde virtuel. Cette condition est importante pour préserver les liens sociaux entre les visiteurs et éviter que chacun se sente isolé dans sa "bulle virtuelle". Une étude a été consacrée à la conception d'un dispositif adaptatif de prise de son attaché au casque d'écoute et permettant de capter de manière aussi naturelle que possible les événements sonores extérieurs.

Le contrôle de la transparence a deux objectifs :

la reconstruction du timbre global,
la reconstruction des caractéristiques spatiales.

Après étude des matériels disponibles pour la capture du son (micros de taille et de directivité souhaitées), l'élaboration de premiers prototypes expérimentaux a donné lieu à des mesures en chambre sourde, ainsi qu'à leur analyse. L'écoute qui en a suivi a permis de conclure à l'intéret de la démarche, en particulier au niveau de la recontruction du timbre, qui contribue avec pertinence au naturel de la reconstruction.

L'étude doit etre poursuivie dans le courant de l'année 2002, en particulier sur la reconstruction de la localisation, sur l'optimisation du retard lié au traitement, et sur l'élimination d'effets indésirables (effet larsen).

Participants :

Ircam : V. Larcher, Emmanuel Rio

Outil Auteur Listen Space

ListenSpace est une application graphique permettant de représenter, dans une vue bidimensionnelle, l’ensemble des éléments qui constituent une scène du projet LISTEN. Ces éléments sont tout d’abord d’ordre réel (les murs, les ouvertures, …) : ils permettent d’établir une représentation précise de l’espace physique qui sert de base et de repère à la description des éléments virtuels (sources sonores).

Cette application est destinée, en premier lieu, aux commissaires d’exposition qui assurent l’organisation des œuvres dans le musée. Elle s’adresse donc à un public non-expert en informatique auquel elle doit permettre, suivant des modalités qui lui correspondent, d’intégrer à son travail habituel les aspects relatifs à la réalité augmentée propres à ce projet.

ListenSpace contribue à faire coïncider les deux espaces, réel et virtuel, une des conditions nécessaires à l’obtention de l’effet d’immersion recherché dans LISTEN. L'ensemble de la scène est décrit à partir de la notion de « vertex » qui permet de repérer indistinctement autant les objets de la catégorie « physique » que ceux de la catégorie « virtuelle ».

L’organisation géométrique des objets ne représente qu’une part des possibilités de spécifications envisagées dans ListenSpace. En particulier, l’application permet également de définir – dans la mesure du possible – les propriétés acoustiques des objets représentés. Il en va en particulier des objets « room » et « source » qui rassemblent, à eux deux, les paramètres de l’interface perceptive du Spat~. L’ajustement de ces paramètres peut se faire soit de manière individuelle pour chaque objet, soit à partir d'une notion de modèle partagé par un ensemble d'objets.

Plutôt qu’intégrée directement dans un système existant (jMax ou Avango par exemple), ListenSpace a été conçue comme une application indépendante, capable de communiquer avec le reste de l’environnement LISTEN. La transmission de la scène décrite dans ListenSpace aux autres applications du projet LISTEN peut être effectuée de différentes manières : l’utilisation de fichiers permet de travailler et de stocker localement une description avant de l’intégrer au reste du projet, tandis que la transmission par réseau permet d’échanger, en temps réel, l’intégralité de la description ainsi que les éventuelles modifications qui peuvent intervenir au cours du temps. L’utilisation de protocoles de communication standard laisse envisager un grand nombre d’utilisations du logiciel et, en particulier, autorise la connextion avec d’autres applications comme jMax ou OpenMusic.

En dehors du projet LISTEN, les besoins en termes d’outils auteur se sont présentés à l’IRCAM dans des contextes similaires ou voisins. Par ailleurs, ListenSpace a été conçue de la manière la plus souple possible (Langage Java 1, compatibilité Windows, Mac OS 9 et Linux, interfaces et protocoles de communication standard,…) afin précisément, de s'adapter à différentes variantes du contexte envisagé.

Une application directe de ListenSpace consiste à contrôler le Spat~, de manière plus riche que les interfaces de contrôle existantes et surtout indépendamment de la plateforme matérielle envisagée. L’apport de précision dans la description scénique pourrait notamment avoir des conséquences sur la qualité perçue du rendu sonore.

Par ailleurs, ListenSpace répond de façon assez directe aux besoins qui se sont révélés dans le projet Carrouso. L’application pourrait être utilisée, moyennant de faibles aménagements, comme outil-auteur, à l'étape d’encodage des données numériques, avant la transmission, tandis qu’une version simplifiée, transcrite dans un langage de script compatible avec la norme MPEG-4 serait plus appropriée pour servir d’interface utilisateur lors du décodage [cf projet Carrouso].

Participants :

Ircam : O. Delerue (Conception, développement ListenSpace)

E. Rio (Format binaural multicanal, transparence casque)

V. Larcher (Transparence casque)

S. Roux (développement format multicanal ambisonic)

Collaborations extérieures principales :

IMK-Fraunhofer : Gerhard Eckel, Joachim Gossman, Markus Specht

AKG: Christoph Schwald, Friedrich Reining, Bernd Ruprechter

KunstMuseum Bonn: Ruth Diehl, Christoph Schreier

Technische Universität Wien: Alois Goiser

Projet financé par la Communauté Européenne dans le cadre de l'appel d'offre IST. Durée 36 mois.

1.1.5 Projet RIMM

(Real-time Interactive Multiple Media Content Generation Using High Performance Computing and Multi-Parametric Human-Computer Interfaces)

RIMM consistait en une action de soutien pour la réalisation d'un atelier concert exploitant des systèmes interactifs temps réel pour la manipulation et la génération de contenu multi-média. Le projet a fait l'objet d'une collaboration entre l'Université de York et le SIM (Staatliches Institut für Musikforschung) de Berlin. Plus particulièrement, il s'agissait d'évaluer différentes technologies d'interface et de logiciels de manipulation audio et vidéo dans le cadre d'un projet de création regroupant un compositeur, un artiste vidéaste et un interprète.

La partie dévolue à l'Ircam était liée à la spatialisation et au traitement en temps réel des sons. A cette occasion, l'équipe acoustique des salles a poursuivi le développement des modules de spatialisation liés à la technique ambisonic. Il est rappelé que cette technique de spatialisation, basée sur une décomposition du champ sonore en harmoniques sphériques, présente l'intérêt de fixer la scène sonore dans un format d'encodage intermédiaire constitué d'un nombre limité de canaux indépendants du nombre et de l'organisation spatiale des haut-parleurs du dispositif de reproduction. Lors de la restitution, le document sonore fait l'objet d'un décodage dépendant du dispositif d'écoute.

Décodeurs

Jusqu'à présent, ces modules de décodage avaient été conçus pour un ensemble de configurations figées (nombre et position des haut-parleurs). Le travail a consisté à généraliser ces objets afin de les adapter à une plus grande variété de dispositifs électro-acoustiques. Dans le cadre d’un système Ambisonics horizontal d’ordre 1, il est désormais possible d’utiliser une configuration semi-régulière de haut-parleurs, de nombre quelconque (supérieur ou égal à quatre). Dans le cadre d’un système Ambisonics en trois dimensions d’ordre 1, toute configuration parallélépipèdique de huit haut-parleurs est utilisable (auparavant, une seule configuration fixe existait).

Format Ambisonic d'ordre 2

Afin d’obtenir un meilleur rendu de la scène sonore, des objets externes reposant sur une approche Ambisonic d’ordre supérieur ont été développés. Un module de spatialisation lié au système ambisonics horizontal d’ordre deux est disponible pour des configurations de haut-parleurs semi-régulières. Par rapport au format d'ordre 1, on observe que la zone de validité du champ sonore se trouve élargie, et la localisation des sources est plus précise.

L'ensemble des modules de traitement du signal de la bibliothèque Ambisonics du Spatialisateur a été porté sous forme d'objets externes écrits en langage C. Ce travail a été effectué dans les deux environnements Max/MSP et jMax/FTS. Ce portage a permis d'optimiser considérablement la charge de calcul.

Participants : Sébastien Roux,

Collaboration interne : Equipe Temps Réel

Collaborations externes : University of York, Staatliches Institut für Musikforschung PK

Projet financé par la communauté européenne dans le cadre de l'action IST (Information society technologies)

1.1.6 Le Spatialisateur

Portage sur la plate-forme de montage numérique Pro-Tools de Digidesign (P. Prévot)

Le Spatialisateur existe sur l’outil de montage numérique PRO-TOOLS de DIGIDESIGN, dans une version pour DSP 56002. Cette version subit d’importantes contraintes liées au DSP lui-même et nécessite d'adapter le traitement (localisation, effet de salle). L'architecture reprend les différents modules élémentaires de la librairie du Spatialisateur. Tous les modules de traitement sont compilés et assemblés conditionnellement et exécutés sous contrôle de bypass individuels.

L’interface propose le contrôle du positionnement de la source dans un espace cartésien ou par ses coordonnées polaires. Ce contrôle peut être déconnecté pour donner accès directement aux paramètres de traitement. Tous les paramètres de traitement, même de plus bas niveau, sont contrôlables, par un jeu de différentes fenêtres. L'effet de salle est contrôlable par facteurs perceptifs ou par les paramètres de bas-niveau.

Quatre plugIns distincts peuvent tourner sur 56002:

- Réverbération complète constitué de 8 canaux de rebouclage, avec module Early sans filtrage, module Cluster, sans traitement du son direct.

- Tranche "direct" et traitement binaural, sans effet Doppler, avec réverbération à 4 canaux, sans Cluster.

- Version à 4 canaux contenant tout sauf la réverbération proprement dite.

- Version à 4 canaux contenant tout sauf les fonctions de transfert d'oreille.

La carte DigiDesign à base de 56002 (carte « Farm ») présente 3 DSP. En termes de précision, on se heurte aux faiblesses du calcul en entier, qui ne peuvent être palliées que par la double précision, engendrant un accroissement du temps d’exécution. Différentes solutions ont été explorées pour améliorer la qualité des filtres en calcul entier. La limitation du DSP en registres et accumulateurs rend un filtre en double précision presque trois fois plus long qu’en simple précision. En termes de temps, on se heurte aux limitations de vitesse des DSP et de mémoire interne disponible. La puissance de calcul disponible sur un DSP 56300 permet d’implémenter une version complète sur un seul DSP (présent en 6 exemplaires sur la carte ProTools IV). Le Spatialisateur est aujourd’hui adapté à la version 5.1du logiciel ProTools, avec sa capacité à sortir en format multi-canaux, ainsi qu’à exploiter les DSP 56300.

Participants à l'Ircam :

[Portage sur environnement Digidesign] P. Prévot

Librairie d'objets de spatialisation Spat

Les principales évolutions du Spatialisateur concernent la poursuite des travaux d'implémentation de modules de localisation et le développement d'un outil de contrôle général.

La librairie du Spatialisateur a été enrichie de modules de localisation tri-dimentionnel sur haut-parleurs et sur casque. En particulier, les modules liés à la technologie Ambisonics (encodeurs, matrices de transformations, décodeurs) ont été écrits sous forme d'objets externes et ont été complétés par l'adjonction de modules d'ordre supérieur (ordre 2 en 2D et 3D). Par ailleurs la technique de reproduction sur casque (binaurale) a fait l'objet d'une nouvelle implantation multi-canal décrite au § Erreur ! Source du renvoi introuvable. et disponible dans les environnements Max/MSP et jMax. Le format Ambisonic présente l'avantage de rendre possibles des manipulations du champ sonore après encodage. Ces manipulations, sous formes de rotation et de focus, ont donné lieu à l'implémentation d'objets jmax, comprenant la partie traitement du signal et l'interface adaptée (Trackball pour rotation 3D et contrôle du focus).

Pour le contrôle, l'évolution majeure repose sur le développement de ListenSpace (cf § 1.1.4). Cette application, développée en Java, permet de contrôler le Spatialisateur à travers un port de communication. Ce choix technique permet notamment de s'adresser indifféremment aux versions du Spatialisateur fonctionnant sous environnement Linux ou MacOS.

Participants à l'Ircam :

[Développement Max/MSP et jMax] O. Delerue, E. Rio, S. Roux,

1.1.7 Projet Orgues – Palais des Beaux Arts de Bruxelles

En parallèle à la construction de l'orgue du Palais des Beaux-Arts de Bruxelles par Georg Westenfelder et la société Syncordia, l'IRCAM a été chargé de concevoir le prototype d'un système de synthèse sonore pouvant s'adjoindre à l'orgue (de facture classique) et étendre les possibilités de registration sonore. Les principales fonctions à étudier sont les procédés de synthèse pour la création ou la transformation de sons étendant la palette sonore de l'orgue et les procédés de diffusion sonore intégrant des fonctions de spatialisation. Ce projet met en jeu les compétences des deux équipes Acoustique des salles et Analyse-Synthèse.

Le travail réalisé au sein de l'équipe acoustique des salles concerne principalement les études de diffusion et spatialisation du son. Ainsi, une campagne de mesure de réponses impulsionnelles a été effectuée dans la salle du PBA en plusieurs points de mesures et plusieurs configurations de sources. Ces données ont été partiellement dépouillées et devraient permettre de simuler la réponse de la salle dans un système d'écoute déporté. Les prochaines étapes, réalisées en 2002, concerneront :

- la mise en place d'une session d'échantillonnage d'une série représentative de jeux de l'orgue à tuyau.

- l'étude du dispositif électroacoustique nécessaire à la diffusion des sons de synthèse. Différentes possibilités de spatialisation du son seront étudiées, notamment l'ajout d'effet de localisation, de réverbération ou encore l'utilisation de dispositif de diffusion à directivité variable.

- l'étude d'un dispositif de restitution en laboratoire ou en situation de répétition (casque ou haut-parleurs).

Participants

Ircam : Vincent Rioux, Manuel Poletti

1.1.8 Conseil acoustique auprès de l'Orchestre de Paris

L'Ircam s'est vu confier une mission de conseil auprès de l’Orchestre de Paris pour les corrections acoustiques nécessitées par sa mise en résidence dans le théâtre Mogador. Après caractérisation objective du théâtre une première tranche de travaux a été effectuée. Les modifications principales concernent l'élargissement du cadre de scène et le remplacement du sol et des sièges des espaces spectateurs. En raison de la faible volumétrie du théâtre, et sa réponse acoustique inadaptée, il s'avère nécessaire d’adjoindre aux corrections acoustiques traditionnelles un système électroacoustique permettant de simuler les conditions acoustiques requises par l’activité symphonique.

Compte tenu des particularités architecturales et acoustiques de la salle (ensemble de volumes couplés entre la scène, la salle et les secteurs sous balcons), il faut recourir à un système conçu spécifiquement pour ce lieu. Ce système pourra reposer sur une conception hybride entre les propositions actuellement disponibles sur le marché. Cette partie du travail sera réalisée en 2002.

Collaboration extérieure : Kahle Acoustics.

Participant : B. Katz (2 mois).

Publications et rapports d'étude en 2001

[Baskind01] Baskind, A. Warusfel O., Monaural and binaural processing for automatic estimation of room acoustics perceptual attributes, proc 17th International Congress on Acoustics, 2001

[Heidet01] Heidet A., Warusfel O., Vandernoot G., Saint-Loubry B., Kemeny A., A cost effective architecture for realistic sound rendering in the SCANeR II driving simulator, Human Centered Transportation Simulation Conference, Iowa City, November 2001.

[Larcher 01] Larcher V., Techniques de spatialisation des sons pour la réalité virtuelle, Thèse de l'Université Paris 6, Mai 2001.

[Misdariis 01a] Misdariis N., Nicolas F., Warusfel O., Caussé R., Radiation control on multi-loudspeaker device : La Timée ’’ - XX^th International Computer Music Conference (ICMC) - septembre 2001 :

[Misdariis 01b], Misdariis N., Warusfel O., Caussé R., Radiation control on multi-loudspeaker device - XX^th International Symposium on Musical Acoustics (ISMA) - septembre 2001

[Vandernoot 01a] Vandernoot G., Warusfel O., Spectral characterization of listening conditions in car cabins, 17th International Congress on Acoustics, september, 2001, Rome

[Vandernoot 01b] Vandernoot G., Caractérisation et optimisation de la restitution Haute-Fidélité en véhicule. Thèse de l'université Paris 6, décembre 2001.

[Warusfel 01a] Warusfel O., Misdariis N., Directivity synthesis with a 3D array of loudspeakers - Application for stage performance, Digital Audio Effects 2001 (DAFx) - décembre 2001

Jury de thèse

Véronique Larcher, Techniques de spatialisation des sons pour la réalité virtuelle, Thèse de l'Université Paris 6. Mai 2001.

Guillaume Vandernoot, Caractérisation et optimisation de la restitution Haute-Fidélité en véhicule, Thèse de l'Université Paris 6. Décembre 2001.

Production musicale et post-production

François Nicolas, Eric Daubresse : création de Duelle

Membres de l'équipe

Olivier Warusfel Responsable

Olivier Delerue Chargé de recherche & développement

Reinhard Gretzki Chargé de recherche (oct-dec 01)

Véronique Larcher Chargé de recherche (fév 01)

Philippe Prévot Ingénieur du Ministère de la Culture

Emmanuel Rio Chargé de recherche & développement

Sébastien Roux Chargé de recherche & développement

Riitta Väänanen Chargé de recherche

Chercheurs stagiaires et étudiants

Alexis Baskind Thèse Universtité Paris 6

Magali Deschamps Stage ingénieur CNSMDP

Véronique Larcher Thèse Université Paris 6

Guillaume Vandernoot Thèse Université Paris 6

Collaborations internes

Analyse Synthèse Vincent Rioux

Perception, Cognition Musicales Alain de Cheveigné, Suzanne Winsberg

Design sonore Nicolas Misdariis

Production Eric Daubresse, Manuel Poletti

Temps Réel François Dechelle, Norbert Schnell

Compositeur

François Nicolas

Collaborations externes

AKG

EPFL (Ecole Polytechnique Fédérale de Lausanne)

France Télécom R&D

Fraunhofer AEMT

Fraunhofer-Gesellschaft IMK (Institut für Media Kunst)

IRT (Institut für Rundfunk Technik)

KunstMuseum de Bonn

Renault S.A.

Technische Universiteit Delft

Universität Erlangen

Technische Universität Wien

School of Sound

Studer