Responsable : Olivier Warusfel
L'activité de l'équipe Acoustique des Salles a été principalement consacrée ces dernières années aux procédés de synthèse et de contrôle des scènes sonores. Cette activité a suscité des collaborations internes avec l'équipe temps-réel (jMax), l'équipe Perception et Cognition Musicales (perception spatiale) et l'équipe Design Sonore (source à directivité variable). Sur le plan musical, les développements ont permis d'établir une solide collaboration avec la communauté des compositeurs et assistants musicaux autour des questions de spatialisation. Au-delà du terrain musical, ces recherches et développements trouvent également des applications dans les domaines de la réalité virtuelle ou de la communication, et ont motivé de nouvelles collaborations tant universitaires qu'industrielles.
L'année 2001 a été marquée par l'initiation de différents projets européens (Carrouso, Listen et Rimm). Ces projets constituent simultanément l'aboutissement des travaux menés précédemment et le point de départ de nouveaux thèmes de recherche. Ils fournissent notamment l'occasion d'intégrer les outils de spatialisation et de contrôle d'une scène sonore (modèles perceptifs et physiques) dans des contextes applicatifs nouveaux pour l'Ircam : le codage et la transmission de spectacles ou de scènes sonores (Carrouso) ou la réalité augmentée (Listen). Ces applications induisent de nouveaux champs de réflexion, en particulier sur les technologies de reproduction du champ acoustique, et les modalités de contrôle d'une scène sonore dans un environnement interactif et multi-sensoriel.
L'objectif de ce travail
est de développer des techniques d'estimation des
caractéristiques spatiales d'une scène sonore à partir
d'un enregistrement multi-canal. Les travaux généralement
menés s'attachent à extraire uniquement l'information de
localisation des sources. L'ambition est ici plus large car l'estimation vise
également les aspects liés à l'effet de salle. D'autre
part, l'extraction doit se faire sans connaissance a priori de la
réponse impulsionnelle de la salle ou de sa géométrie.
Parmi les applications envisagées, citons l'incrustation
d'événements sonores dans une scène
pré-enregistrée ou encore le doublage cinématographique.
Dans ces deux situations, l'enjeu est de mettre en cohérence les
événements rapportés avec la scène
pré-existante.
Les
caractéristiques spatiales peuvent être regroupées en trois
catégories :
-
les attributs inhérents à la salle; ceux-ci ne sont
liés qu'à la géométrie et aux
propriétés physiques des matériaux (temps de
réverbération, densité de réflexions,
réponse en fréquence de la salle), et peuvent reposer sur une
analyse monophonique.
-
les caractéristiques spatiales de la source,
c'est-à-dire principalement sa localisation et son éloignement
par rapport à la cible. Leur détermination nécessite une
analyse multicanal (stéréophonie, binaural).
-
les attributs reposant sur les liens entre la source et la salle.
Par exemple, la directivité de la source aura une grande influence sur
la densité de réflexions latérales, et donc sur
l'impression d'espace. La aussi, l'estimation de ces attributs nécessite
plusieurs canaux.
L'étude menée jusqu'ici a consisté
à développer des outils permettant de révéler les
aspects plus ou moins bas-niveau de l'effet de salle, comme la distribution
temporelle et l'amplitude des réflexions précoces, ou le temps de
réverbération. Les techniques cepstrales de déconvolution
homomorphique servent à isoler, sur chaque canal, l'information
stationnaire (principalement l'effet de salle) de l'information fluctuante (le
signal). Les méthodes d'analyse de champ diffus par décroissance
intégrée peuvent être appliquées à
l'étude de la réverbération lors d'un transitoire
d'extinction du signal.
La seconde voie est
l'utilisation de modèles binauraux pour l'analyse des indices spatiaux.
En employant des techniques de modélisation de l'audition, de l'oreille
(cochléogrammes) au système nerveux (analyses par
corrélation, ou égalisation-annulation), et en nous inspirant des
techniques de détection de hauteur spectrale et de localisation que l'on
trouve dans la littérature, nous avons cherché à
révéler les réflexions précoces et tardives, pour
estimer ensuite les différents attributs de l'effet de salle.
Les prochaines étapes seront consacrées
notamment à l'intégration de ces outils pour former l'estimation
des descripteurs de plus haut-niveau comme les facteurs perceptifs
utilisés dans le Spatialisateur et le format MPEG-4. L'idée est
de concevoir, à terme, un moteur d'analyse/prédiction
intégrant une série de méthodes heuristiques
privilégiant l'estimation de certains paramètres en fonction de
la nature du signal observé. Ces méthodes tenteront de s'inspirer
de l'audition qui se focalise sur des aspects spatiaux différents en
fonction du message sonore. Ainsi, il est par exemple plus facile de juger de
la réverbérance lors d'une extinction brusque plutôt que
durant le discours musical. Il est également plus difficile de juger des
aspects liés à la source lorsque celle-ci diffuse un son
stationnaire et périodique. On peut aisément corréler ces
particularités de notre audition à nos différents outils,
qui fournissent des résultats plus ou moins fiables en fonction du
message sonore. De fait, il paraît judicieux de concevoir un moteur
pouvant, en fonction du message sonore, piloter les modules d'analyse et les
focaliser sur les aspects les plus pertinents de l'effet de salle, juger de la
qualité de l'estimation fournie et confronter celle-ci avec les
estimations obtenues au préalable.
Participants
:
Ircam
: A. Baskind
Financement : MESR.
Ce
projet concerne l’étude des facteurs spatiaux qui régissent
l’organisation perceptive d’une scène sonore. La notion
d’espace est simultanément considérée comme une
dimension particulière de la représentation cognitive et comme
facteur intervenant dans les mécanismes de ségrégation
entre les constituants élémentaires d’une scène
sonore Ce projet mené en collaboration avec l’équipe
Perception/Cognition vise à traiter le sujet à la fois sur le
plan scientifique en abordant les points de vue du neurologue et de
l’ingénieur, et sur le plan des sciences humaines. La perception
spatiale a été bien étudiée sur le plan des
mécanismes de localisation. Cependant on connaît moins les
mécanismes de ségrégation spatiale, notamment dans le cas
de sources multiples, et plus généralement l’organisation
perceptive d’une scène sonore.
Une première expérience a
été menée pour préciser les indices binauraux, qui
déterminent l'organisation de messages parlés concurrents
provenant de sources séparées dans l'espace. Cette
première expérience était basée uniquement sur des
différences de localisation entre les messages concurrents.
Différentes modalités de restitution ont été
testées, telles que l'indice de retard interaural couplé ou non
aux informations spectrales véhiculées par les fonctions de
tranfert d'oreille. L'analyse se focalise sur la détection des
situations ou paramètres dominant dans la tâche de
ségrégation (séparation privilégiée
droite/gauche, corrélation du taux de discrimination avec l'écart
angulaire ou le retard interaural, etc..). Une deuxième
expérience aborde les aspects mettant en jeu un effet de salle, en
travaillant notamment sur la notion de largeur de source.
Participants:
Ircam: Reinhard Gretzki, A. Baskind,
Collaboration interne : A. de
Cheveigné
Le projet Carrouso (Creating, Assessing
and Rendering in Real Time of High Quality Audio-Visual Environments in MPEG-4
Context) fait l'objet d'un partenariat entre une dizaine d'institutions ou
établissements industriels européens parmi lesquels
France-Télécom, la société Studer,
l'Université de Delft et l'IRT (Institut für Rundfunk Technik) sont
les collaborateurs principaux de l'Ircam. Ce projet est dédié
à l'enregistrement, la transmission et la restitution d'une scène
sonore réelle ou virtuelle préservant ses
propriétés perceptives, notamment spatiales, et autorisant leur
manipulation interactive. Ce projet s'appuie sur le format de codage MPEG4 qui
privilégie, sur le plan de la spatialisation, une approche descriptive
et paramétrique de la scène sonore.
Les deux grandes particularités du projet sont, d'une
part, le codage par contenu lors de la transmission de la scène sonore
et, d'autre part, l'utilisation de l'approche holophonique pour
l'enregistrement et la restitution de la scène sonore. Cette approche
est choisie afin de dépasser les limites des systèmes
conventionnels en termes de fidélité de reproduction sur une zone
d'écoute étendue. Pour atteindre cet objectif, de nouvelles
techniques de modélisation, d'enregistrement et de restitution sonores
sont développées, implantées et évaluées
autour de démonstrateurs.
Du côté de
la prise de son, le principe envisagé est basé sur l'utilisation
d'antennes microphoniques permettant de capter les sources sonores statiques ou
mobiles en maximisant le son direct par rapport à l'effet de salle. Les
caractéristiques de localisation des sources sonores et de la
qualité acoustique de la salle d'émission sont
paramétrées dans un format adapté à la
transmission.
L'étape de
transmission est réalisée dans le contexte du standard MPEG-4
sous la forme d'objets sonores constitués de différents flux
sonores (liés aux sources enregistrées) assortis des
paramètres de description de la scène sonore : position,
orientation, directivité des sources et description physique ou
perceptive de la qualité acoustique.
Dans l'espace de
restitution, les données transmises sont décodées et
traitées afin de reconstituer le champ sonore original en utilisant une
approche holophonique pour garantir un résultat perceptif
homogène sur une zone d'écoute étendue.
La partie qui incombe
à l'Ircam est liée à l'encodage et au décodage de
la scène sonore en ce qui concerne la description de la qualité
acoustique de la salle. Cette description prend la forme de paramètres
destinés à être transmis conjointement avec les signaux des
différentes sources sonores dans le cadre du standard MPEG4. Celui-ci
prévoit la possibilité de décrire la scène sonore,
soit à partir de paramètres physiques et architecturaux, soit
à partir de paramètres perceptifs. La description perceptive est
déduite d'une conversion entre les paramètres physiques et
perceptifs, soit directement à partir des signaux captés par le
réseau de microphones.
A l'occasion
du projet Carrouso, un travail a été réalisé pour
compléter les modules de contrôle du Spatialisateur. Il est
rappelé que le contrôle du Spatialisateur peut s'effectuer
à deux niveaux. L'un, dit de bas niveau, correspond à la
description simplifiée de la réponse temps-fréquence sous
forme d'un ensemble de valeurs énergétiques dans
différentes sections temporelles et spectrales, assorties du temps de
réverbération en fonction de la fréquence. L'autre, dit de
haut-niveau et dénommé Spat_OPer, consigne la traduction de ces
paramètres sous forme de facteurs perceptifs qui s'expriment sous la
forme de lois de variations des paramètres de bas niveau. Jusqu'alors,
seule la traduction haut-niveau vers bas-niveau avait été
implantée. Un nouveau module permet de commander le Spatialisateur
à partir du bas-niveau et de refléter les conséquences sur
l'interface de haut-niveau. Cette fonctionnalité est notamment
intéressante lors de l'utilisation de réglages issus de la mesure
d'une salle existante : la réponse de la salle donne accès aux
paramètres bas niveau, communiqués au Spatialisateur.
L'utilisateur peut ensuite reprendre le contrôle par ajustement dans le
domaine des facteurs perceptifs.
Le réglage de l'ensemble des
facteurs perceptifs présuppose le découpage de la réponse
de la salle en quatre sections temporelles. Chacune d'elles fait l'objet d'un
module de traitement de signal dédié et contrôlable
indépendamment (direct, early, cluster, reverb). Pour s'adapter à
la puissance de calcul disponible, notamment lorsque le nombre de sources
sonores d'une scène donnée augmente, le Spatialisateur peut
être instancié dans une version réduite n'incluant pas les
sections de réflexions précoces ou tardives. La réduction
du nombre de degrés de liberté est alors palliée par le
contrôle du recouvrement temporel entre les sections de premières
réflexions et la réverbération tardive et les formules de
passage entre facteurs perceptifs et paramètres de bas niveau doivent
être adaptées. Par ailleurs pour éviter les
problèmes de réduction de la densité de réflexions
ou l'apparition de d'écho, la structure de l'algorithme de réverbération
a été légèrement modifiée.
Au cours du
projet est apparu le besoin d'un outil auteur et d'une interface utilisateur
pour créer la scène sonore et interagir avec ses
différentes composantes. Dans le cadre de Carrouso, chaque source (ou
éventuellement chaque groupe de sources) est enregistrée et
transmise individuellement et de façon la plus anéchoïque
possible. La position, l'orientation de la source et l'effet de salle
associé sont décrits de manière paramétrique et
transmis sous la forme d'un flux MPEG-4 séparé. Ce choix permet
de prendre en compte les modifications ou interactions à l'étape
d'encodage ou de décodage. Un travail de réflexion a
été mené pour définir les modalités requises
pour ces interfaces en tenant compte notamment des contraintes liées au
standard MPEG-4 et au contexte particulier Carrouso. Bien que le contexte
applicatif soit différent, il apparaît qu'une partie du travail
pourrait être basée sur l'interface ListenSpace décrite
dans le paragraphe 1.1.4. Par ailleurs, les mécanismes de transmission
de l'interface au sein du flux MPEG-4 ont été
étudiés en particulier pour s'adapter au différents
contextes de transmission (profiles) : purement audio (audio profile) ou
incluant audio et graphique. Dans le cas d'une transmission globale (audio et
graphique), la description graphique de l'interface de contrôle et les
modalités d'interaction sont elles-mêmes transmises au sein du
flux MPEG-4. Dans le cas d'une transmission audio, il reste néanmoins
possible de transmettre des contraintes d'interaction sur les différents
paramètres de spatisalisation, en particulier pour limiter les plages de
variations de différents paramètres de la scène sonore.
Dans le cas de la
transmission d'une scène sonore réelle, la premiètre
étape consiste à associer aux différents signaux sources
une description de la scène sonore. Celle-ci peut-être basée sur une
caractérisation acoustique des conditions d'enregistrement à
partir d'un jeu de réponses impulsionnelles. Le programme d'extraction,
implanté dans Matlab, utilise d'une part les modules d'analyse
temps-fréquence développés précédemment par
l'équipe (Toolbox EDR) et est relié à l'outil-auteur
décrit ci-dessus. A partir de la représentation
temps-fréquence les différents paramètres perceptifs sont
déduits et doivent être transcrits dans le langage de description
de scène MPEG-4 (Binary Formats for Scenes, BIFS).
Participant:
Ircam : Riitta
Väänänen
Collaborations
extérieures principales :
Fraunhofer
: Thomas
Spörer
Studer: Ulrich
Horbach, Etienne Corteel, Renato Pellegrini
FranceTélécom:
Yannick
Mahieux, Marc Emerit
Technische
Universiteit Delft: Diemer
de Vries
Erlangen
Universität Rudolf
Rabinstein
EPFL Giorgio
Zoia
Projet financé par la
Communauté Européenne dans le cadre de l'appel d'offre IST.
Durée 30 mois.
Le projet LISTEN (Augmenting everyday environments through interactive soundscapes), mené en partenariat avec le Fraunhofer Institut (Institut für Media Kunst – IMK), la société AKG, le KunstMuseum de Bonn et l'Université de Vienne, s'inscrit dans le domaine de la réalité augmentée, notion ici considérée principalement dans sa dimension sonore. Le principe de Listen est d'enrichir l'environnement réel par des événements ou espaces sonores individualisés, artistiques ou didactiques, auxquels l'utilisateur accède de manière immersive, transparente, intuitive. L'individualisation des scènes sonores est rendue possible par l'utilisation de casques sans fil, repérés en position et en orientation. Leur aspect intuitif et immersif est obtenu en combinant des modèles comportementaux de chaque utilisateur avec des techniques de spatialisation du son pour la reproduction sur casque.
L'objectif est d'immerger les visiteurs dans une scène
sonore qui prolonge l'espace réel dans lequel ils évoluent. Ils
portent un casque sans fil muni d'un capteur de position et d'orientation dont
les informations sont transmises à un serveur qui délivre, en
conséquence, les messages sonores de manière à
"fondre" ces événements dans la scène
réelle, aussi naturellement que possible. Les messages de paroles,
extraits musicaux ou effets sonores sont intégrés dynamiquement
dans une scène sonore individualisée en fonction des
déplacements du visiteur, son parcours dans l'exposition et ses
préférences exprimées explicitement, ou
inférées à partir de l'analyse de son comportement. Les
signaux sonores peuvent être un commentaire didactique ou la composante
sonore et musicale d'une œuvre multi-sensorielle.
La première application
envisagée est celle d'un guide audio évolué pour les
expositions artistiques ou commerciales. Au cours du projet seront
réalisés différents prototypes permettant de mener des
études de validation des concepts et des technologies développés.
Un prototype virtuel sera conçu pour tester, en laboratoire, les
différentes modalités de description et de contrôle de la
scène sonore composée par le commissaire d'exposition. Un
prototype réel sera installé au Musée de Bonn. Dans un
premier temps, des artistes et professionnels de la muséographie seront
conviés pour expérimenter l'outil. Dans un second temps,
l'exposition réalisée sera ouverte au public, et donnera
l'occasion d'une campagne d'évaluation du concept. Le projet Listen
aboutira, en 2003, à la démonstration du système dans le cadre
d'une exposition au KunstMuseum de Bonn. De manière plus
générale, les prototypes réalisés au cours du
projet pourront constituer une plateforme d'étude des relations entre
audition et vision et ouvrir la voie à des études à
dominante cognitive.
Les principaux domaines de recherche impliqués dans le
projet sont la modélisation de la scène sonore interactive
proposée au visiteur, le moteur de rendu sonore et le
développement du dispositif technique. L'équipe acoustique des
salles est notamment impliquée dans la conception et la supervision du
moteur de rendu sonore, dans les études et développements
liés à la modélisation acoustique de la scène
sonore et dans la réalisation et l'analyse des tests d'évaluation
psycho-perceptive des différents modules développés et des
prototypes réalisés.
En termes de restitution sonore, les
enjeux technologiques de Listen impliquent des recherches et des
développements qui s'incrivent dans le droit fil des travaux
déjà réalisés à l'Ircam dans le domaine des
techniques binaurales. Les principaux axes de travail sont : l'encodage
multicanal du binaural, l'adaptation individuelle de la diffusion sur casque et
la transparence entre les espaces sonores réel et virtuel. Par ailleurs,
les nouvelles formes de contenu multisensoriel proposées par le projet
Listen nécessitent la conception d'un outil-auteur dédié.
L'une des particularités de cet outil est d'intégrer dans un
système de représentation commun les univers réels
(notamment à travers ses contraintes architecturales) et virtuels
comprenant à la fois l'incrustation de nouveaux objets sonores ou des
modifications globales de la sensation d'espace.
L'objectif est de réaliser un
moteur de spatialisation qui doit fournir à chaque visiteur une
scène sonore tridimensionnelle diffusée sur son casque
d'écoute. Le traitement comprend la synthèse de la localisation
des différentes sources sonores conformément à la position
et l'orientation du visiteur dans le lieu d'exposition et l'ajout d'un effet de
salle. Parmi les différents enjeux liés à cette partie de
l'étude citons :
Ce
travail s'appuie sur les résultats obtenus par V. Larcher au cours de sa
thèse. Il en constitue, dans le cadre du projet européen Listen,
la continuation directe. L'élaboration d'espaces sonores complexes,
constitués de nombreuses sources sonores restituées en mode
binaural, amène à aborder le problème de la
réduction des coûts de calculs, en utilisant un format intermédiaire
multicanal.
Ces techniques font appel à une décomposition
des HRTF (Head Related Transfer Function) sous la forme d'un jeu réduit
de filtres de reconstruction. Chaque direction est encodée sous la forme
de gains associés à ces filtres, ce qui justifie le terme
d'implantation multi-canal de la synthèse binaurale. Une étude a
été consacrée à la sélection et à
l'optimisation du format le plus approprié au contexte d'utilisation.
Analyse et évaluation objective
Différentes
sources Matlab, issues des études précédentes dans le
domaines, ont été rassemblées en une toolbox Matlab
unique. De nouvelles fonctionnalités ont été
ajoutées pour l'évaluation objective :
Différentes
améliorations possibles de la décomposition statistique des HRTFs
(PCA et ICA) ont été envisagées, particulièrement
en ce qui concerne la bonne restitution des basses fréquences (warping
fréquentiel).
Implémentation temps-réel de ces formats
Les
encodeurs et décodeurs issus de cette modélisation ont
été implantés sous le double environnement Max et jMax, en
prenant parti des paticularités de chacun de ces deux logiciels. La
modélisation multicanal a été intégrée dans
l'architecture du Spat~.
L'implémentation
de la PCA sous forme d'un encodage universel avec décodage individuel, a
montré l'intérêt de la scalabilité de la
méthode pour la maîtrise de la puissance processeur
utilisée, ainsi que de la pertinence de l'adaptation individuelle.
L'une des clefs du système envisagé est
d'assurer la transparence du système de restitution et la
continuité entre le monde réel et le monde virtuel. Cette
condition est importante pour préserver les liens sociaux entre les
visiteurs et éviter que chacun se sente isolé dans sa "bulle
virtuelle". Une étude a été consacrée à
la conception d'un dispositif adaptatif de prise de son attaché au
casque d'écoute et permettant de capter de manière aussi
naturelle que possible les événements sonores extérieurs.
Le
contrôle de la transparence a deux objectifs :
Après
étude des matériels disponibles pour la capture du son (micros de
taille et de directivité souhaitées), l'élaboration de
premiers prototypes expérimentaux a donné lieu à des
mesures en chambre sourde, ainsi qu'à leur analyse. L'écoute qui
en a suivi a permis de conclure à l'intéret de la
démarche, en particulier au niveau de la recontruction du timbre, qui
contribue avec pertinence au naturel de la reconstruction.
L'étude
doit etre poursuivie dans le courant de l'année 2002, en particulier sur
la reconstruction de la localisation, sur l'optimisation du retard lié
au traitement, et sur l'élimination d'effets indésirables (effet
larsen).
Participants
:
Ircam
: V. Larcher, Emmanuel Rio
ListenSpace est une application graphique
permettant de représenter, dans une vue bidimensionnelle,
l’ensemble des éléments qui constituent une scène du
projet LISTEN. Ces éléments sont tout d’abord d’ordre
réel (les murs, les ouvertures, …) : ils permettent d’établir
une représentation précise de l’espace physique qui sert de
base et de repère à la description des éléments
virtuels (sources sonores).
Cette application est destinée, en
premier lieu, aux commissaires d’exposition qui assurent
l’organisation des œuvres dans le musée. Elle s’adresse
donc à un public non-expert en informatique auquel elle doit permettre,
suivant des modalités qui lui correspondent, d’intégrer
à son travail habituel les aspects relatifs à la
réalité augmentée propres à ce projet.
ListenSpace contribue à faire
coïncider les deux espaces, réel et virtuel, une des conditions
nécessaires à l’obtention de l’effet
d’immersion recherché dans LISTEN. L'ensemble de la scène
est décrit à partir de la notion de
« vertex » qui permet de repérer indistinctement
autant les objets de la catégorie « physique » que
ceux de la catégorie « virtuelle ».
L’organisation
géométrique des objets ne représente qu’une part des
possibilités de spécifications envisagées dans
ListenSpace. En particulier, l’application permet également de
définir – dans la mesure du possible – les
propriétés acoustiques des objets représentés. Il
en va en particulier des objets « room » et
« source » qui rassemblent, à eux deux, les
paramètres de l’interface perceptive du Spat~. L’ajustement
de ces paramètres peut se faire soit de manière individuelle pour
chaque objet, soit à partir d'une notion de modèle partagé
par un ensemble d'objets.
Plutôt
qu’intégrée directement dans un système existant
(jMax ou Avango par exemple), ListenSpace a été conçue
comme une application indépendante, capable de communiquer avec le reste
de l’environnement LISTEN. La transmission de la scène
décrite dans ListenSpace aux autres applications du projet LISTEN peut
être effectuée de différentes manières :
l’utilisation de fichiers permet de travailler et de stocker localement
une description avant de l’intégrer au reste du projet, tandis que
la transmission par réseau permet d’échanger, en temps
réel, l’intégralité de la description ainsi que les
éventuelles modifications qui peuvent intervenir au cours du temps.
L’utilisation de protocoles de communication standard laisse envisager un
grand nombre d’utilisations du logiciel et, en particulier, autorise la
connextion avec d’autres applications comme jMax ou OpenMusic.
En dehors du projet LISTEN, les besoins en
termes d’outils auteur se sont présentés à
l’IRCAM dans des contextes similaires ou voisins. Par ailleurs,
ListenSpace a été conçue de la manière la plus
souple possible (Langage Java 1, compatibilité Windows, Mac OS 9 et
Linux, interfaces et protocoles de communication standard,…) afin
précisément, de s'adapter à différentes variantes
du contexte envisagé.
Une application directe de ListenSpace
consiste à contrôler le Spat~, de manière plus riche que
les interfaces de contrôle existantes et surtout indépendamment de
la plateforme matérielle envisagée. L’apport de
précision dans la description scénique pourrait notamment avoir
des conséquences sur la qualité perçue du rendu sonore.
Par ailleurs, ListenSpace répond de
façon assez directe aux besoins qui se sont révélés
dans le projet Carrouso. L’application pourrait être
utilisée, moyennant de faibles aménagements, comme outil-auteur,
à l'étape d’encodage des données numériques,
avant la transmission, tandis qu’une version simplifiée,
transcrite dans un langage de script compatible avec la norme MPEG-4 serait
plus appropriée pour servir d’interface utilisateur lors du
décodage [cf projet Carrouso].
Participants
:
Ircam
: O. Delerue (Conception,
développement ListenSpace)
E. Rio (Format binaural multicanal, transparence casque)
V. Larcher (Transparence casque)
S. Roux (développement format multicanal ambisonic)
Collaborations
extérieures principales :
IMK-Fraunhofer
: Gerhard
Eckel, Joachim Gossman, Markus Specht
AKG: Christoph
Schwald, Friedrich Reining, Bernd Ruprechter
KunstMuseum
Bonn: Ruth
Diehl, Christoph Schreier
Technische
Universität Wien: Alois
Goiser
Projet financé par la
Communauté Européenne dans le cadre de l'appel d'offre IST.
Durée 36 mois.
(Real-time Interactive Multiple Media
Content Generation Using High Performance Computing and Multi-Parametric
Human-Computer Interfaces)
RIMM consistait en une action de soutien
pour la réalisation d'un atelier concert exploitant des systèmes
interactifs temps réel pour la manipulation et la
génération de contenu multi-média. Le projet a fait
l'objet d'une collaboration entre l'Université de York et le SIM
(Staatliches Institut für Musikforschung) de Berlin. Plus
particulièrement, il s'agissait d'évaluer différentes
technologies d'interface et de logiciels de manipulation audio et vidéo
dans le cadre d'un projet de création regroupant un compositeur, un
artiste vidéaste et un interprète.
La partie dévolue
à l'Ircam était liée à la spatialisation et au
traitement en temps réel des sons. A cette occasion, l'équipe
acoustique des salles a poursuivi le développement des modules de
spatialisation liés à la technique ambisonic. Il est
rappelé que cette technique de spatialisation, basée sur une
décomposition du champ sonore en harmoniques sphériques,
présente l'intérêt de fixer la scène sonore dans un
format d'encodage intermédiaire constitué d'un nombre
limité de canaux indépendants du nombre et de l'organisation
spatiale des haut-parleurs du dispositif de reproduction. Lors de la
restitution, le document sonore fait l'objet d'un décodage
dépendant du dispositif d'écoute.
Décodeurs
Jusqu'à
présent, ces modules de décodage avaient été
conçus pour un ensemble de configurations figées (nombre et
position des haut-parleurs). Le travail a consisté à
généraliser ces objets afin de les adapter à une plus
grande variété de dispositifs électro-acoustiques. Dans le
cadre d’un système Ambisonics horizontal d’ordre 1, il est
désormais possible d’utiliser une configuration
semi-régulière de haut-parleurs, de nombre quelconque
(supérieur ou égal à quatre). Dans le cadre d’un
système Ambisonics en trois dimensions d’ordre 1, toute configuration
parallélépipèdique de huit haut-parleurs est utilisable
(auparavant, une seule configuration fixe existait).
Format Ambisonic
d'ordre 2
Afin d’obtenir un
meilleur rendu de la scène sonore, des objets externes reposant sur une
approche Ambisonic d’ordre supérieur ont été
développés. Un module de spatialisation lié au
système ambisonics horizontal d’ordre deux est disponible pour des
configurations de haut-parleurs semi-régulières. Par rapport au
format d'ordre 1, on observe que la zone de validité du champ sonore se
trouve élargie, et la localisation des sources est plus précise.
L'ensemble des modules de
traitement du signal de la bibliothèque Ambisonics du Spatialisateur a
été porté sous forme d'objets externes écrits en
langage C. Ce travail a été effectué dans les deux environnements
Max/MSP et jMax/FTS. Ce portage a permis d'optimiser considérablement la
charge de calcul.
Participants :
Sébastien Roux,
Collaboration interne :
Equipe Temps Réel
Collaborations externes :
University of York, Staatliches Institut für Musikforschung PK
Projet financé par
la communauté européenne dans le cadre de l'action IST
(Information society technologies)
Le Spatialisateur existe sur l’outil
de montage numérique PRO-TOOLS de DIGIDESIGN, dans une version pour DSP
56002. Cette version subit d’importantes contraintes liées au DSP
lui-même et nécessite d'adapter le traitement (localisation, effet
de salle). L'architecture reprend
les différents modules élémentaires de la librairie du
Spatialisateur. Tous les modules de traitement sont compilés et
assemblés conditionnellement et exécutés sous
contrôle de bypass individuels.
L’interface propose le
contrôle du positionnement de la source dans un espace cartésien
ou par ses coordonnées polaires. Ce contrôle peut être
déconnecté pour donner accès directement aux
paramètres de traitement. Tous les paramètres de traitement,
même de plus bas niveau, sont contrôlables, par un jeu de
différentes fenêtres. L'effet de salle est contrôlable par
facteurs perceptifs ou par les paramètres de bas-niveau.
Quatre plugIns distincts peuvent tourner
sur 56002:
-
Réverbération
complète constitué de 8 canaux de rebouclage, avec module Early
sans filtrage, module Cluster, sans traitement du son direct.
-
- Tranche "direct" et traitement binaural, sans
effet Doppler, avec réverbération à 4 canaux, sans
Cluster.
- Version à 4 canaux contenant tout
sauf la réverbération proprement dite.
- Version à 4 canaux contenant tout sauf les fonctions
de transfert d'oreille.
La carte DigiDesign à base de 56002
(carte « Farm ») présente 3 DSP. En termes de
précision, on se heurte aux faiblesses du calcul en entier, qui ne
peuvent être palliées que par la double précision,
engendrant un accroissement du temps d’exécution.
Différentes solutions ont été explorées pour
améliorer la qualité des filtres en calcul entier. La limitation
du DSP en registres et accumulateurs rend un filtre en double précision
presque trois fois plus long qu’en simple précision. En termes de
temps, on se heurte aux limitations de vitesse des DSP et de mémoire
interne disponible. La puissance de calcul disponible sur un DSP 56300 permet
d’implémenter une version complète sur un seul DSP (présent
en 6 exemplaires sur la carte ProTools IV). Le Spatialisateur est
aujourd’hui adapté à la version 5.1du logiciel ProTools,
avec sa capacité à sortir en format multi-canaux, ainsi
qu’à exploiter les DSP 56300.
Participants à l'Ircam :
[Portage sur environnement Digidesign]
P. Prévot
Les principales évolutions du Spatialisateur concernent la poursuite des travaux d'implémentation de modules de localisation et le développement d'un outil de contrôle général.
La librairie du Spatialisateur a
été enrichie de modules de localisation tri-dimentionnel sur
haut-parleurs et sur casque. En particulier, les modules liés à
la technologie Ambisonics (encodeurs, matrices de transformations, décodeurs)
ont été écrits sous forme d'objets externes et ont
été complétés par l'adjonction de modules d'ordre
supérieur (ordre 2 en 2D et 3D). Par ailleurs la technique de
reproduction sur casque (binaurale) a fait l'objet d'une nouvelle implantation
multi-canal décrite au § Erreur !
Source du renvoi introuvable. et disponible dans les environnements
Max/MSP et jMax. Le format Ambisonic présente l'avantage de rendre
possibles des manipulations du champ sonore après encodage. Ces
manipulations, sous formes de rotation et de focus, ont donné lieu
à l'implémentation d'objets jmax, comprenant la partie traitement
du signal et l'interface adaptée (Trackball pour rotation 3D et
contrôle du focus).
Pour le contrôle, l'évolution majeure repose sur le
développement de ListenSpace (cf § 1.1.4). Cette application, développée en
Java, permet de contrôler le Spatialisateur à travers un port de
communication. Ce choix technique permet notamment de s'adresser indifféremment
aux versions du Spatialisateur fonctionnant sous environnement Linux ou MacOS.
Participants à l'Ircam :
[Développement
Max/MSP et jMax] O. Delerue, E. Rio, S. Roux,
En parallèle à la construction de l'orgue du Palais
des Beaux-Arts de Bruxelles par Georg Westenfelder et la société
Syncordia, l'IRCAM a été chargé de concevoir le prototype
d'un système de synthèse sonore pouvant s'adjoindre à
l'orgue (de facture classique) et étendre les possibilités de
registration sonore. Les principales fonctions à étudier sont les
procédés de synthèse pour la création ou la
transformation de sons étendant la palette sonore de l'orgue et les
procédés de diffusion sonore intégrant des fonctions de spatialisation.
Ce projet met en jeu les compétences des deux équipes Acoustique
des salles et Analyse-Synthèse.
Le travail réalisé au sein de l'équipe
acoustique des salles concerne principalement les études de diffusion et
spatialisation du son. Ainsi, une campagne de mesure de réponses
impulsionnelles a été effectuée dans la salle du PBA en
plusieurs points de mesures et plusieurs configurations de sources. Ces
données ont été partiellement dépouillées et
devraient permettre de simuler la réponse de la salle dans un
système d'écoute déporté. Les prochaines
étapes, réalisées en 2002, concerneront :
- la mise
en place d'une session d'échantillonnage d'une série
représentative de jeux de l'orgue à tuyau.
-
l'étude du dispositif électroacoustique nécessaire à
la diffusion des sons de synthèse. Différentes
possibilités de spatialisation du son seront étudiées,
notamment l'ajout d'effet de localisation, de réverbération ou
encore l'utilisation de dispositif de diffusion à directivité
variable.
-
l'étude d'un dispositif de restitution en laboratoire ou en situation de
répétition (casque ou haut-parleurs).
Participants
Ircam :
Vincent Rioux, Manuel Poletti
L'Ircam s'est vu confier
une mission de conseil auprès de l’Orchestre de Paris pour les
corrections acoustiques nécessitées par sa mise en
résidence dans le théâtre Mogador. Après
caractérisation objective du théâtre une première
tranche de travaux a été effectuée. Les modifications
principales concernent l'élargissement du cadre de scène et le
remplacement du sol et des sièges des espaces spectateurs. En raison de
la faible volumétrie du théâtre, et sa réponse
acoustique inadaptée, il s'avère nécessaire
d’adjoindre aux corrections acoustiques traditionnelles un système
électroacoustique permettant de simuler les conditions acoustiques
requises par l’activité symphonique.
Compte tenu des
particularités architecturales et acoustiques de la salle (ensemble de
volumes couplés entre la scène, la salle et les secteurs sous
balcons), il faut recourir à un système conçu
spécifiquement pour ce lieu. Ce système pourra reposer sur une
conception hybride entre les propositions actuellement disponibles sur le
marché. Cette partie du travail sera réalisée en 2002.
Collaboration
extérieure : Kahle Acoustics.
Participant : B.
Katz (2 mois).
[Baskind01] Baskind, A. Warusfel O., Monaural and binaural
processing for automatic estimation of room acoustics perceptual attributes, proc 17th International Congress on
Acoustics, 2001
[Heidet01] Heidet
A., Warusfel O., Vandernoot G., Saint-Loubry B., Kemeny A., A cost effective
architecture for realistic sound rendering in the SCANeR II driving simulator, Human
Centered Transportation Simulation Conference, Iowa City, November 2001.
[Larcher 01] Larcher V., Techniques de spatialisation des sons
pour la réalité virtuelle, Thèse de l'Université Paris 6, Mai 2001.
[Misdariis 01a] Misdariis N., Nicolas F.,
Warusfel O., Caussé R., Radiation control on multi-loudspeaker device
: La Timée ’’
- XX th International Computer Music Conference (ICMC) - septembre
2001 :
[Misdariis 01b], Misdariis N., Warusfel
O., Caussé R., Radiation control on multi-loudspeaker device - XX th International
Symposium on Musical Acoustics (ISMA) - septembre 2001
[Vandernoot 01a] Vandernoot G., Warusfel O., Spectral
characterization of listening conditions in car cabins, 17th International Congress on Acoustics,
september, 2001, Rome
[Vandernoot 01b] Vandernoot G., Caractérisation et
optimisation de la restitution Haute-Fidélité en véhicule.
Thèse de
l'université Paris 6, décembre 2001.
[Warusfel 01a] Warusfel O., Misdariis N., Directivity
synthesis with a 3D array of loudspeakers - Application for stage performance, Digital Audio Effects 2001 (DAFx) -
décembre 2001
Véronique Larcher, Techniques de
spatialisation des sons pour la réalité virtuelle, Thèse de l'Université Paris
6. Mai 2001.
Guillaume Vandernoot, Caractérisation
et optimisation de la restitution Haute-Fidélité en
véhicule, Thèse
de l'Université Paris 6. Décembre 2001.
François Nicolas, Eric Daubresse : création de Duelle
Olivier Warusfel Responsable
Olivier Delerue Chargé
de recherche & développement
Reinhard Gretzki Chargé
de recherche (oct-dec 01)
Véronique
Larcher Chargé
de recherche (fév 01)
Philippe
Prévot Ingénieur
du Ministère de la Culture
Emmanuel Rio Chargé
de recherche & développement
Sébastien
Roux Chargé
de recherche & développement
Riitta
Väänanen Chargé
de recherche
Chercheurs stagiaires et
étudiants
Alexis Baskind Thèse
Universtité Paris 6
Magali Deschamps Stage
ingénieur CNSMDP
Véronique
Larcher Thèse
Université Paris 6
Guillaume Vandernoot Thèse
Université Paris 6
Collaborations internes
Analyse
Synthèse Vincent
Rioux
Perception,
Cognition Musicales Alain
de Cheveigné, Suzanne Winsberg
Design sonore Nicolas
Misdariis
Production Eric
Daubresse, Manuel Poletti
Temps Réel François
Dechelle, Norbert Schnell
Compositeur
François
Nicolas
Collaborations externes
AKG
EPFL (Ecole Polytechnique
Fédérale de Lausanne)
France Télécom R&D
Fraunhofer AEMT
Fraunhofer-Gesellschaft IMK (Institut
für Media Kunst)
IRT (Institut für Rundfunk Technik)
KunstMuseum de Bonn
Renault S.A.
Technische Universiteit Delft
Universität Erlangen
Technische Universität Wien
School of Sound
Studer