Responsable : Olivier Warusfel
La mission de l'équipe d’acoustique des salles est
l’étude du comportement et du contrôle des espaces
acoustiques et électroacoustiques. Ses activités couvrent
à la fois la recherche fondamentale, menée dans le cadre de
thèses, et la recherche appliquée qui fait
généralement l’objet de conventions ou de collaborations
avec des organismes externes. Les recherches pures s’organisent autour
des 4 axes suivants : la caractérisation objective et perceptive de la
qualité acoustique des salles, la modélisation physique de la
propagation acoustique dans les salles (acoustique prévisionnelle), les
techniques de codage et de restitution du son et les algorithmes de
synthèse de la localisation et de l’effet de salle. Les
applications pratiques sont, notamment, le développement de logiciels
d’aide à la conception architecturale, et le développement
d’un processeur d’acoustique virtuelle : le Spatialisateur. Ce
logiciel, fruit d’une collaboration avec Espaces Nouveaux, permet de
reconstruire et contrôler, en temps réel, les effets de
localisation et les effets de salle en pilotant différents
systèmes de diffusion électroacoustique de complexités
diverses : casque, paire de haut-parleurs, systèmes multi-HP... Son
exploitation couvre les domaines de la spatialisation dans le contexte de la
composition musicale ou de la post-production d’enregistrement, ainsi que
les domaines de la réalité virtuelle et de la communication de
groupe.
Validation perceptive de la synthèse binaurale
Une première étude perceptive a été
consacrée à la qualité de localisation d'un système
de synthèse binaurale bicanal, statique, et non-individuel. Les HRTF
étaient modélisées sous forme d'un retard pur et d'un
filtre à phase minimal d'ordre 20. Le test a été
passé par 22 sujets, "écoutant'' 17 têtes
différentes. L'analyse s'est notamment focalisée sur les
artefacts de localisation tels que les taux de sons perçus au centre de
la tête, le taux de confusion avant-arrière ou haut-bas et les
biais de perception directionnelle dans le plan médian ou pour les positions
latérales.
Une seconde étude a permis de comparer les résultats
précédents dans le cas d'une implantation multicanal de la
synthèse binaurale. Les 6 techniques de décomposition
linéaire des HRTF testées présentaient différents
compromis sur :
-
l'encodage
explicite de l'ITD ou non,
-
l'encodage
binaural universel ou individuel,
-
le nombre de
canaux actifs de l'encodeur,
-
le nombre de
filtres du décodeur (3 ou 7).
Pour les positions du plan horizontal, les principaux
résultats sont :
-
le biais en
azimut provoqué par une décomposition Binaural B au premier ordre
est supérieur à celui obtenu pour un ordre 3,
-
l'Analyse en
Composantes Indépendantes spatiales provoque un biais en azimut
supérieur à celui obtenu pour un Binaural B d'ordre 3.
Ce test n'a pas permis de mettre en évidence d'autres
différences majeures par rapport à l'implantation bicanal, ce qui
souligne les bonnes performances des techniques de décomposition
étudiées.
Adaptation individuelle de la synthèse binaurale
Les HRTF, filtres à la base de la synthèse binaurale,
varient en fonction de l'incidence, mais également en fonction de la
tête sur laquelle ils ont été mesurés. A l'origine
de ce phénomène : la morphologie de la tête, qui, faisant
obstacle au son incident, modèle les caractéristiques temporelles
et fréquentielles des HRTF. Une écoute binaurale non
individuelle, i. e. proposant à l'auditeur des HRTF différentes
des siennes, entraîne une augmentation des artefacts de localisation,
notamment les confusions avant-arrière et les occurences de sons
perçus à l'intérieur de la tête. Pour des raisons
pratiques évidentes, il est pourtant peu envisageable de mesurer les
HRTF de chaque auditeur. Plusieurs stratégies permettant
d'atténuer les effets d'une écoute non-individuelles ont
été étudiées.
Adaptation discrète
Un premier effort d'adaptation individuelle peut être
réalisé à l'aide d'une adaptation discrète,
appairant un auditeur avec l'une des têtes constituant la base de
données. Une méthode d'évaluation de la distance entre ces
têtes et tout nouvel auditeur, et ne s'appuyant que sur les
relevés morphologiques de ce dernier, a été
proposée. Ce travail nécessite l'acquisition de données
morphologiques sur un échantillon de population.
Le relevé de 9 paramètres morphologiques a
été réalisé sur 16 sujets, après la
définition d'un protocole de mesure, élément n'ayant pas
encore rencontré de consensus dans la communauté scientifique.
Cette session de mesures complète celle menée sur 20 sujets en
1999. Certains paramètres ont été mesurés sur le
"relief naturel'', à l'aide d'un pied à coulisse. D'autres
dimensions ont été estimées à partir de projections
2D du relief naturel de la tête, obtenues par photographie. Pour la
session de 1999, première expérience de relevé morphologique
pour le laboratoire, un test de reproductibilité de la mesure a
été effectué, afin d'éliminer les paramètres
mesurés avec trop d'incertitude.
Les principales caractéristiques de la population
observée ont été dégagées (largeur du cou,
largeur de la tête, profondeur de la tête, longueur du pavillon,
longueur de la conque, largeur de la conque). Il est illusoire de
spécifier une tête unique pour représenter l'ensemble de la
population, et il est au contraire nécessaire de diviser celles-ci en
clusters afin d'atteindre une représentativité suffisante de la
tête "barycentre''. A titre d'exemple, on peut penser que les
paramètres de l'oreille externe, tout comme hauteur et profondeur de
tête sont significativement différents entre les hommes et les
femmes. Par conséquent, construire une tête artificielle
spécifique pour les hommes d'une part et pour les femmes de l'autre
semble faire sens.
Une seconde étude a été menée à
partir de données plus exhaustives d'Algazi et al. Sur les 19
paramètres retenus, on constate de fortes disparités entre
individus : les grandes dimensions de la tête présentent une
variance d'environ 10% de leur valeur moyenne, tandis que pour la conque, ces
écarts sont plus près de 20%. Les plus fortes variances sont
obtenues pour les paramètres de décalage (jusqu'à 154%
pour le paramètre de décalage vertical de l'oreille).
Une méthode a été développée
pour insérer un nouvel auditeur dans un espace de représentation
de têtes, dans l'objectif de déterminer la tête qui lui
convient le mieux. L'approche adoptée permet de s'affranchir de la
mesure (longue) des paramètres de l'espace des têtes (HRTF, ITD)
et ne requiert que la mesure de paramètres plus rapidement accessibles
(moins de 19 paramètres morphologiques). La méthode de
superposition des espaces de représentation des têtes s'appuie sur
des outils mathématiques traditionnels tels que la projection
orthogonale.
Adaptation continue par "scaling fréquentiel''
L'objectif de l'adaptation continue est de synthétiser les
HRTF de l'auditeur final sans avoir à les mesurer. Cet objectif est plus
satisfaisant qu'une adaptation discrète car il doit théoriquement
conduire à une plus grande fidélité. En outre,
l'adaptation continue permet de s'affranchir du temps consacré à
la constitution des bases de données et d'économiser la place en
mémoire qui serait requise pour l'implantation d'une adaptation
discrète.
La technique de scaling fréquentiel étudiée
est une possibilité pour l'adaptation continue. Elle s'appuie sur les
relations "physiques'' entre paramètres morphologiques et
caractéristiques des HRTF développées par exemple par
E.A.G. Shaw. Une tête est alors transformée en une autre par un
morphisme des caractéristiques spectrales de leurs HRTF.
L'opération de base est une homothétie de l'axe des
fréquences. Middlebrooks en a proposé une mise oeuvre simple, et
on a constaté l'efficacité de l'adaptation réalisée
à l'aide d'un test perceptif.
Cette approche a été reprise en l'appliquant à
nos données, puis certaines extensions ont été
proposées. L'efficacité du scaling est améliorée
par une application indépendante sur deux bandes de fréquences
situées au dessus de 1kHz. Il semble en revanche qu'on doive s'abstenir
de modifier les basses fréquences, intervalle fréquentiel sur
lequel les différences interindividuelles ne répondent pas aux
hypothèse du scaling : les têtes possèdent les mêmes
résonances structurelles, qui ne se distinguent que par une translation
constante sur l'axe des fréquence.
Le facteur de scaling obtenu en hautes fréquences est
fortement corrélé aux dimensions de la conque, et plus
spécialement à sa longueur, ce qui laisse ouvert la perspective
d'une adaptation des HRTF à partir de la simple mesure de ce paramètre
morphologique. Par ailleurs, une autre approche permet de faciliter la mise en
oeuvre du scaling : le facteur de scaling hautes fréquences peut
être estimé à partir d'un sous-ensemble de positions,
celles qu'indiquent l'analyse statistique des HRTF avec l'Analyse en
Composantes Indépendantes (cf rapport 1999). En outre, et en
première approximation, on peut utiliser le même facteur de
scaling pour les structures bicanal et multicanal, élément utile
dans le cas d'une implantation "mixte'' de la synthèse binaurale.
Participants :
Ircam : V. Larcher
Le sujet initialement proposé
était d'exploiter les mesures effectuées sur un microphone 3D,
appelé SoundField, afin de réaliser un encodage optimum du champ
sonore dans un format usuel de description de scènes sonores 3D: le
format-B. Bien que le microphone soit pourvu de son propre module de
transcodage, il a paru intéressant de consacrer une étude
à la possibilité de corriger certaines "aberrations"
liées à la directivité intrinsèque des capsules
constitutives du microphone et à leur disposition
géométrique.
Au delà du simple
intérêt pratique, cette étude a fourni l'occasion de se
familiariser avec le formalisme sous-jacent au format B. L'effort s'est concentré
sur:
-
l'étude
des harmoniques sphériques, correspondant aux solutions
élémentaires de l'équation des ondes dans le cas
particulier où la description du champ sonore est restreinte à la
distribution angulaire.
-
la
généralisation du théorème d'échantillonnage
dans le domaine des harmoniques sphériques, par extension du
théorème unidimensionnel. Une attention particulière
à été consacrée à la mise en évidence
des phénomènes de repliement de spectre sphérique, des
notions d'échantillonnage critique en repère sphérique.
Ces études ont permis de dégager plusieurs considérations
pratiques pour effectuer des mesures de directivité.
-
une
tentative de généralisation de certains éléments de
la théorie du filtrage unidimensionnel au repère
sphérique, notamment la notion de distribution de Dirac directive ainsi
que la convolution sphérique. Un effort particulier à
été consacré à l'étude des
différentes techniques de rotation.
-
l'analyse du
microphone SoundField à l'aide des seuls outils
précédemment introduits. Son fonctionnement est assimilé
un échantillonneur directif régulier du champ sonore.
-
l'étude
d'une méthode permettant de corriger les erreurs introduites sur les
mesures par les conditions expérimentales, notamment par une
compensation de la trajectoire de déplacement du microphone de mesure
à partir de la seule connaissance des mesures.
Ce travail s'est accompagné du
développement d'un ensemble de routines Matlab, gérant les
principaux opérateurs liés à la transformée de
Fourier sphérique : décomposition, synthèse,
re-échantillonnage, convolution.
Participants
Ircam
: Arnaud Laborie sous la direction de V. Larcher
Développement d'un simulateur d'habitacle basé sur
le Spat
Un simulateur d'habitacle de véhicule a été
développé. Son intérêt réside dans la
possibilité de comparer une approche de simulation par convolution avec
des réponses réelles mesurées et une approche partant
d'une modélisation de l'effet d'habitacle réalisées par
des modules dérivés du Spatialisateur. Dans ce dernier cas, les
paramètres de réglage sont issus d'une analyse
temps-fréquence des réponses de l'habitacle. Par ailleurs, ce
simulateur permet de tester l'apport de traitements correctifs sur les signaux
sonores de manière à optimiser la qualité d'écoute
dans l'habitacle. Certains modules ont été modifiés pour
tenir compte des spécificités de la diffusion en habitacle; c'est
le cas pour les sources sonores situées à l'avant de la cabine.
Chaque source est dédoublée puisque, en général,
l'habitacle est doté de haut-parleurs spécifiques et très
éloignés pour les fréquence graves et aiguës. Le
module gérant le son direct est ainsi divisé en deux sources
ayant chacune une réponse fréquentielle et une direction de
provenance particulières. La réverbération est commune
à l'ensemble des sources. Plusieurs configurations de
réverbération ont été mises en oeuvre (variation du
nombre de canaux de rebouclage, et du nombre de sections).
Deux dispositifs de restitution ont été
testés: double-transaural sur quatre haut-parleurs, et Ambisonic sur
huit haut-parleurs. Plusieurs campagnes de réglage ont été
effectuées. La référence était constituée
par des fichiers sons convolués avec les réponses impulsionnelles
de l'habitacle, mesurées soit par un mannequin acoustique, soit par un
micro SoundField. Il ressort de ces essais que la diffusion à l'aide du
système Ambisonic est assez loin de la référence. En revanche,
l'utilisation du double-transaural est convaincante.
Démonstrateur audio embarqué en véhicule
Un prototype de système temps-réel embarqué a
été développé. Il permet de juger auditivement les
améliorations apportées par différents traitements sur le
signal audio, avant sa diffusion par les haut-parleurs du véhicule.
Quatre axes ont été explorés: la correction
fréquentielle, le recentrage de l'image sonore, la sensation
d'enveloppement, et l'ajout de réverbération. La correction
fréquentielle est menée séparément pour le champ
direct et le champ réverbéré. Le recentrage de l'image
stéréophonique s'appuie sur un algorithme double-transaural non
symétrique. L'augmentation de la sensation d'enveloppement est
réalisée par ajout de filtres passe-tout afin de
décorréler les signaux, utilisés de manière
préférentielle sur l'arrière. Un module de
réverbération peut être ajouté de manière
à créer des ambiances de salles particulières.
Inversion de l'effet d'habitacle
L'inversion de la réponse d'habitacle vise d'une part, la
correction de l'image stéréophonique affectée par le
décentrage du conducteur par rapport aux haut-parleurs, et la correction
de l'effet de l'habitacle.
La première étape passe par la mise en oeuvre d'un
algorithme transaural non symétrique. Celui-ci vise à
recréer deux haut-parleurs virtuels placés symétriquement
par rapport au conducteur. Contrairement au décodage transaural
symétrique qui possède des propriétés de phase minimale
jointe, l'inversion doit être ici menée sur les réponses
à phase totale. Comme il n'y a pas de solution exacte, il faut
procéder à une approximation (optimisation au sens des moindres
carrés). Plusieurs solutions ont été testées:
régularisation par écrêtage et prolongement dans le domaine
spectral par palier, régularisation par filtrage, et
décomposition tronquée en valeurs singulières. En outre,
concernant les deux premières méthodes, il existe une technique
temporelle et une technique fréquentielle, la deuxième étant
moins exacte mais beaucoup moins coûteuse. Plusieurs objets externe en C
pour Matlab ont été écrits.
La deuxième étape requiert un processus d'inversion
plus complexe, puisqu'il faut, en partie au moins, inverser la réponse
de l'habitacle. Cela rend illusoire l'emploi de filtres RII, et
nécessite donc de disposer d'un outil de convolution temps-réel.
La réjection des trajets croisés est supérieure à
20 dB au-delà de 400 Hz. Par ailleurs, étant donnée la
présence d'un effet d'habitacle, les conditions d'inversibilité
sont encore plus sévères et imposent l'utilisation de
procédures limitant la complexité de la réponse.
Différentes techniques peuvent être envisagées, telles que
la troncature de la réponse ou une simplification préalable de la
réponse opérée dans le plan temps fréquence
(extraction des réflexions prépondérantes).
Participants :
Ircam : G.
Vandernoot
Renault :
E. Le Chevalier
L'objectif de ce travail est de trouver des
techniques permettant d'estimer à partir d'un enregistrement
spatialisé les caractéristiques liées à l'effet de
salle et aux caractéristiques spatiales de la scène sonore.
Celles-ci peuvent être rangées en trois catégories:
-
d'une part,
les attributs inhérents à la salle. Ceux-ci ne sont liés
qu'à la géométrie et aux propriétés
physiques des matériaux (temps de réverbération,
densité de réflexions, réponse en fréquence de la
salle), et peuvent reposer sur une analyse monophonique.
-
d'autre part,
les caractéristiques spatiales de la source, c'est-à-dire
principalement sa localisation et son éloignement par rapport à
la cible. Leur détermination nécessite une analyse multicanal
(stéréophonie, binaural).
-
pour finir,
les attributs reposant sur les liens entre la source et la salle. Par exemple,
la directivité de la source aura une grande influence sur la
densité de réflexions latérales, et donc sur l'impression
d'espace. La aussi, l'estimation de ces attributs nécessite plusieurs
canaux.
Deux voies ont été
envisagées et étudiées pour mener à bien cette
étude. La première part d'un point de vue de traitement de
signal, et considère la propagation dans une salle (ou bien l'effet de
spatialisation synthétique) comme la convolution du son en champ libre
par une ou plusieurs réponses impulsionnelles. Nous avons
étudié diverses techniques (analyse cepstrale, segmentations
temporelles) pour tenter d'isoler de l'ensemble certaines caractéristiques
propres à ces réponses impulsionnelles.
La seconde voie, qui semble la plus
prometteuse, est l'utilisation de modèles binauraux. En employant des
techniques de modélisation de l'audition, de l'oreille
(cochléogrammes) au système nerveux (analyses par corrélation,
ou égalisation-annulation), et en nous inspirant des techniques de
détection de hauteur spectrale et de localisation que l'on trouve dans
la littérature, nous avons
cherché à révéler les réflexions
précoces et tardives, pour pouvoir ensuite estimer les différents
attributs de l'effet de salle.
Participants
:
Ircam
: A. Baskind
Ce
projet concerne l’étude des facteurs spatiaux qui régissent
l’organisation perceptive d’une scène sonore. La notion
d’espace peut être simultanément considérée
comme une dimension particulière de la représentation cognitive
et comme facteur intervenant dans les mécanismes de
ségrégation entre les constituants élémentaires
d’une scène sonore Ce projet mené en collaboration avec
l’équipe Perception/Cognition vise à traiter le sujet
à la fois sur le plan scientifique en abordant les points de vue du
neurologue et de l’ingénieur, et sur le plan des sciences
humaines. La perception spatiale a été bien étudiée
sur le plan des mécanisme de localisation. Cependant on connaît
moins les mécanismes de ségrégation spatiale, notamment
dans le cas de sources multiples, et plus généralement
l’organisation perceptive d’une scène sonore.
Une première expérience a
été menée pour préciser les indices binauraux, qui
déterminent l'organisation de messages parlés concurrents
provenant de sources séparées dans l'espace. Différentes
modalités de restitution ont été testées, telles
que l'indice de retard interaural couplé ou non aux informations
spectrales véhiculées par les fonctions de tranfert d'oreille.
L'analyse se focalise sur la détection des situations ou
paramètres dominant dans la tâche de ségrégation
(séparation privilégiée droite/gauche, corrélation
du taux de discrimination avec l'écart angulaire ou le retard
interaural, etc..).
Participants:
Ircam: A. Baskind, V. Larcher
Collaboration interne : A. de
Cheveigné
Le travail s'inscrit dans le cadre de la
simulation d'effet de salle par convolution avec une réponse
impulsionnelle mesurée. L'objectif était de réaliser un
objet externe pour les environnements MAX/MSP et jMax réalisant la
convolution d'un signal avec une réponse impulsionnelle longue,
typiquement quelques secondes comme les réponses de salle.
Il est établi que
l'opération de convolution, implantée sous forme directe est
irréalisable pour des réponses longues puisque trop
coûteuse en temps de calcul (typiquement plusieurs milliers de mips). De
même, un calcul de convolution par FFT n'est pas applicable non plus dans
le cadre d'applications temps réel puisqu'il induirait une latence
initiale de deux fois la longueur de la réponse impulsionnelle (si l'on
uniformise la charge de calculs du processeur), soit plusieurs secondes dans le cas de réponses
de salle.
Le développement a
été basé sur un algorithme de convolution décrit
par William Gardner et utilisant à la fois la convolution classique et
la convolution FFT, par découpage de la réponse impulsionnelle en
blocs de longueur croissante. Cet algorithme cumule l'avantage du retard
très faible induit par la convolution directe pour les premiers blocs,
dont on requiert le résultat immédiatement, avec la
rapidité de calcul de la convolution par FFT pour les blocs tardifs, pour
lesquels une latence est acceptable puisque leur résultat n'est requis
que plus tard. Le nombre de calculs à effectuer reste cependant
supérieur à celui d'un algorithme de convolution par FFT
classique, mais la puissance des ordinateurs actuels permet d'envisager
l'utilisation de cet algorithme.
Différentes options sont
proposés à l'utilisateur, telles que le choix du compromis entre
la latence acceptable et la taille de la réponse impulsionnelle. Enfin,
les modules permettent la convolution avec des réponses multicanal, afin
d'exploiter, par exemple des réponses de salle enregistrée
à partir d'une tête artificielle, ou un microphone SoundField.
Participants
Ircam
: R. Bruno
Cette étude était consacrée à l'observation de
l'influence de la qualité acoustique d'une salle sur le mode de jeu d'un
instrumentiste. La flûte traversière a été choisie
en raison des libertés de jeu timbral qu'elle autorise. Le but
était de parvenir à quantifier les éventuelles variations
de timbre opérées, consciemment ou non, par l'instrumentiste en
fonction de la qualité acoustique du lieu d'exécution. Le
protocole expérimental choisi utilisait un processeur de traitement
numérique du signal, le Spatialisateur, afin de simuler
différentes qualités acoustiques de salles diffusées par
un système de huit enceintes dans un studio.
L'étape préalable a consisté à
caractériser le spectre de puissance de l'instrument afin d'alimenter le
processeur d'acoustique. En pratique, le respect du spectre de puissance lors
de la diffusion du signal réverbéré était obtenu en
corrigeant le signal capté dans le corps de l'instrument (bouchon) par
la fonction une fonction de transfert mesurée en chambre
réverbérante (correction entre le spectre du signal de captation
et spectre de puissance). Cette
étape s'est montrée très convaincante sur le plan
perceptif.
La seconde étape avait pour objectif de caractériser
spectralement les variations de mode de jeu volontaires de l'instrumentiste
(trois nuances dynamiques, mode timbré, détimbré,
cuivré, soufflé, …). Ces différents modes de jeu
présentent des différences très notables sur les spectres
cumulés, ce qui valide le choix de la flûte comme terrain
d'expérimentation.
L'expérience, proprement dite, a consisté à
enregistrer six sujets flûtistes, jouant un répertoire fixe dans
11 salles différentes de manière à évaluer
l'influence sur la manière de timbrer l'instrument. Les enregistrements
étaient effectués, d'une part, sur le micro d'embouchure et, d'autre
part, sur un micro captant l'effet de salle et un micro placé en
proximité des oreilles de l'instrumentiste. L'enjeu était de
vérifier si l'instrumentiste a tendance à compenser ou non
l'effet de salle pour maintenir une qualité timbrale constante,
Les résultats ont montré de très faibles variations de
mode de jeu entre les différentes salles ce qui ne permet pas de
dégager une loi régissant cette influence, les variations restant
du même ordre de grandeur que celles observées dans des
expériences de reproductibilité.
Il semble que cette absence d'effet décelable réside dans le
choix des configurations de salles qui ne s'accompagnaient pas de modifications
spectrales suffisantes dans les zones fréquentielles affectées
par les modifications de jeu instrumental. Cette étude fait donc figure
de tentative non-aboutie, cependant le protocole expérimental,
basé sur une simulation de l'effet de salle s'est montré
convaincant et peut être maintenu dans son principe pour des
expériences similaires.
Participants:
Ircam: X. Marsais
L'objectif est d'implémenter
une version du Spatialisateur sur l’outil de montage numérique
PRO-TOOLS de DIGIDESIGN: ProTools III à base de DSP Motorola 56002 et
ProTools IV à base de DSP Motorola56300). Ce portage nécessite
cependant d'adapter le traitement (localisation, effet de salle) en fonction de
la puissance disponible en DSP. L'architecture reprend les différents
modules élémentaires de la librairie du Spatialisateur
L’interface propose le
contrôle du positionnement de la source dans un espace cartésien
ou par ses coordonnées polaires. Ce contrôle peut être
déconnecté pour donner accès directement aux
paramètres de traitement. Tous les paramètres de traitement,
même de plus bas niveau, sont contrôlables, par un jeu de
différentes fenêtres. L'effet de salle est contrôlable par
facteurs perceptifs ou par les paramètres de bas-niveau. Les fonctions
réciproques, des paramètres de bas-niveau vers les
paramètres perceptifs, ont été programmées.
Compte tenu des limites de temps de
calculs, quatre plugIns distincts, et réalisant tout ou partie des
traitements du spatialisateur, peuvent tourner sur 56002:
-
Réverbération
complète constituée de 8 canaux de rebouclage, avec module Early
sans filtrage, module Cluster, pan-pot stéréo du son direct.
-
Tranche
"direct" et traitement binaural, sans effet Doppler, avec
réverbération à 4 canaux, sans Cluster.
-
Tranche
"direct" et traitement binaural, avec une version d'effet de salle
basée sur 4 canaux de rebouclage et gérant l'effet de salle
précoce (Early et Cluster), mais sans réverbération
tardive.
-
Version
à 4 canaux contenant tous les modules (panoramique stéréo
du son direct).
La carte DigiDesign à base de 56002
(carte “ Farm ”) présente 3 DSP. On peut donc
instancier 3 quelconques de ces PlugIns simultanément.
En termes de précision, on se
heurte aux faiblesses du calcul en entier, qui ne peuvent être
palliées que par la double précision, engendrant un accroissement
du temps d’exécution.
En termes de temps, on se heurte aux
limitations de vitesse des DSP et de mémoire interne disponible.
L'ensemble du code ne rentre pas dans la mémoire programme interne,
d'où un accroissement du temps d'exécution. Un Spatialisateur de
haute qualité (réverbération sur 8 canaux et restitution
binaurale) déborde largement la fenêtre de temps d'un dsp 56002.
Une solution vectorisée a
été recherchée pour économiser du temps
d’exécution. Elle se révèle décevante par la
limitation en registres et accumulateurs.
La puissance de calcul disponible sur un
DSP 56300 permet d’implémenter une version complète sur un
seul DSP (présent en 6 exemplaires sur la carte ProTools IV). En conclusion,
seuls les DSP 56300 des cartes ProTools IV de DigiDesign permettent une
implémentation complète du SPAT sous ProTools.
L'ensemble des modules de traitement du signal de la librairie du
Spatialisateur a été porté sous forme d'objets externes
écrits en langage C. Ce travail a été effectué dans
les deux environnements MAX/MSP et jMax/FTS. Ce portage a permis d'optimiser
considérablement la charge de calcul. A titre d'exemple, sur plate-forme
Mac (MAX/MSP) le gain est de 40% par rapport aux versions
précédentes écrites sous forme de patchs.
Dans le cadre de l'implémentation de modules de localisation
tri-dimentionnel sur haut-parleurs (technique VBAP), une refonte des modules
concernant l'encodage directionnel 3D a été
réalisée, notamment par la gestion de l'élévation
des premières réflexions.
Un module de décodage transaural asymétrique a
été développé. Deux topologies (classique/shuffler)
et deux types de filtrage (RIF/RII) ont été
étudiées. Le filtrage RIF résultant d'une inversion avec
régularisation par filtrage est très efficace, au regard de
l'annulation des trajets croisés (réjection de plus de 50 dB),
mais il nécessite l'utilisation d'un outil de convolution en
temps-réel. Le filtrage RII résultant d'une régularisation
par écrêtage permet quant à lui une réjection de 20
dB dans la bande [200 - 4 kHz], et l'ordre peu élevé du
modèle permet un calcul peu coûteux.
Participants à l'Ircam :
[développement]
R. Bruno, V. Larcher, G. Vandernoot
[portage sur
environnement Digidesign] P. Prévot
Dans le cadre d'un marché d'étude avec la
société Renault, un travail d'expertise et de traitement
d'échantillons sonores a été réalisé pour
l'amélioration de la qualité d'un simulateur de conduite. Ce
simulateur de conduite est utilisé pour tester certains dispositifs
techniques ou encore pour des études comportementales de
conducteurs. A partir de la
capture des différents paramètres de conduite (volant de
direction, changement de rapports, pédales, …) différentes
modalités sensorielles sont restituées à l'utilisateur
navigant dans une scène urbaine ou routière :
-
la
restitution visuelle est obtenue par projection sur écrans
extérieurs au véhicule,
-
les
sensations kinesthésiques restituées grâce au montage de
l'habitacle sur verins;
-
les
sensations auditives telles que le bruit du moteur, le bruit de roulement, le
bruit aérodynamique ou les bruits des véhicules extérieurs
sont restituées sur haut-parleurs.
Le travail a consisté principalement à traiter les
échantillons sonores enregistrés sur banc de mesure afin de
restituer les caractéristiques qu'un conducteur aurait naturellement
perçues dans l'habitacle. Les corrections mises en œuvre ont porté
principalement sur l'évaluation de fonction de transfert
extérieur/intérieur et sur l'inversion du système
électroacoustique de reproduction.
Participants
Ircam :
Guillaume Vandernoot
Renault :
Stéphane Danan, Alexandre Heidet, Bénédicte Saint-Loubry
Soumission de projets : Carrouso,
Edissohn, Listen
Pendant l'année 2000, plusieurs projets de recherche ont
été proposés en partenariat avec différentes
institutions françaises ou européennes. Trois projets, dont deux
européens, verront le jour en 2001.
Projet CARROUSO (Creating, Assessing and Rendering in Real
Time of High Quality Audio-Visual Environments in MPEG-4 Context) : ce projet
fait l'objet d'un partenariat entre une dizaine d'institutions ou
établissements industriels européens au sein desquels
l'équipe acoustique des salles collaborera principalement avec
France-Télécom, l'Université de Delft et la
société Studer. Ce projet est dédié à
l'enregistrement, la transmission et la restitution d'une scène sonore
réelle ou virtuelle préservant ses propriétés
perceptives, notamment spatiales, et autorisant leur manipulation interactive.
Ce projet s'appuie sur le format de codage MPEG4 qui privilégie, sur le
plan de la spatialisation, une approche descriptive et paramétrique de
la scène sonore. Projet financé par la Communauté
Européenne dans le cadre de l'appel d'offre IST. Durée 30 mois.
Projet LISTEN (Augmenting everyday environments through
interactive soundscapes) : ce projet, mené en partenariat avec le GMD,
la société AKG, le Musée de Bonn et l'Université de
Vienne, s'inscrit dans le domaine de la réalité augmentée,
considérée principalement dans sa dimension sonore. Son objectif
est d'étudier comment des environnements naturels peuvent être
"prolongés" plutôt que "remplacés" par
des éléments ou traitements sonores virtuels. Les questions de
réalité augmentée ont été, jusqu'à
présent, principalement abordées dans le domaine visuel et dans
le cadre d'applications industrielles. Le projet LISTEN est dédié
au développement de technologies de réalité sonore
augmentée
utilisables dans des contextes traditionnellement dominés par la
composante visuelle. La première application envisagée est celle
d'un guide audio évolué pour les expositions artistiques ou
commerciales. Projet financé par la Communauté Européenne
dans le cadre de l'appel d'offre IST. Durée 36 mois.
Projet EDISSOHN (Edition & DIffusion de Scènes
SonOres 3D normalisées (MPEG4), à l’aide
d’une interface de Haut Niveau) : l’objectif de ce
projet, mené en partenariat avec France Télécom et
Digigram, est de développer, valider et commercialiser un environnement
logiciel auteur permettant à des créateurs de contenus sonores
d'éditer, de manipuler et de synthétiser, en temps réel,
des scènes sonores tri-dimensionnelles. La synthèse est
basée sur un moteur de rendu sonore intégrant les fonctions de
positionnement 3D des sources et la création d'effets de salle pour de
nombreux formats multicanaux. L'édition et la manipulation des
scènes sonores utilisent des interfaces de haut niveau reposant sur une
modélisation perceptive ou physique de la salle. Cette application,
intégrée à une station de montage audio numérique,
permettra d’exploiter pleinement les possibilités des nouvelles
technologies de spatialisation des sons et sera compatible avec le nouveau standard multimédia
MPEG-4. Les marchés visés sont ceux de la production,
post-production et diffusion audio, notamment pour les domaines de la radio,
musique, Internet, et cinéma. Cela concerne également la création
de contenus et d’environnements sonores 3D pour les musées, parcs
d’attractions, les salles de spectacles, magasins et autres lieux ouverts
au public. Projet financé par le Ministère de l'Industrie dans le
cadre de l'appel d'offre PRIAMM. Durée 24 mois.
Publications
et rapports d'étude en 1999
[Bruno00] R. Bruno, Implémentation d'un algorithme de
convolution rapide sans retard dans un environnement de programmation temps
réel. Rapport de
Stage Supélec. Juin 2000
[Laborie00] A. Laborie, Capture, échantillonnage
et manipulations de fonctions de directivité. Application à
l'enregistrement de scènes sonores 3D avec un micro SoundField. Rapport de Stage. ENST. Octobre 2000
[Larcher00] V. Larcher, J.M. Jot, Guyard, et O. Warusfel, Study
and comparison of efficient methods for 3D audio spatialization based on linear
decomposition of HRTF
data. 108ème
convention de l'Audio Eng. Soc. à Paris, preprint n°5097.
Février 2000.
[Marsais00] X. Marsais Etude de l'influence de la qualité
acoustique d'une salle sur le mode de jeu de l'instrumentiste. Rapport de stage ENS Lumière.
Juin 2000.
Conférences
et communications
Véronique Larcher, Olivier Warusfel
Spatialization Technics With Multichannel Audio.
ICMC 2000 Workshop - Elektronisches Studio
der TU-Berlin
Véronique Larcher, Techniques de spatialisation et
applications musicales,
Section Etudiante de la 108ème convention AES. février 2000
Véronique Larcher, Workshop sur la diffusion multicanal. 108ème convention l'AES.
février 2000
Olivier Warusfel, Digital control of looudspeaker directivity,
Workshop sur la directivité des haut-parleurs . 108ème convention l'AES.
février 2000
Olivier Warusfel, Perceptual and Physical modeling of sound
source radiation. XXX th ASA
meeting. Atlanta Mai 2000.
Organisation
de Colloque
Dans le cadre du festival Agora 2000, un colloque "Espace
décomposé, Espace recomposé" a réuni
architectes, acousticiens, musiciens et psychologues de la perception autour
des différents aspects liés aux recherches et développements
concernant l'interaction musique/espace.
Espace et Musique : J. Blauert (professeur, Université de Bochum),
E. Daubresse (assistant musical,Ircam), E. Nunes (compositeur),
P. Szendy (musicologue, Ircam),
O.Warusfel (chercheur, Ircam).
Perception Spatiale : M. Cassé (astrophysicien, Institut d'astrophysique),
N. Château (chercheur, France Télécom), A. de
Cheveigné (chercheur, CNRS-Ircam), F. Nicolas (Compositeur),
M. Seban (architecte).
Espaces Virtuels : O. Delerue (chercheur, Sony CSL), M. Emerit (ingénieur,
France Télécom), H. Frossard (architecte), J.M. Jot
(ingénieur, Creative Lab),
Construire l'Espace : L. Bayle
(directeur Ircam), J.P. Brossman (directeur Châtelet), C. de
Portzamparc (architecte), E. Kahle (acousticien, Artec), V. Larcher
(chercheur Ircam), P. Manoury (compositeur), D. Perrault
(architecte).
Ircam, Espace de Projection. 9 et 10 juin 2000
Organisation : Véronique Larcher, Olivier Warusfel
Jury de
thèse
Jérôme Daniel, Représentations
de champs acoustiques, application à la transmission et à la
reproduction de sons complexes dans un contexte multimedia. Thèse de l'Université Paris
6. Octobre 2000.
O. Warusfel, examinateur
Applications
du Spatialisateur en production musicale et en post-production
Collaborations à la création
de nouvelles oeuvres :
Manuel Poletti pour Al Segno de Y. Maresh / F. Raffinot
S. le Mouton pour K de P. Manoury
Gilbert Nouno pour L'Amour de loin de K. Saariaho
Collaboration à la production d'enregistrements ou de
concert :
Andrew Gerzso pour Anthèmes de P. Boulez
Collaboration à la post-production d'une œuvre
électroacoustique
Philip Samartzis pour My Room le Grand Canal.
Equipe
Acoustique des salles
Olivier Warusfel Responsable
Philippe
Prévot Chercheur
détaché du Ministère de la Culture
.Chercheurs stagiaires et
étudiants
Alexis Baskind Universtité
Paris 6
Rémy Bruno Supélec
Pascal Henriot Université
Paris 6
Arnaud Laborie ENST
Véronique
Larcher Université
Paris 6
Xavier Marsais ENS
Louis Lumière
Guillaume
Vandernoot Université
Paris 6
. Collaborations internes
Alain de
Cheveigné Perception,
Cognition Musicales
René
Caussé Acoustique
instrumentale
Louis Dandrel Design
sonore
Nicolas Misdariis Design
sonore
Serge Lemouton Production
Gilbert Nouno Production
Manuel Poletti Production
Suzanne Winsberg Perception
et Cognition Musicales
. Collaborations externes
Marc Emerit France
Télécom R&D
Alexandre Heidet Renault
Jean-Marc Lyswa CNSMDP
Bénédicte
Saint-Loubry Renault
Philip Samartzis Université
de Melbourne