3. Analyse et synthèse des sons
L'équipe Analyse/Synthèse est une équipe de recherches
et de développement en analyse,
transformation et synthèse des signaux sonores. L'analyse de
sons comprend toutes les
méthodes permettant d'extraire et de structurer automatiquement
tel ou tel type l'information du signal, comme la fréquence fondamentale
ou des évolutions spectrales qui déterminent la hauteur et
le timbre du son perçu. Bien d'autres information non strictement
musicales intéressent des domaines comme l'acoustique industrielle,
le design sonore et le multimédia. On peut citer, par exemple, l'indexation
dans ce dernier cas. Ces méthodes sont fondées sur le traitement
du signal, les statistiques, la théorie de l'information, les techniques
d'apprentissage et la reconnaissance des formes mais aussi sur la connaissance
de la perception auditive et de la production sonore par les systèmes
acoustiques. La transformation et la synthèse des sons permettent
de répondre d'abord aux demandes des musiciens pour de nouveaux
sons et de nouvelles musiques. Un exemple typique est la synthèse
d'un choeur virtuel par un ordinateur sur la scène d'un opéra.
Transformation et synthèse des sons trouvent également de
nombreuses applications dans des domaines comme la téléphonie
mobile, les jeux vidéos, l'aide à la navigation ou la réalité
virtuelle en général. Analyse et synthèse requièrent
la conception et de développement de modèles du signal sonore,
par exemple le modèle du signal d'un violon ou d'une automobile
et de de modèles des systèmes acoustiques, par exemple le
modèle du fonctionnement physique de la trompette. Ces modèles
sont implantés dans des programmes informatiques exécutés
par des ordinateurs PC ou Macintosh. Enfin l'équipe développe
des logiciels mis à la disposition d'utilisateurs du public, musiciens
mais aussi ingénieurs du sons, acousticiens et amateurs. Les travaux
de recherche des années précédentes ont abouti entre
autres à deux thèses soutenues en 2001. Des avancées
importantes ont ainsi été obtenues dans le domaine des modèles
de signaux comme le modèle Pitch Synchronous Overlapp Add, la modèlisation
physique de la trompette ou dans la caractérisation des sons. Ce
dernier domaine est une activité nouvelle tant pour l'équipe
Analyse-synthèse que pour la communauté informatique musicale
en général. Son développement actuel est lié
à celui du multimédia et des réseaux, créations
d'oeuvres visuelles et audio, normes MPEG-4 ou MPEG-7. En collaboration
avec d'autres équipes de l'Ircam, l'Analyse-synthèse a oeuvré
également pour la norme MPEG-7 et pour la définition d'autres
standards comme le Sound Description Interchange Format (SDIF). Il n'est
donc pas surprenant que ce type d'activité connaisse pour l'année
2001 une forte croissance avec trois projets, l'un Européen, un
autre Français et le dernier privé. Cependant les autres
activités de recherche sont accentuées également,
en particulier sur l'acquisition automatique des paramètres de contrôle,
que ce soit par inversion des modèles ou par apprentissage, deux
thèmes nouveaux. Enfin l'activité de développement
a cru aussi avec deux logciels principaux, dont un entièrement nouveau
(AudioSculpt-2) pour les musiciens qui, chacun comprennent une part d'interface
graphique utilisateur et une part de moteurs de calcul. Finalement le travail
avec les musiciens, compositeurs et la pédagogie se traduit par
de nombreuses oeuvres et installations utilisant les travaux de l'équipe,
comme l'opéra de P. Manoury.
3.1 Activités de recherche
3.1.1 Modèles de signaux
Opérateur de réassignement et Estimation de partiels
- Estimation du début des partiels
Les opérateurs de réassignement sont appropriés
pour trouver le bon
moment pour initialiser un nouveau partiel d'un
modèle additif.
Cette application a été
étudié pour améliorer
les résultats
d'adaptation dans le modèle d'analyse additive
PBench, mais aussi pour améliorer les
résultats du logiciel Additive. Quand le
bloc courant de l'analyse ne couvre qu'une petite
part de la fenêtre, l'initialisation ne peux pas être faite
correctement à cause
du manque du données.
Deux indicateurs pour le dégré
de couverture de la fenêtre par le
partiel ont été étudiés, l'opérateur
standard de réassignement du
temps et l'opérateur différentiel de l'amplitude
selon le temps normalisé
par l'amplitude elle même. On a montré qu'en
développant la formule mathématique du
deuxième indicateur, on trouve un
résultat intéressant: la
différenciation de l'amplitude selon le temps donne
la même formule
que la différenciation de la phase selon le temps, avec
la différence
que la première est la partie réelle de la valeur complexe
et la deuxième est
la valeur imaginaire.
En simulant les débuts de partiel avec
diffèrents types de transition
on a trouvé que les deux opérateurs sont
presque équivalents. Et le
seuil optimal a été déterminé pour que
le partiel couvre la
fenêtre au moins à moitié.
- Estimation de la fréquence et de la pente fréquence
pour un partiel non
stationnaire.
La seule solution connue pour estimer analytiquement
la fréquence et sa pente à
partir d'une TFCT est reliée
à l'utilisation d'une fenêtre
Gaussienne. Pour ce cas il existe un algorithme qui
permet de détecter la fréquence
et sa pente exactement. Cet
algorithme a été étudié. On
a trouvé que, à cause des effets de
troncature de la fenêtre Gaussienne, l'estimation n'est
suffisamment exacte que
pour le cas d'une taille de fenêtre
très grande. Pour améliorer
l'estimation avec une taille de fenêtre normale,
l'utilisation de
l'opérateur de réassignement a été étudiée
avec la contrainte de n'utiliser
que la fenêtre courante pour estimer la fréquence
et sa pente. Deux
solution ont été trouvées. Dans le
premier cas on utilise le calcul des
fréquences instantanées pour le pic dans
la fenêtre courante et aussi
dans la fenêtre un échantillon avant et après.
Avec cette information
on obtient l'estimation de la pente en utilisant
l'évolution de la
fréquence pendant la durée de la fenêtre.
L'autre possibilité est de
calculer la différenciation des opérateurs
de réassignement suivant le
temps. Le résultat peut être calculé
exactement comme un opérateur de
réassignement en utilisant deux nouvelles fenêtres.
Les résultats
sont les mêmes pour les deux cas. Si l'on estime
la pente
fréquentielle pour une signal de parole, les
vecteurs fréquentiels
tracent clairement les partielles sinusoïdaux. Un problème
est que la
méthode fonctionne bien pour les fenêtres du type
spline mais est moins robuste
avec les fenêtre standard (hamming, hanning,...).
Apparemment les
fenêtres utilisées pour le calcul de la différenciation
des opérateurs
de réassignement sont nulles à la fréquence zéro
et la robustesse
dépend donc de la forme du pic central du spectre
de la fenêtre. Cette
dépendance doit être étudiée plus profondément.
- Modèle shape invariant pour la parole
Le modèle shape invariant proposé par
McAuley et
Quartieri en 1992 a été étudié pour améliorer
les résultats obtenus par les modèles additifs en traitement
de la parole. Différentes méthodes de synchronisation de
la phase
pour les partiels ont été essayés avec le modèle
additif PBench et un
signal de parole simple contenant seulement de la parole voisée.
Les
résultats obtenus avec la méthode
shape
invariant sont toujours
meilleurs que toutes les autres méthodes considérées
et cette méthode
est la seule qui a permit d'obtenir
une voix synthétique correcte lorsque
la dilatation est très grande. Pour cette
étude, tous les informations
nécessaires pour effectuer la synchronisation, notamment
la sélection
du partiel fondamental, ont été données
à la main. Pour l'avenir
un algorithme doit être développé pour n'utiliser
que les informations déjà contenues dans
l'ensemble des partiels. L'application du modèle shape
invariant avec
le vocodeur de phase est à étudier.
Responsable : A. Roebel
Collaboration interne : G. Peeters, X. Rodet
Estimation de la fréquence fondamentale avec des modèle probabilistes
L'estimation de la fréquence fondamentale est une étape clé de nombreuses analyses (additve, PSOLA, etc..). Il apparait nécessaire de disposer d'un programme d'estimation plus robuste et plus précis que celui existant à ce jour (F0).
Le première étape a été consacrée
a réimplanter la méthode de B.
Doval en Matlab et à étudier la sensibilité
des resultats
obtenus aux paramètres du modèle. La
nouvelle implémentation a aussi été faite de façon
à permettre
d'étudier également d'autres algorithmes d'estimation
probabilistes.
Concernant le premier but, les stagiaires ont montré
que le résultat
obtenu dépend sensiblement du modèle de bruit.
Le problème
ici est que les paramètres sont inconnus et qu'ils
ne peuvent pas être
estimés à partir des données. En conséquence,
un nouveau modèle
probabiliste a été développé
utilisant des paramètres qui sont plus
directement relié aux paramètres du
signal connu, la relation entre
signal et bruit par exemple. Fondé
sur plusieurs méthodes de
caractérisation du signal développées par B. Doval,
la nouvelle méthode
utilise une mesure distance, la divergence de Kullback-Leibler
suivant un
modèle probalibiliste Gaussien pour obtenir
les probabilités des
fréquences fondamentales considérées. Les
résultats obtenus avec ce
modèle ont une erreur du même ordre que l'ancien modèle
F0.
Le but du troisième stage
était d'étudier plus profondément
les
résultats du nouveau modèle probabiliste.
Les modèles de signaux
utilisés ont été modifiés pour
les rendre plus proches des spectres
rencontrés. Afin de pouvoir comparer les résultats
obtenus de façon
efficace, l'interface graphique associée
au programme d'estimation a subi
quelques changements.
Un avantage du modèle est que les paramètres
du modèle peuvent
être adaptés de façon simple pour
optimiser la validité du résultat.
Pour la première approche d'adaptation, la décision a
été prise d'adapter
seulement les paramètre du modèle Gaussien
de base, c'est à dire la variance
relative du bruit, celle relative aux fréquences
probables et la
pondération du bruit par rapport à
ces fréquences. Ces paramètres
permettent d'adapter le modèle en utilisant seulement
les distances
déjà précalculés, ce qui rends
l'adaptation plus efficace Un nouveau
programme a donc été réalisé afin de calculer
les gradient nécessaires.
Responsable : A. Roebel
Participant : M. Durand (stage)
Collaboration interne : G. Peeters, X. Rodet
Synthèse concaténative par sélection d'unités sonores
Les différents aspects de ce travail sont l'estimation, la
classification et la structuration de paramètres, l'utilisation
d'une
base de données hétérogènes de sons et
de caractéristiques, et une
recherche sur la conception et l'architecture logicielles fondées
sur
des composants réutilisables.
La synthèse par concaténation et transformation d'unités
sonores, Caterpillar, a été
présentée aux Journées Jeunes Chercheurs en Acoustique
Musicale [Schwarz01b].
L'année 2001 a vu deux développements importants:
- Un système d'alignement sonore (voir dessous) à été
mis au point avec
Nicola Orio (systèmes temps-réel) pour la segmentation
des
enregistrements d'instruments et pour la préparation
des bases
d'unités.
- Avec l'aide de Sylvie Noël (stagiaire), une base de données
relationnelle (sous PostgreSQL) a été conçue
et mise au
point. Elle est interfacée avec le système
de synthèse concaténative
Caterpillar par des extensions pour Matlab qui accèdent
le serveur
de base de données PostgreSQL directement. Ceci
permet le stockage
sécurisé (concept de transactions) de grandes
quantités de données
Responsable : X. Rodet.
Participant : D. Schwarz (thèse)
Stagiaire: S. Noël
Collaboration interne : N. Orio (systèmes temps-réel),
G. Peeters, W. D'Haes,
A. Roebel
Alignement d'un enregistrement avec sa partition
L'alignement de musique est l' association d'événements
dans une
partition avec des points temporels d'un signal audio. Le signal
est
donc segmenté selon les évènements de la partition.
Une nouvelle
méthode d'alignement automatique a été développé,
fondée sur le
"Dynamic Time Warping" (DTW). Elle utilise la structure des pics
spectraux, augmentée par un modèle d'attaques et de silence.
La
méthodologie peut traiter des signaux audio considérés
difficile à
aligner, comme la musique polyphonique, des trills, ou des séquences
rapides. Une optimisation de la représentation du chemin
d'alignement
rend la méthode applicable aux fichiers sonores volumineux.
Cette méthode a été décrite et présenté
dans [Schwarz01a].
Responsable : X. Rodet
Participants : D. Schwarz (thèse), N. Orio (systèmes
temps-réel)
Projet du Palais des Beaux-Arts de Bruxelles
En parallèle à la construction de l'orgue du Palais des
Beaux-Arts
(PBA) de Bruxelles par G. Westenfelder et la société
Syncordia,
l'IRCAM a été chargé de concevoir le prototype
d'un système de
synthèse sonore pouvant s'adjoindre à l'orgue (de facture
classique).
Ce projet met en jeu les compétences des deux équipes
Acoustique des
salles et Analyse-Synthèse.
L'équipe analyse-synthèse a préparé
un ensemble de
procédures permettant d'analyser finement un corpus d'échantillons
sonores prélevés sur un orgue acoustique. L'analyse repose
sur un
modèle nouveau de séparation de sources déterministe
(somme de
sinusoïdes) et stochastique (bruit blanc filtré par des
résonances). Ces
analyses sont effectués en utilisant les bibliothèques
de l'équipe (en
particulier Pbench d'Axel Röbel) et une extraction de f0 (yin,
développée par Alain De Cheveigné, équipe
pcm).
L'analyse entièrement automatique d'un ensemble d'échantillons
représentant un ou plusieurs registres a donc été
validée. Ces analyses
sont exportées en format SDIF. Une intégration dans Max/MSP
au sein
d'un sampler dédié est en cours.
Responsable : X. Rodet
Participant : V. Rioux
Collaboration interne : O. Warusfel (Equipe Acoustique des Salles)
Séparation de signaux audio monocapteur par des techniques statistiques
Ce travail, mené en stage de DEA ATIAM par B. Delezoide et E.
Vincent, et
poursuivi en thèse par E. Vincent, a pour but d'extraire la
partie jouée
par chaque instrument (ou source) dans un enregistrement monocapteur
d'un mélange
d'instruments (ou de sources).
L'analyse en sous-espaces indépendants (ISA) sur le spectrogramme
est une
méthode permettant de résoudre partiellement le problème
dans le cas
aveugle (on ne connaît rien des sources, ni des caractéristiques
du
mélange). Elle consiste à séparer le module su
spectrogramme du signal en
plusieurs composantes de spectres "indépendants" au sens statistique,
puis
à les regrouper selon des critères de distance entre
ces spectres.
Le stage de DEA a permis d'implémenter cette technique et d'étudier
de
nombreux points encore flous sur ses hypothèses et son fonctionnement.
De bons résultats ont été obtenus pour l'analyse
de bruits "naturels" ou
l'extraction d'attaques, mais le modèle reste insuffisant pour
une
extraction de qualité des instruments d'un extrait musical.
Le travail de thèse a débuté par une étude
bibliographique de la
séparation de sources, et particulièrement des modèles
permettant
l'utilisation de connaissances a priori sur les instruments pour
améliorer la qualité de séparation (cas semi-aveugle).
Deux directions ont
pour l'instant été retenues : l'ISA et les Modèles
de Markov Cachés (HMM).
Une étude complémentaire du modèle de l'ISA a
fourni des résultats
encourageants (prise en compte de l'indépendance à la
fois des spectres et
des amplitudes temporelles des composantes, utilisation du spectrogramme
complexe) et devrait se révéler utile dans le cadre des
HMM
(l'apprentissage par HMM est facilité lorsqu'on l'initialise
par une bonne
approximation a priori).
Responsable : X. Rodet
Participant : E. Vincent (DEA ATIAM, thèse), B. Delezoide
(DEA ATIAM)
Collaborations internes : A. Roebel, groupe de travail sur
la déconvolution aveugle
de sources avec des participants des équipes PCM et Acous.
des Salles
Collaborations externes : J.-F. Cardoso (ENST), S. Dubnov (université
Ben
Gourion, Israël), GdR ISIS équipe METISS (IRISA Rennes)
et IRCCyN (Ecole Centrale de Nantes)
3.1.2 Caractérisation des sons
Dans le projet CUIDADO, l'équipe A/S est en charge de la description
des sons
("samples") et de la musique à partir de l'analyse du signal
sonore .
Pour les des "échantillons" ou "samples", un ensemble de descripteurs,
de procédures
d'extraction automatique, ainsi que de relations permettant de déterminer
des
paramètres de hauts-niveaux à partir de ces descripteurs
ont été déterminés.
Les descripteurs sont divisés en grandes catégories:
descripteurs temporels,
descripteurs d'énergie, descripteurs du spectre, descripteurs
harmoniques,
descripteurs perceptifs. Ces descripteurs peuvent ensuite faire l'objet
d'une
modélisation de leur évolution temporelle. Ce dernier
point doit encore être amélioré.
Le résultat est ensuite utilisé pour des recherches par
similarité de sons ou
dans un système de classification automatique des sons en classe
d'instruments
utilisant d'une part l'analyse factorielle discriminante afin de déterminer
un
nombre réduit de descripteurs pertinants et d'autre part une
classification de
type probabiliste (modèle gaussien multi-dimensionnel) ou de
type K Plus Proche
Voisin. Une maquette de ces fonctionnalités à été
proposée.
Pour les des "échantillons", l'équipe A/S est en charge
du développement d'un système
de reconnaissance d'extrait musicaux dans une large base de données
(Web Music
Monitoring System) fondé sur la technologie appelée "siganture
sonore" ou "fingerprint". Les enjeux de
cette année on été d'évaluer le système
pré-existant et de l'améliorer en ce qui concerne
la résistance du système aux dégradations du son
(variation de volume,
compression, égalisation). Une maquette de ces fonctionnalités
à été proposée.
Responsable : X. Rodet
Participant : G. Peeters
Collaborations internes : développeurs ECRINS et Descripteurs,
Equipe PCM
Projet ECRINS, Environnement de Classification et Recherche Intelligente de Sons
Ce projet est une collaboration entre l'Ircam, l'Ina-GRM et la
société
Digigram. L'objectif du projet est de développer des outils,
destinés aux
professionnels de la production sonore, proposant différentes
interfaces
de navigation à travers une grande base de données d'échantillons
sonores
à partir de descripteurs de haut niveau (recherche par contenu,
édition).
Dans le cadre de ce projet, un ensemble de méthodes de calculs
de
descripteurs a été établi [Tisserand01b] [Tisserand01c].
Ces méthodes de
calculs ont été implémentées sous forme
d'une bibliothèque écrite en C++ qui
a été intégrée dans le logiciel Xtrack
du partenaire Digigram .
Une validation de certains de ces descripteurs a été
effectué en
collaboration avec l'équipe PCM.
La recherche d'algorithmes de classification a débouché
sur
l'implémentation de prototypes sous Matlab. Ces prototypes sont
en cours
d'implémentation sous forme d'une bibliothèque C++ afin
d'être incorporés
à des applications.
Afin de pouvoir communiquer efficacement entre les différents
partenaires,
un logiciel permettant de stocker des informations dans les fichiers
sons
a été écrit. Il permet ainsi de manipuler facilement
les fichiers sons
tout en conservant une description de leur contenu.
Responsable: X. Rodet
Participants : P. Tisserand , V. Rioux
Collaborations internes : G. Peeters et Equipe PCM
Collaborations externes : INA-GRM, Digigram
Projet Descripteurs pour la synthèse
Dans le cadre d'une thèse sur la génération et
l'utilisation de sons synthétiques dans des applications multimedia
et dans un contexte MPEG4, le CNET-France-Télécom (FT) développe
un outil de génération de fichiers sonores au format Structured
Audio (.mp4).
L'IRCAM assure la direction de ce travail de thèse (X. Rodet).
Cet outil devra
permettre de synthétiser à terme toute une panoplie de
signaux sonores susceptibles
d'être utilisés dans les applications intéressant
FT. Il y a naturellement une profonde interaction entre ce projet, le projet
Cuidado
et le projet ECRINS. L'outil comprend un système d'analyse
de signaux naturels et avec traduction en paramètres de bas niveau.
La deuxième étape du travail nécessaire pour réaliser
l'outil de génération de fichiers sonores est faite par l'équipe
A/S dans le cadre d'un contrat France Télécom R&D. Cette
analyse doit permettre d'extraire des paramètres de haut niveau,
permettant aussi une caractérisation des signaux pour leur utilisation
future dans des applications d'indexation. Cette analyse a pour but essentiel
de servir à la resynthèse d'un signal perceptuellement
semblable au signal analysé, en dérivant les paramètres
nécessaires à la synthèse à partir des paramètres
de haut niveau. L'ensemble des sons étant extrêmement
vaste, il a été
indispensable de se limiter à une classe de sons constituée
des sons de courte durée, de l'ordre de quelques secondes, et ne
présentant pas d'évolution importante du timbre, tels que
les notes isolées des instruments de l'orchestre. Le calcul des
descripteurs est fait au moyens de programmes prenant en entrée
les descripteurs de bas niveau fournis par les programmes d'analyse et
fournissant en sortie les valeurs des descripteurs de haut niveau. Les
descripteurs sont organisés de façon hiérarchique
: plus on descend dans l'arborescence, plus la qualité de re-synthèse
est grande, au prix cependant d'un surcoût en sensibilité
et en capacité de stockage. La représentation de ces descripteurs
est faite dans le dans le standard SDIF (cf.
http://www.ircam.fr/equipes/analyse-synthese/sdif/index.html.). Une
base de
données de sons destinée aux tests des programmes de
calcul des descripteurs et à
l'évaluation des descripteurs a été constituée
et les programmes évalués sur cet
ensemble.
Responsable : X. Rodet
Participant : J.P. Lambert
Collaborations internes : G. Peeters, P. Tisserand
Collaborations externes : J.B. Rault et G. Fayemendi (France Télécom
R&D)
3.1.3 Modèles physiques
Méthodes d'inversion de systèmes dynamiques,
modèles de la production de la voix et d'instruments de musique
Durant la première année de thèse, nous nous étions
concentrés sur une étude
bibliographique de la modélisation physique des vents et de
la théorie
des systèmes dynamiques. Ceci nous avait poussé à
mettre notre système
sous la forme de modèles paramétriques et particulièrement
de
systèmes différentiels non linéaires à
retards (S.A.R.), bien adaptés
à l'inversion. L'échec lors de l'identification sur un
modèle de Prony, nous avait conduit
à refaire une étude physique des résonateurs des
vents : d'abord sur
le rayonnement (de type sphérique), puis sur le résonateur
en l'approchant
par une concaténation de tronçons de cônes et en
approchant le rayonnement
par celui d'une calotte sphérique. Durant la deuxième
année de thèse, nous avons conçu puis appliqué
un
principe de changement de coordonnées implicites qui transforme
une
E.D.P. d'une grandeur scalaire X(x,y,z,t) en une autre E.D.P.
d'une grandeur X2(s,t) de façon équivalente.
L'application de cette méthode à l'équation des
ondes permet donc
d'améliorer sensiblement les méthodes trouvées
dans la littérature, ainsi que
celle précédemment étudiée, tout en conservant
une faible complexité algorithmique
pour la simulation (permettant d'envisager à terme le temps-réel).
Cette méthode nous a également permis de trouver des
résultats physiques
plus fondamentaux (systèmes de coordonnées particuliers,
nouvelles
justifications d'approximations) et a pu être étendue
à des modélisations
plus complexes prenant en compte les phénomènes de couches
limites
ou de vibration de parois.
Responsable: X. Rodet
Participant: T. Hélie
Collaborations internes : C. Vergez,
Collaborations externes: Mines de Paris
Etude des écoulements dans les anches
Bien que leur principe de fonctionnement soit similaire aux anches simples,
les
anches doubles présentent des particularités qui rendent
leur étude plus
complexe. Les modèles à anche simple doivent être
modifiés pour inclure les
détails physiques responsables des différences de son
entre les deux types
d'anche. Cependant, les modèles conçus jusqu'à
présent pour les anches doubles
semblent n'avoir réussi qu'à mettre en évidence
la difficulté théorique et
pratique posée par ces instruments et par les écoulements
y ayant lieu.
Le but de cette thèse est d'arriver à un modèle
physique pour les instruments à
anche double, l'étude physique de l'instrument mettant l'accent
en particulier
sur les caractéristiques de l'écoulement d'air entre
les deux anches. Cela nous
permettra d'identifier les structures et phénomènes décisifs
dans le
fonctionnement de l'instrument et d'extraire des paramètres
réalistes pour
appliquer dans le modèle.
Le travail de thèsea commencé par une étude bibliographique
des modèles utilisés pour
les anches simples, et des recherches d'explication pour le comportement
particulier des anches doubles. Les idées les plus prometteuses
indiquent que
les différences se situent au niveau du couplage entre le jet
et la colonne
d'air de l'instrument, notamment au niveau du recollement éventuel
du jet, de
la récupération partielle de pression ou de la dissipation
turbulente et/ou
visco-thermique le long des parois de l'anche.
Le matériel existant à l'IRCAM permet de faire des mesure
du champ de pression
-- oscillations et variations de pression statique le long de l'anche
-- et
d'observer le déplacement de l'anche simultanément avec
les mesures de
pression. Les expériences menées jusqu'à présent
ont mis en évidence les
fluctuations de pression dues à la turbulence, et ses variations
spatiales et
temporelles, en particulier la correlation entre l'intensité
des fluctuations
et l'onde acoustique.
Dans le dernier trimestre un contact a été établi
avec le LIMSI à Orsay, pour
pouvoir faire des mesures de champ de vitesse de l'écoulement
dans
l'anche double, ou dans un modèle simplifié de celle-ci.
En effet, les mesures
de vitesse à anémométrie (Laser Doppler et par
PIV -- corrélation d'images de
particules) sont très précises, mais imposent des contraintes
sur les
écoulements et sur les conduits qui les contiennent.
Simultanément à ces études, on a développé
un prototype de modèle de hautbois,
qui reste néanmoins très simple. Il servira à
tester les modèles déduits des
expériences, ainsi qu'à générer des hypothèses
qu'il faudra tester par d'autres
expériences. Ce prototype a été testé sous
le logiciel Matlab, et il a été
porté en C. L'adaptation du code à jMax est en cours,
et une simulation en
temps réel est envisageable à court terme.
Ce modèle est constitué d'un excitateur semblable à
l'anche simple, mais qui
inclut des pertes de charge le long de l'anche. Cela introduit une
hystérésis
dans la caractéristique pression/débit, qui est responsable
d'un comportement
de l'anche qualitativement différent -- l'anche peut, par example,
transiter
soudainement d'un état ouvert à un état fermé.
Ce modèle est couplé à une ligne
à retard avec des filtres de réflexion et propagation
pour simuler le
résonnateur. La complexité de l'excitateur pose des problèmes
pratiques pour la
conception de la simulation numérique: il faut, en effet résoudre
trois
équations différentielles non-linéaires par une
méthode itérative.
Responsable : X. Rodet
Participant : A. Almeida (thèse)
Collaborations internes : R. Caussé, C. Vergez, Equipe Acoustique
Instrumentale
3.1.4 Contrôle de la syntèse
Etude du geste instrumental
Marcelo M. Wanderley a fini sa these de doctorat ATIAM sur le controle
gestuel de la synthese sonore et l'interaction interprète-instrument
dans le contexte du jeu instrumental avec des nouveaux instruments. La
soutenance a eu lieu le 7 Juin 2001 à
l'Universite Paris VI et le candidat a obtenu la note maximale.
Responsables : X. Rodet
Participant : M. Wanderley (thèse)
Collaborations internes : Equipe Systèmes temps-réel
Collaborations externes : P. Desain, P. Depalle
Méthodes par apprentissage pour l'estimation des paramètres de contrôle d'algorithmes de synthèse
Dans le contexte de la recherche sur l'estimation des paramètres
de contrôle
(cf. rapport d'Activités 2000 et [D'haes'01]) un nouvel algorithme
est
proposé pour la recherche des K plus proches voisins dans un
espace
multidimensionel. Cet algorithme peut se scinder en deux étapes:
1) décomposition hiérarchique
2) recherche dans la décomposition.
La décomposition hiérarchique est réalisée
en
utilisant des hyperplans déterminés par analyse en composantes
principales.
Pour cette raison l'algorithme a été nommé : séparation
en composantes principales
(principal component split). La recherche parcourt l'arbre et évite
d'évaluer des noeuds
qui ne peuvent pas contenir de plus proches voisins. On a montré
que cette
décomposition optimise la probabilité que des vecteurs
qui sont proches soient groupés
ensemble. Ceci résulte en un algorithme très efficace.
On a montré que pour un nombre de
dimensions inférieur ou égal á 4 le temps de calcul
croît de manière logarithmique avec le
nombre de vecteurs. Deux article ont été proposés
pour publication. L'un pour une conférence [D'haes02b] et l'autre
pour un journal [D'haes01a].
Responsable : X. Rodet
Participant : W. D'Haes (thèse)
Collaborations internes : T. Hélie
Collaborations externes : Université d'Anvers
3.2 Activités de développement
3.2.1 Développements généraux
Développement du standard SDIF et de ses applications
Ce standard de format de fichier, plateforme indépendant, extensible
et en accès libre, spécifie très précisemment
les types de données de
description des signaux audio et leur représentation. Il permet
donc à
des logiciels différents de communiquer immédiatement
dès lors que
leurs entrées/sorties sont conformes au standard. Il facilite
également la maintenance des fichiers de données grâce
aux
informations annexes encapsulées dans le fichier, et en permettant
à
des données hétérogènes de co-exister dans
une seul fichier. Une
bibliothèque de fonctions C de lecture/écriture, ainsi
que des
applications, ont été développés et mises
en licence "open source" sur le site de l'équipe
http://ircam.fr/anasyn/sdif.
Durant l'année 2001, des extensions concernant la performance
de la
bibliothèque et la simplicité de son API (Application
Programming
Interface) ont été développées. D'autres
applications ont permis de
faciliter l'accès aux fichiers SDIF, par exemple une
application d'édition et visualisation graphique des données
des
fichier SDIF.
La librairie SDIF a connu diverses améliorations
pour les
utilisateurs. Le changement le plus important est la réorganisation
de la gestion des types. A partit de la version 3.4,
les types par défaut qui sont
utilisés, s'il n'y a pas de fichier SdifTypes.STYP, sont
les mêmes que
les types définis par les fichier SdifTypes.STYP par
défaut. De plus,
tous les bugs rapporté par les utilisateurs externes ont été
fixés.
Responsable : A. Roebel
Participants : A. Roebel, D. Schwarz, P. Tisserand
Collaborations externes : M. Wright, Université de Berkeley-CNMAT
SuperVP
Le logiciel Super-VP est un Vocodeur de Phase développé à l'Ircam il y a une dizaine d'années. C'est le moteur de calcul utilisé en particulier dans le logiciel AudioSculpt. Il est apparu indispensable de pallier à certains problèmes de la version actuelle, et d'intégrer des améliorations apparues récemment dans la technique du vocodeur de phase. Ce travail vient en complément de la nouvelle version d'AudioSculpt développée sur Macintosh. Le logiciel Super-VP a été réorganisé profondément afin de faciliter son fonctionnement propre. Les travaux ont été effectués en parallèle avec le développement d'Audiosculpt 2.0. Concernant Super-VP, les modules dilatation temporelle, rééchantillonage, filtrage et analyse (fft et lpc) ont été retouchés, avec une réorganisation cependant limitée par la structure existante du logiciel. Malgré ces restrictions plusieurs améliorations de l'organisation interne ont été effectuées. Les résultats d'une dilatation ou d'un rééchantillonage sont de haute qualité relativement à la qualité que permet un vocodeur de phase. Le synchronisation de phase de la méthode Dolson/Laroche a été implantée et a amélioré les fonctions de transfert pour les amplitudes des partiels non stationnaires. Les améliorations obtenues concernant la "phasiness" pour les signaux parole sont faibles et l'implantation d'un modèle "shape invariant" apparait nécessaire.
Responsable : A. Roebel
Collaboration externe : D. Ralley, A. Lithaud
Outils de visualisation et d'analyse de signaux Xspect
Comme l'ont montré encore de récents travaux de post-traitement
pour des films, le logiciel de visualisation et d'analyse de signaux Xspect,
écrit en X/Motif sous Unix, est un outil quotidien essentiel
aux travaux de l'équipe: http://www.ircam.fr/equipes/analyse-synthese/xspect/index-e.html
En particulier il a été nécessaire
d'améliorer et d'accélérer le calcul et le tracé
des Sonagrammes. Certains problèmes de ce logicielle ont été
résolus. Le changement le plus important est l'utilisation de la
librairie libaudiofile pour accéder le fichier sons. Avec cette
librairie plusieurs nouveaux formats sont accessibles avec Xspect. D'autres
travaux de fond ont été effectués sur le code, en
particulier concernant la ré-initialisation des variables.
Le traitement des couleurs pour le spectrograme a été
réimplanté.
Responsable : A. Roebel
Participant: A. Roebel
Développement d'une Interface graphique pour additive
Pendant le projet fin d'études de Hans Van Gompel (Université
d'Anvers, Informatique)
encadré par Wim D'haes, une interface graphique pour additive
a été réalisée en
Java. De plus, l'interface permet de visualiser les données
SDIF. Ceci est réalisé
par une couche logicielle d'interface C (JNI, Java Native Interface)
qui permet d'utiliser la librairie C
existante.
Responsable : X. Rodet
Participant : W. D'Haes (thèse), H. Van Gompel (stage)
Collaborations externes : Université d'Anvers
3.2.2 Développement sur Macintosh
Logiciel AudioSculpt-2
Une toute nouvelle version du logiciel AudioSculpt a été
continuée en 2000. Le cahier des charges a été élaboré
en 1999-2000 par A. Ricci. L'écriture du logiciel, commencée
en 2000, a été poursuivie par D. Ralley en suivant les spécifications
précises du cahier des charges et en collaboration avec le développement
de Diphone. En particulier, des classes C++ et des librairies sont partagées
par les deux logiciels, ce qui diminue la charge de développement
et accélère la mise au point. Un prototype est apparu au
printemps 2001 permettant de tester les choix et les résultats avec
des personnes de l'Ircam. Une version expérimentale a été
produite pour l'automne 2001 pour être soumise à des béta-testeurs
puis au Forum. De nouvelles versions ont été développée
depuis. AudioSculpt-2 est dors et déja utilisable.
Responsable : X. Rodet
Participant : D. Ralley
Collaborations internes : A. Roebel, A. Lefèvre, équipes
Production et Pédagogie
Collaboration externe : A. Lithaud
Logiciels Diphone-Studio
Le développement de l'ensemble Diphone Studio s'est poursuivi
et de nombreuses améliorations on été faites pendant
l'année 2001:
- Ajout de l'analyse des enveloppes spectrales dans AddAn, prise en
compte des enveloppes spectrales dans la synthèse additive.
- Implantation du language de définition des actions effectuées
sur les applications de Diphone-Studio.
- Possibilité de définir des enchainement d'actions (comme
des analyse, des synthèses, la création et la synthèse
d'une séquence) dans ce language, accepté et interprété
par les applications de Diphone-Studio.
- Nouvelle méthode d'analyse additive, Hidden Markov Model (HMM),
en particulier
pour les sons inharmoniques.
- Segmentation automatique des sons pour la définition des diphones
et la création directe de dictionnaires.
- Exécution de plusieurs séquences en parallèle
avec un temps commun, utilisant des plugins de synthèse quelconques.
- Possibilité de substituer des paramètres d'une séquence
dans un autre.
- Traitements (analyse et synthèse) de fichiers de sons jusqu'à
24 bits.
Responsable : X. Rodet
Participant : A. Lefèvre
Collaborations internes : D. Ralley, équipes Production et
Pédagogie
3.3 Liste des participants
Personnel sous contrat de travail
Responsable: Xavier Rodet
Chargés de recherche et de développement: Geoffroy Peeters,
Patrice Tisserand, Axel Roebel et Jean-Phillipe Lambert
Chargés de développement : Adrien Lefèvre et David
Ralley
Stagiaires et étudiants
Geoffroy Peeters, DEA ATIAM, Université Paris-6
Marcello Wanderley, Thèse, DEA ATIAM, Université Paris-6
Diemo Schwarz, Thèse, DEA ATIAM, Université Paris-6
Thomas Hélie, Thèse DEA ATS, Paris XI-Orsay
Wim D'Haes, Thèse , Université d'Anvers
André Almeida, Thèse , Université Paris-6
Emmanuel Vincent, ENS Ulm, DEA ATIAM puis thèse Ulm
Bertrand Delezoide, ENS Cachan, DEA ATIAM puis thèse Paris-6
Michael Durand, stage INSA Lyon
Sylvie Noel, ENSEEIHT (Ecole Nationale Supérieure d'Electrotechnique,
d'Electronique, d'Informatique, d'Hydraulique de Toulouse)
Sébastien Bailleul, stage Université d'Orléans
Consultants
Alain Lithaud, compositeur
3.4 Informations annexes
3.4.1 Publications
Articles parus dans des revues à comité de lecture
[Vergez01] Vergez C. and X. Rodet, « Trumpet and Trumpet Player:
a highly nonlinear interaction studied in the framework of nonlinear
dynamics », International Journal of Bifurcation and Chaos, July
2001.
[Rioux01] Rioux, V. & Västfjäll, D. (2001) « Analyses
of Verbal Descriptions of the Sound Quality of a Flue Organ Pipe »,
in Musicae Scientae, Spring 2001, vol. V, Number 1, p 55-79.
Actes de congrès avec comité de lecture
[Orio01] Orio N., N. Schnell & M. Wanderley, « Input Devices
for Musical Expression: Borrowing Tools from HCI », Proceedings of
the
New Interfaces for Musical Expression Workshop (NIME) during ACM CHI
2001 - Seattle, USA - April 2001.
[Wanderley01] Wanderley M., « Quantitative Analysis of Performer
Non-Obvious Gestures », Proceedings of the IV Gesture
Workshop - London, UK - April 2001.
[Schwarz01a] Orio N. and D. Schwarz, « Alignment of Monophonic
and Polyphonic Music to a Score », Proceedings of the
International Computer Music Conference (ICMC 2001), September 2001,
Havana, Cuba.
[Rodet01] Rodet X. and F. Jaillet, « Detection and modeling of
fast attack transients », Proceedings of the International Computer
Music Conference (ICMC 2001), September 2001, Havana, Cuba.
[Hélie01a] Hélie T., C. Vergez et X. Rodet, conférence
plénière invitée « Virtual Musical Instruments
: Contribution to physical modeling and control of
self-sustained instruments », in Proceedings of the 5th World
Multi-Conference on Systemics, Cybernetics and Informatics,
Orlando, International Institute of Informatics and Systemics, 2001.
[Lemaitre01] Lemaitre01 G., C. Vergez, X. Rodet and R. Caussé,
« Physical modeling of oboe-like instruments: influence of the bore
conicity and of the pipe neck after the double reed», in Proceedings
of the 5th World Multi-Conference on Systemics, Cybernetics
and Informatics, Orlando, International Institute of Informatics and
Systemics, 2001.
[Roebel01b] Röbel A., « Adaptive additive synthesis using
spline based parameter trajectory models », In Proc. of the International
Computer Music Conference (ICMC'01), Havanna, Cuba, Septembre 2001.
[Vergez01a] Vergez C. and X. Rodet, « Trumpet and trumpet player:
modelisation and simulation in a musical context », Proc. of the
International Computer Music Conference (ICMC'01), Havanna, Cuba, Septembre
2001.
[Vergez01b] Vergez C. and X.Rodet. « Trumpet and trumpet player: physical modeling in a musical context. » (invited paper) ICA'2001, Rome, Italy, September 2001.
[D'haes01] D'haes W. et X. Rodet X, «Automatic Estimation of Control
Parameters: An Instance-Based Learning Approach», Proc. of
the International Computer Music Conference (ICMC'01), Havanna, Cuba,
Septembre 2001.
[Hélie01b] Hélie T., D. Matignon, « Damping models
for the sound synthesis of bar-like instruments », in Proceedings
of the 5th
World Multi-Conference on Systemics, Cybernetics and Informatics,
Orlando, International Institute of Informatics and Systemics, 2001.
[Susini01] Susini P., I. Perry, S. Vieillard, S. Winsberg, S. McAdams,
X. Rodet, « Sensory evaluation of air-conditioning noise:
Sound design and psychoacoutic evaluation », ICA 2001, Rome,
Sept. 2001
[Wanderley01a] Wanderley M. and P. Depalle, « Gesturally Controled
Digital Audio Effects », in Proceedings of the COST-6
Conference on Digital Audio Effects (DAFx-01) - Limerick, Ireland -
December 2001.
[Wanderley01b] Wanderley M., « Gestural Control of Music »,
International Workshop Human Supervision and Control in
Engineering and Music - Kassel, Germany - September 2001.
[Wanderley01c] Wanderley M., M.H. Serra, M. Battier and X. Rodet, «
Gestural Control at IRCAM », Proc. International Computer
Music Conference, ICMC2001 - Havana, Cuba - September 2001.
[Peeters01a] Peeters G., « Musical Timbre Similarity », AES 110th Convention Amsterdam (Holland), May 2001.
[Wanderley01e] Wanderley M., and T. Hélie, « Detailed Study
on the Expressive Movements of Acoustic Instrument Performers with
Applications to Human-Computer Interaction in Complex Multiparametric
Contexts », 3rd Conference on Sensorimotor Controls in
Men and Machines - Marseille, France - October 2001.
Congrès de normalisation, congrès sans comité de lecture, et rapports
[Tisserand01a] Tisserand P., « Result of CE on Timbre Similarity », ISO/IEC JTC 1/SC 29/WG 11, Pisa meeting, m6805, MPEG-7.
[Tisserand01b] Tisserand P., and, X. Rodet, « Calcul des descripteurs
bas niveaux », Rapport intermédiaire du Projet PRIAMM
ECRINS, Ircam, Paris, Juin 2000.
[Tisserand01c] Tisserand P., and, X. Rodet, « Rapport d'avancement
sur le travail sur les descripteurs », Rapport intermédiaire
du
Projet PRIAMM ECRINS, Ircam, Paris, Octobre 2000.
[Peeters01C] Peeters G., « MPEG-7 Multimedia Content Description
Interface », Part 4: Audio (4.3.15-4.3.22, 5.3) ISO/IEC FCD
15938-4, Ircam, 2001.
Travaux universitaires, mémoires, thèses, habilitations
[Wanderley 01d] Wanderley M., « Performer-Instrument Interaction: Application to Gestural Control of Sound Synthesis », PhD Thesis, Unoversité Paris-6, Juin 2001
[Peeters01B] Peeters G., « Modèles et modélisation
du signal sonore adptés aux caractéristiques locales »,
Thèse ATIAM, Ircam,
July 2001.
[Vincent01] Vincent E., « Séparation de signaux audio:
principes statistiques de l'analyse en composantes
indépendantes et applications au signal monophonique »,
Rapport de stage de DEA ATIAM, IRCAM, Juin 2001.
[Delezoide01] Delezoide B., « Analyse en sous espace indépendants
pour la séparation de signaux audio », Rapport de stage de
DEA ATIAM, IRCAM, Juin 2001.
[Bailleul01] Bailleul S., « Modélisation physique de guides
d'ondes à symétrie de révolution », rapport
de stage de maîtrise de
mathématiques appliquées, université d'Orléans,
août 2001.
[Noel01] Noel S., « Mise en oeuvre d'une base de données
de sons », rapport de stage de l'Ecole Nationale Supérieure
d'Electrotechnique, d'Electronique, d'Informatique, d'Hydraulique de
Toulouse, Ircam, August 9, 2001.
Article invité dans une revue
[Vergez01c] Vergez C. et X. Rodet, « Etude d'un système
non linéaire musical », SCIENCES, Avril 2001.
Review d'articles et propositions
Review en tant qu'expert pour the Information Society Future and Emerging Technologies unit de la Commission Européenne de Bruxelles (X. Rodet)
Review pour SIGGRAPH 2001 (X. Rodet)
Review d'un article pour le journal IEEE transactions on Signal Processing (X. Rodet)
Review d'un article pour le journal OrganisedSound (X. Rodet)
Review d'une Research Proposal pour ISF, Israel (X. Rodet)
Review d'une proposition en tant qu'expert pour RIAM (X. Rodet)
Review de propositions pour la conférence ICMC (X. Rodet,
G. Peeters)
Diffusion de connaissances
Organisation de la session Physical Modeling à la 5th World Multi-Conference on Systemics, Cybernetics and Informatics, Orlando, International Institute of Informatics and Systemics, 2001 (T. Hélie et C. Vergez).
Conférence de X. Rodet, « Outils de description de phénomènes
sonores » au
Collège Iconique de l'INA, juin 2000, publié dans
Les cahiers du collège Iconique, INA, 2001, pp 93-123.
Mission invitée de X. Rodet à l'Université de Santa Cruz, Californie, Octobre 2001. Conférence au Digital Arts/New Media Focussed Research Activity group.
Mission de X. Rodet à l'Université de Berkeley, Californie, Octobre 2001. Conférence « Détection de Transitoirs et Diphone Studio », au CNMAT.
Cours de X. Rodet au DEA ATIAM, « Modèles physiques et modèles de signaux ».
Conférence de T. Hélie au Séminaires interne de recherche et création « Inversion d'un modèle de lèvres dans les cuivres; Modélisation de la propagation des ondes dans les cuivres et rayonnement », Mars 2001.
Conférence de G. Peeters au Séminaires interne de recherche et création « Modèles et modification du signal sonore adaptés à ses caractéristiques locales », Octobre 2001.
Conférence de A. Roebel au Séminaires interne de recherche et création « Additive analysis/synthesis using adaptive and reassignment techniques », Octobre 2001.
Conférence de B. Delezoide et E. Vincent au Séminaires interne de recherche et création « Séparation de signaux audio monocapteur par analyse en sous-espaces indépendants », Novembre 2001.
Conférence de J.P. Lambert au Séminaires interne de recherche
et création « Descripteurs des sons pour la synthèse
», Novembre 2001.
Jurys de thèse et d'habilitation à diriger des recherches
X. Rodet président du jury de thèse de M. Wanderley, Université
Paris-6.
X. Rodet membre du jury de thèse de M. Wanderley, Université
Paris-6.
X. Rodet membre du jury de thèse de G. Peeters, Université
Paris-6.
Travaux avec des compositeurs
Opéra "K" de P. Manoury (travaux de G. Peeters et X.Rodet)
Contrats
Contrat de recherche avec France-Télécom R&D sur les
"Descripteurs pour la synthèse".
Contrat Européen IST CUIDAO
Contrat Ministériel ECRINS