PROJET

EQUIPE ANALYSE-SYNTHESE

RAPPORT D’ACTIVITE 2002

1. Analyse et synthèse des sons

Responsable : Xavier Rodet

Les travaux de l’équipe Analyse et synthèse des sons sont centrés sur les problématiques de l’utilisation, de l’interprétation automatique de l’audio, et, inversement de sa génération. Le thème du traitement fondé sur le contenu est relativement nouveau et connaît une forte croissance dans les centres de recherche et dans les applications. Mais c’est aussi le moyen d’extraire automatiquement de l’information à partir de l’audio pour venir en aide aux musicologues dans l’analyse musicologique, ainsi de nouveaux travaux ont été lancés dans cette direction. La séparation de sources également participe essentiellement de l’analyse, mais trouvera des applications très intéressantes dans l’indexation par exemple ou dans des traitements intelligents. Dans le domaine de la synthèse aussi, les méthodes utilisant de grandes bases de données, comme la sélection d’unités, sont appelées à de fort développement [Rodet02a]. Enfin les techniques d’inversion commencent à donner des résultats prometteurs pour faciliter l’utilisation de modèles puissants et donc complexes à contrôler. De toutes ces recherches découlent de nombreuses applications, librairies et autres développements logiciels pour les musiciens ou pour le grand public comme la transformation de voix.

1.1. Traitements fondés sur le contenu

Les traitements fondés sur le contenu connaissent en énorme développement dans le monde en termes de recherche autant que d’implication de grandes compagnies commerciales. Le comité de normalisation et les conférences MPEG-7 et ISMIR sont quelques-uns des lieux où cette activité est en pleine croissance. Ainsi, G. Peeters a participé, entre autres, aux meetings MPEG-7 de Klagenfurt et de Shanghai et y a représenté l’Ircam et Sony avec qui l’Ircam collabore dans CUIDADO. Un nouveau type de représentation des données, le modulationType, y a été proposé. Les activités de l’équipe concernent la caractérisation, la classification et l’indexation de l’audio dans le cadre du multimédia en général.

1.1.1. Caractérisation des sons

L’étude de la caractérisation des sons afin d’en permettre la classification automatique a été poursuivie [Peeters02b], [Herrera03a]. En particulier de nouveaux descripteurs ont été étudiés : modulation (d’amplitude et de fréquence), MFCC, Sonies relatives. Deux procédures de sélection automatique des descripteurs les plus appropriés pour un schéma de classification donné (schéma pizzicato/sustain, schéma famille d’instrument, schéma instruments) sont proposées : sélection sur base de l’information mutuelle, sélection sur base des axes discriminants. Cette sélection permet de réduire le nombre de descripteurs nécessaires pour la classification et ainsi d’alléger la modélisation et d’éviter la « malédiction de la dimensionnalité ». Les descripteurs sélectionnés sont ensuite utilisés pour l’estimation des paramètres des classes (modification par analyse discriminante et modélisation de type gaussien multidimensionnel). L’évaluation de la méthode complète (extraction, modélisation et classification) est effectuée sur un sous ensemble de 1400 sons issus de Studio-Online. Le taux de réussite moyen (évalué sur des ensembles d’apprentissage et de test de 66 % et 33 % de la base de donnée respectivement) est de 90.5 %.

Le portage de l’ensemble du système (extraction/modélisation/classification) en C++ a été effectué et intégré dans la version en ligne de la Sound Palette de CUIDADO.

Ces travaux ont été présentés aux meetings MPEG-7 de Klagenfurt et de Shanghai et ont permis de proposer un nouveau type de représentation des données dans MPEG-7: le modulationType.

Participants : G. Peeters

Collaborations internes : équipe Services en ligne

Collaborations extérieures : P. Herrera (UPF, Barcelone), F. Pachet (Sony)

1.1.2. Project ECRINS, Environnement de Classification et Recherche Intelligente de Sons

Ce projet est une collaboration entre l'Ircam, l'Ina-GRM et la société Digigram sur un financement PRIAM. L'objectif du projet est de développer des outils, destinés aux professionnels de la production sonore, proposant différentes interfaces de navigation à travers une grande base de données d'échantillons sonores à partir de descripteurs de haut niveau (recherche par contenu, édition, etc.).

L'étude sur la classification a été poursuivie en 2002 [Tisserand02a]. Afin d'améliorer les résultats nous avons choisi de travailler plus profondément sur les méthodes de modélisation des évolutions dynamiques [Tisserand02b]. La décomposition en polynômes de Legendre a été retenue pour la modélisation de l'enveloppe temporelle des descripteurs. Les résultats de ces études ont permis la création d'une bibliothèque, écrite en C++, offrant les fonctionnalités de la classification automatique à la plate-forme en ligne ECRINS de l’équipe Service en ligne. Une pré-étude sur les outils de mise en forme a été conduite [Tisserand02c] et des maquettes implémentées en Matlab.

Participants : P. Tisserand, G. Peeters

Collaborations internes : M. Jacob (équipe Services en ligne)

Collaborations extérieures : P. Herrera (UPF, Barcelone)

1.1.3. Classification et Indexation de Documents Multimédia par la collaboration du Son, de l'Image et du Texte

Le but de cette thèse est de comprendre les mécanismes qui relient les informations contenues dans les différents médias d'un document multimédia et de les utiliser conjointement pour l’indexation. Dans le contexte d'une base de données multimédia, on cherche à caractériser ces relations de façon à permettre l'indexation et la recherche des contenus par la fusion d'information multicritères, fondés sur le Son, le Texte et l'Image. Les principaux résultats de l’année 2002 sont :

- Elaboration de descripteurs audio (signature) du signal.

- Création d'une base de donnée multimédia.

- Etude des relations entre les contenus des différents médias (vidéo, audio et texte) d'un document.

- Création d'un système de classification prenant en compte la multimodalité des documents

La base de donnée audio qui a été créée comporte des signaux de provenances diverses : musique populaire et classique, journaux télévisés, films, etc. Un système d'indexation multimédia a également été ébauché. Il comprend un segmenteur audio et vidéo, et une classification de l'audio en trois classes : parole pure, musique et mélange parole/musique.

Il reste désormais à aborder plus particulièrement l'étude des possibilités liées à la multimodalité des documents, afin de mieux comprendre et utiliser les relations entre médias (notamment l’audio et la vidéo).

Participants : B. Delezoide

Collaborations extérieures : M.M. Pic (CEA)

1.1.4. Reconnaissance de morceaux

Le système de reconnaissance d’extraits musicaux dans une large base de données, appelé Web Music Monitoring System (WMMS), développé dans le cadre du projet CUIDADO, bénéficie maintenant d’un système de reconnaissance amélioré par utilisation de probabilités conditionnelles. Ce système a été testé sur une large base de donnée, ce qui permet de faire passer le taux de reconnaissance de 94.5 % à 97 % (97.5 % sur les 5 premiers extraits trouvés).

Le prototype d’application (échantillonneur/extracteur/base de donnée/classifieur) a été porté sur plate-forme Windows.

Participants : G. Peeters

1.2. Analyse musicale du signal

Les recherches de l’Institut sur l’analyse musicale se sont traduites durant l’année 2002 par un groupe de travail pluridisciplinaire animé par G. Assayag et X. Rodet. Un site regroupe des informations, rapports et logiciels résultant de ces réunions

http://bscw.gmd.de/pub/english.cgi?op=rmail

Enfin un rapport final résume les conclusions du groupe de travail. Les travaux concernant l’analyse musicale menés dans l’équipe Analyse-Synthèse s’appuient sur les recherches orientées contenu menées dans les projets ECRIN et CUIDADO, Ainsi les résumés musicaux ont été étudiés dans CUIDADO, et une thèse a commencé sur le sujet plus général de l’extraction de structures musicales à partir de l’audio en collaboration avec l’équipe Représentation Musicale. Enfin l’alignement de partitions avec l’audio doit permettre, entre autres, des travaux musicologiques, par exemple sur l’interprétation.

1.2.1. Résumés musicaux visuels et sonores

Les résumés à construire à partir d’un enregistrement audio doivent constituer une représentation concise mais incluant l’essentiel du contenu d’une œuvre musicale, soit sous forme visuelle, soit sous forme sonore. Dans un premier temps, des caractéristiques sont extraites du signal sonore de l’œuvre. Ces caractéristiques servent ensuite à l’analyse de son contenu.

Dans le cadre du projet CUIDADO [Peeters02c], l’analyse consiste en une modélisation de l’œuvre sous forme d’états (à titre d’exemple, dans le cas de la musique populaire, les états représentent les différentes parties telles que couplets, refrains, etc.). Cette représentation est obtenue par apprentissage non-supervisé (fuzzy-kmeans et modèle de Markov caché avec pruning dans les deux cas). Cette représentation est appelée « approche par état » par opposition aux méthodes dites « approche par séquence » généralement utilisées pour les matrices de similarité.

L’approche par état donne lieu à un résumé visuel sous forme d’une représentation visuelle de type « piano-roll ». Un système interactif a été développé, permettant à l’utilisateur d’appréhender la structure temporelle d’une œuvre par simples clicks.

L’approche par état donne également lieu à un résumé sonore par construction d’un signal sonore constitué de la concaténation d’extraits des signaux des différents états. Une technique permettant d’améliorer la qualité du signal sonore est proposée : BSOLA (beat-synchronous overlap-add).

Dans le cadre d’un stage du DEA ATIAM [LaBurthe02a], l’étude des représentations hiérarchiques de la structure du signal a été commencée. Pour cela la méthode de l’« Oracle des facteurs » est appliquée aux observations du signal.

Participants : G. Peeters, A. La Burthe (stage)

Collaborations internes : équipe Services en ligne

Collaborations extérieures : P. Herrera (UPF, Barcelone)

1.2.2. Extraction de structures musicales de l’audio

Le but de cette thèse, qui vient de commencer, est d'extraire des structures à partir du signal audio d'une pièce sonore : la similarité, les transformations et la discontinuité sur des échelles micro- et macro-temporelles sont les constituants de base de la structure cherchée. L'utilisation du langage de script Python, orienté objet, permet la création d'un cadre consistant et stable, facile à étendre et intégrable dans d'autres logiciels. Elle permet aussi la combinaison facile de plusieurs approches d'analyse d'une pièce musicale. En stockant les données calculées dans des objets persistants, on peut éviter la répétition de calculs coûteux, donc fournir un environnement pour faire des expériences rapides, et en même temps un environnement d'analyse qui peut contenir beaucoup d'informations diverses de nombreuses pièces. Une des approches étudiée est une extension des résultats de la théorie de l'information structurelle (SIT) dans le domaine de l'audio, particulièrement par la modification d'un algorithme génétique d'abord utilisé pour repérer les structures dans des formes des séquences linéaires.

Participants : K. Souren (thèse)

Collaborations internes : G. Peeters (équipe Analyse-Synthèse)

1.2.3. Alignement d'un enregistrement audio avec sa partition

L’alignement d’un enregistrement audio et de sa partition consiste à déterminer les positions temporelles exactes des éléments de la partition (notes et accords) dans un enregistrement audio. Les applications de l’alignement de partitions sont nombreuses, par exemple permettre de constituer automatiquement une grande base de donnée de segments sonores pour la synthèse concaténative par sélection d'unités sonores. Une méthode d'alignement automatique a été développée, fondée sur l'algorithme Dynamic Time Warping (DTW). Elle utilise la structure des pics spectraux, augmentée par un modèle d'attaque et de silence. La méthodologie peut traiter des signaux audio considérés difficiles à aligner, comme la musique polyphonique, des trilles, ou des séquences rapides.

Cet algorithme a été implanté en Matlab et amélioré sur plusieurs points :

· Optimisation de la représentation du chemin d'alignement pour les fichiers sonores volumineux (jusqu’à 2000 notes).

· Accroissement de la résolution temporelle,

· Diminution du temps de calcul.

· Structure logicielle revue et améliorée.

· Meilleures contraintes dans la recherche du chemin.

· Amélioration de l’analyse du signal.

· Renforcement de la robustesse pour aligner correctement les notes faibles noyées dans des notes plus fortes et dont les partiels sont difficiles à distinguer.

Ce programme peut traiter maintenant avec peu d’erreurs des morceaux polyphoniques de moins de cinq instruments pouvant même comporter de la voix chantée. L’évaluation du programme est difficile car il faut constituer des fichiers de test faisant référence et donc segmentés en notes. En particulier, il est n’est pas simple de trouver des fichiers audio et des fichiers midi correspondants qui ne soient pas entachés d’erreurs.

Participants : D. Schwarz (thèse), F. Soulez (stage), E. Vincent (thèse)

Collaborations internes : N. Orio (équipe Systèmes temps-réel)

1.2.4. Effets acoustiques de la pédagogie Bel Canto sur le chant choral

Cette étude a pour but d’éclaircir les effets acoustiques des principes de la pédagogie Bel Canto sur le chant choral. Les expériences et analyses effectuées dans ce stage ont fourni des mesures acoustiques objectives de l'effet de cette méthode. Les expériences ont eu lieu dans l'Espace de Projection à l'Ircam à Paris. Dans un premier temps, le chef de chœur a fait chanter douze exercices par son chœur. Ensuite, un travail a été fait pendant 90 minutes sur plusieurs principes centraux de la méthode Bel Canto. Les mêmes exercices ont été enregistrés à nouveau pendant ce travail. Finalement, la comparaison acoustique de ces deux versions des mêmes exercices a conduit aux résultats. Pour ces mesures acoustiques sur les enregistrements, des programmes existants (additive, F0, XSpect, etc.) ont été utilisés ainsi que de nouveaux programmes développés à cette occasion. Les principes centraux de la méthode Bel Canto étudiés sont les suivants.

La Vibration :

La mesurer de l’énergie dans la bande du formant des chanteurs montre bien l'efficacité acoustique supérieure que la vibration donne à la voix.

La résonance chiaroscuro (claire-obscure, brillant-riche) :

Pour changer de voyelle le conduit vocal doit changer de forme. Ce mouvement peut entrainer une altération importante de la façon dont la résonance influence la justesse du chant. Le lien entre changement de résonance et changement de vibration des cordes vocales (fréquence) peut être très fort. Cependant, nous avons trouvé que cette influence péjorative peut être réduite, voir supprimée, lorsque le principe de résonance Bel Canto de chiaroscuro est appliqué.

La nota mentale :

Après avoir travaillé le principe de la nota mentale, nous voyons qu’un chœur possède beaucoup plus d'énergie dans les hautes fréquences, surtout dans les régions des formants.

Messa di voce :

Ce principe assure une consistance d'énergie vocale et de justesse lorsqu'un chœur chante doucement ou effectue un decrescendo à l'intérieur d'une phrase musicale. Le détail des expériences et des résultats est publié dans [Fagnan02a]

Participants : L. Fagnan (stage), X. Rodet

Collaborations extérieures :Université d’Alberta, Edmonton

1.3. Modèles de signaux

Le traitement des signaux est fondamental pour l’analyse, la modification et la synthèse des sons musicaux. Dans ce domaine, la séparation de source est l’un des problèmes les plus difficiles et les plus intéressants. Des résultats prometteurs ont été obtenus lorsque le problème est restreint, par exemple par des connaissances sur l’une des sources ou s’il s’agit seulement de modifier la balance d’une voie dans un mixage relativement simple. La recherche des fréquences fondamentales dans les enregistrements polyphoniques est un problème apparenté, sur lequel l’équipe a bien avancé en 2002, car séparer les sources et trouver les différentes notes sont deux points de vue fortement reliés. Enfin les représentations en partiels, modèle dit additif, et par enveloppe spectrale, modèle dit source-filtre, continuent à être développées car ce sont parmi les plus importants pour les musiciens.

1.3.1. Nettoyage d'enregistrements stéréo

En réponse à des besoins internes et à des demandes externes, une étude a été menée sur la séparation d’une source de bruit et d’un signal utile (par exemple une source de radio et une voix) à partir d'un enregistrement stéréo où un canal contient un fort niveau de la source de bruit (radio).

Plusieurs algorithmes de séparation ont été étudiés. Le premier implémente la séparation des sources convoluées sans connaissance sur le contenu des canaux. Cet algorithme est proche de l'algorithme de Murata, Ikeda et Ziehe. Il utilise une transformation de Fourier à court terme et applique une décomposition en composantes indépendantes (ICA) à chaque canal de l'analyse. Les composantes indépendantes sont trouvées par diagonalisation conjointe de plusieurs matrices de corrélation (avec plusieurs retards). A la place de l'algorithme en deux pas proposé par Murata et al., c’est l'algorithme de Pham qui est utilisé ici. Il présente l'avantage d'avoir une objective function directement liée à une maximisation de vraisemblance. Pour le regroupement des composantes indépendantes (problème des permutations) un nouvel algorithme a été développé.

Un deuxième algorithme de séparation a été développé qui considère qu’un canal seulement est un mélange et que le deuxième canal contient la source de bruit. Le problème de regroupement ne se pose alors plus et la séparation des sources se fait simplement par estimation de la matrice de corrélation.

L'étude a montré que l'algorithme le plus général souffre d'un temps de calcul beaucoup plus grand. Les résultats de séparation obtenus sont similaires. La qualité de la séparation a été jugée très bonne par le correspondant externe.

Participants : A. Roebel

1.3.2. Séparation de signaux audio par des techniques statistiques

Ce travail a pour but d'extraire dans un enregistrement mono ou stéréo mélangeant plusieurs instruments, la partie jouée par chaque instrument, sous forme de partition ou sous forme sonore.

E. Vincent a poursuivi son travail de thèse en appliquant la modélisation de Markov cachée (HMM) et l'analyse en sous-espaces indépendants (ISA) à la détection de zones correspondant à chaque instrument dans le spectrogramme de l'enregistrement. L'alignement de partitions a été utilisé pour l'apprentissage supervisé des HMM. L'étude des défauts et des avantages de ces deux modèles a conduit à concevoir une combinaison HMM+ISA actuellement à l'étude.

Une Action Jeunes Chercheurs du GdR ISIS a débuté en mars 2002 avec l'IRISA (REnnes) et l'IRCCyN (Nantes). Les résultats de l'Action (rapports internes, routines MATLAB, base de données d'évaluation) sont disponibles sur http://www.ircam.fr/anasyn/ISIS/

T. Foirien a participé à la création d'une petite base de données d'apprentissage et d'évaluation.

Participants : E. Vincent (thèse), T. Foirien (stage)

Collaborations internes : D. Schwarz, N. Orio, F. Soulez (groupe de travail sur l'alignement de partitions)

Collaborations extérieures : S. Dubnov (université Ben Gourion, Israël), F. Bimbot (équipe METISS, IRISA Rennes) et C. Févotte (IRcCYN, Ecole Centrale de Nantes)

1.3.3. Estimation de la fréquence fondamentale

Dans les travaux poursuivis sur l'estimation de la fréquence fondamentale dans l’équipe Analyse-Synthèse, un résultat central obtenu est que la fonction de distance qui servait pour sélectionner les fréquences fondamentales, utilisant la divergence de Kullback-Leibler, pas assez souple, ne pouvait pas être adaptée suffisamment au problème [Prudham02a]. Une nouvelle évaluation des f0 candidats a été conçue, fondée sur trois éléments clefs qui caractérisent le spectre observé et le modèle :

- La distance entre les maxima du modèle et leurs correspondants du spectre observé.

- La régularité de l'enveloppe spectrale du modèle.

- La partie du spectre observé expliquée par le modèle.

Ces trois éléments (normalisés et pondérés suivant leur importance) comme arguments de la fonction de distance ont permis d’améliorer considérablement la qualité et la robustesse de l'estimation. L’évaluation de l'algorithme a été faite sur les bases de donnée fournies par A. de Cheveigné. Pour la base fda de Bagshaw l'erreur totale est de 2.23 % ce qui est égal à l’erreur obtenue par la meilleure méthode, Yin de A. de Cheveigné. Si on prend comme référence les valeurs obtenues par Yin sur le signal du laryngophone, l'erreur du modèle Yin est plus faible que l'erreur de notre modèle. Comparant avec additive-f0, le taux d'erreur est réduit de 30 %. Pour la base de donnée Atake, l'erreur passe de 2.4 % pour additive-f0 à 0.7 % (en comparaison, Yin a un taux d'erreur de 0.3 % seulement).

Participants : A. Roebel, B. Prudham (stage)

Collaborations internes : A. de Cheveigné (équipe Perception et cognition musicales)

1.3.4. Modèle additif

Les travaux sur le modèle additif [Wright02a] concernent les signaux non stationnaires. Pour le cas de faible changement d'amplitude, une estimation de la pente fréquentielle a été établie en utilisant la méthode de réallocation. La méthode utilise cinq transformées de Fourier avec différentes fenêtres. A cause de la forme de ces fenêtres, la résolution fréquentielle est réduite. Mais un mécanisme simple permet de détecter les cas problématiques et d’utiliser alors la méthode standard.

La nouvelle méthode [Roebel02a] a été comparé avec d'autres méthodes d'estimation fréquentielle notamment la méthode utilisant une fenêtre Gaussienne. Les résultats obtenus par la nouvelle méthode sont plus précis dans la majorité des cas spécialement si l'amplitude ne change pas fortement.

Pour les régions transitoires, une détection a été mise en place. Elle permet de traiter les régions transitoires différemment. La recherche avec notre modèle adaptatif (pbench) et les résultats obtenus avec réallocation (méthode Loris) ont montré que le modèle additif peut être amélioré considérablement dans les régions transitoires sans quitter le formalisme additif. Le problème avec la méthode réallocation est que les transitoires sont meilleurs subjectivement mais que le résiduel est forcément d’énergie plus grande. Le modèle adaptatif permet une erreur plus petite, mais le temps de calcul est lourd. Dans cette situation, une nouvelle approche a été étudiée qui réduit le coût d'optimisation à la résolution d’une équation linéaire en utilisant une sinusoïde et un cosinusoïde de fréquence fixe et amplitude variable. Après résolution, les résultats sont portés dans le formalisme additif standard. La méthode permet une réduction du résiduel dans les régions transitoires de 20 % environ. Une difficulté est le problème de détection des transitoires qui s’étend par erreur à des régions à forte modulation (souvent des régions bruitées). Ces erreurs de classification sont gênantes parce que le temps de calcul est accru sans que le résultat soit amélioré. Il faut donc trouver une détection plus robuste. Le deuxième problème de l'algorithme actuel vient de ce que les valeurs des paramètres devraient s'adapter localement (comme avec la réallocation) pour permettre une réduction d'erreur plus forte.

Participants : A. Roebel

1.3.5. Analyse de voix chantée en partiels et enveloppe spectrale

Dans des travaux précédents menés à l’Université de Navarre, I. Arroabarren avait analysé des voix chantées en partiels en utilisant la fréquence et l’amplitude instantanées. De forts artefacts apparaissaient sur ces résultats. Au cours d’un stage nous avons cherché à comprendre ces artefacts et à étendre l’analyse à l’enveloppe spectrale [Arroabarren02a]. Le premier résultat est que la fréquence instantanée n’est pas une bonne représentation lorsque les partiels sont fortement modulés car sa valeur peut, localement, devenir extrêmement éloignée de la valeur approximative du partiel, d’où les artefacts observés. D’ailleurs ces artefacts apparaissent en particulier à cause de la réverbération de la salle qui module les partiels. Sur des enregistrements anéchoiques, ces artefacts disparaissent et les fréquences et amplitudes instantanées sont alors pratiquement identiques aux valeurs fournies par les analyses additive les plus précises (programme additive et pbench), ce qui, de plus, valide réciproquement les deux types d’algorithmes (instantané et additif).

Dans un deuxième temps, les trajets de partiels ainsi obtenus ont été utilisés pour essayer d’obtenir une enveloppe spectrale très précise de voyelles chantées. Ceci est fait en utilisant le balayage des formants par les partiels lors du vibrato. Divers modèles ont permis de s’approcher de mieux en mieux d’une enveloppe spectrale très précise (en particulier valeurs de largeur de bande des formants aussi exactes que possible). De très bons résultats ont été obtenus et comparés à ceux d’autres méthodes d’estimation de l’enveloppe spectrale, Cepstre Discret et Discrete All Pole Modelling en particulier. Ils montrent clairement que les méthodes en question fournissent des valeurs fort éloignées de celles que l’on peut supposer les bonnes au vu des résultats obtenus à partir du balayage. Ceci est très important pour la voix chantée [Rodet02b], en particulier pour obtenir une bonne forme d’onde glottale par filtrage inverse.

Participants : I. Arroabarren (stage), X. Rodet, A. Roebel

Collaborations extérieures : A. Carlosena (Université Publique de Navarre, Pampelune, Espagne)

1.4. Modèles physiques

Diverses classes d’instruments entretenus ont été modélisées à l’Ircam. La classe des anches doubles est la dernière en cours de modélisation. Ainsi la voie sera ouverte pour que les musiciens puissent disposer de modèles de base de l’ensemble des instruments entretenus. Mais, pour bien utiliser ces modèles physiques, il faut pouvoir les contrôler. C’est pourquoi nous étudions l’inversion des modèles physiques, modèles non-linéaires qui posent de difficiles problèmes. Dans ce domaine, la thèse de T. Hélie soutenue en 2002 représente une avancée remarquable.

1.4.1. Etude et modèle physique des instruments à anche double

Les instruments à anche double, comme le hautbois, qui présentent des difficultés particulières pour la modélisation de leur fonctionnement physique sont étudiés dans le cadre d'une thèse conjointe de l'équipe Analyse-Synthèse et de l'équipe Acoustique des instruments. Dans la première année de thèse, un modèle a été conçu en utilisant une hypothèse théorique, de pertes de charge dans l'anche, proposée par A. Hirschberg. Ce modèle mathématique a été appliqué en 2002 à des résonateurs cylindriques et coniques idéaux pour mieux le comparer avec les résultats expérimentaux.

Pour le modèle physique proprement dit, les principaux travaux sont :

- Implémentation d’un modèle physique d’instrument à anche double, avec résonateur cylindrique et dynamique, en Matlab puis postérieurement en C.

- Portage du code C dans l’environnement temps réel jMax, ce qui permet d'étudier plus facilement l’ensemble des paramètres.

- Adaptation de ce modèle pour un résonateur conique idéal, avec pertes indépendantes de la fréquence.

Une bouche artificielle permet de souffler dans l'instrument avec des paramètres bien contrôlés et des valeurs bien connues.

Des expériences ont été faites sur l'utilisation d'une bouche artificielle pour des mesures de l’ouverture de l’anche à l’aide d’un stroboscope, une caméra et un algorithme de traitement et analyse d’images développé en Matlab par A. Almeida.

Les observations essentielles sont :

- Le mouvement des anches est symétrique.

- L’aire de la section d’entrée de l’anche est une fonction presque linéaire de son ouverture. Ce résultat est important puisque les modèles jusqu'à présent considéraient l'aire comme une fonction quadratique de l'ouverture de l'anche.

- Validation entre les mesures faites par vibrométrie laser et celles faites sur les images.

- Les comparaisons entre les mesures expérimentales et les simulations sur la variation de l'ouverture de l'anche sont encourageantes. Elles semblent prédire des effets caractéristiques des anches doubles tels que la transition soudaine entre anche ouverte et anche fermée et l'allure du mouvement de l'anche ouverte.

Par ailleurs, une collaboration est poursuivie avec le groupe de métrologie du LIMSI – Orsay, dans le but de construire une anche en matériau synthétique transparent pour effectuer des mesures de champ de vitesse dans l’anche double. Une première version de l’anche transparente, a été construite, mais elle doit être améliorée pour pouvoir être utilisée dans les mesures

Une nouvelle version de la bouche artificielle est en préparation, avec lèvres en latex, dans le but de réaliser des mesures comparatives entre clarinette et hautbois et de mesurer la caractéristique débit / pression.

Ces travaux ont été présentés dans deux publications [Almeida02a], [Almeida02b].

Participants : A. Almeida (thèse)

Collaborations internes : équipe Acoustique instrumentale

Collaborations extérieures : C.Vergez (LMA), ? ? ? (LIMSI)

1.4.2. Inversion de modèles physiques

La modélisation physique a un grand intérêt pour la synthèse sonore puisqu'elle permet non seulement de générer le son mais aussi le comportement de l'instrument (attaques, transitoires, fausses notes, etc...). Cependant, les instruments virtuels et réels s'avèrent aussi difficiles à jouer. Cette difficulté de contrôle amène la question de l'inversion : « comment dois-je contrôler mon modèle pour obtenir ce son cible que ce musicien a obtenu avec son instrument ?» Ce travail doctoral vise à obtenir des modèles mathématiques aussi simples et réalistes que possibles, possédant des propriétés adaptées à l'inversion, avec comme applications type les cuivres et la production de la voix. Le problème de l'excitateur (e.g. lèvres, glotte, anche, etc...) a été traité pendant un DEA. Celui du résonateur (décrire la propagation dans un tube à section variable et son rayonnement) est l'objet de cette thèse. En première partie, nous établissons un modèle 1D nouveau de propagation acoustique dans les tubes axisymétriques qui n'impose pas de géométrie figée aux fronts d'onde. Ce modèle permet de considérer la mobilité des parois (cas adapté au conduit vocal), ou encore la présence de pertes visco-thermiques. Pour ce dernier cas, un guide entier peut être construit en concaténant des tronçons de tubes à courbure quasi-constante, chaque élément étant représentable par des fonctions de transfert calculables analytiquement. Nous approchons alors chaque élément par des systèmes différentiels linéaires d'ordre fini à retard, plus simples, en nous appuyant sur deux méthodes : les séries divergentes tronquées et les représentations diffusives d'opérateurs pseudo-différentiels. En deuxième partie, nous développons un modèle nouveau de rayonnement acoustique tenant compte de la courbure du front d'onde sortant, utilisable comme condition à la frontière de l'instrument. Nous fournissons là encore des approximations satisfaisantes représentées par des systèmes linéaires à retard. La thèse de T. Hélie a été soutenue à la fin de l’année 2002 [Helie02a].

Participants : T. Hélie (thèse)

Collaborations extérieures : C.Vergez (LMA), D. Matignon (ENST)

1.4.3. Etude pour une modélisation du conduit vocal

L'objectif de ce stage est d'élaborer une modélisation du conduit vocal adaptée à une équation des ondes developpée au sein de l'I.R.C.A.M [Gaullier02a]. Pour une paroi immobile repérée par ses coordonnées curvilignes, cette équation prend la forme de l'équation de Webster bien connue des acousticiens. Tout d'abord, un modèle polynomial est utilisé pour décrire le profil du conduit. Pour contrôler l'articulation, nous développons un outil permettant d'apparier les paramètres de S.Maeda (position de la langue, etc.) et les coefficients polynomiaux, le modèle de Maeda faisant référence. Une étude numérique de l'équation de Webster est ensuite effectuée en vue de sa simulation. Devant l'instabilité des schémas classiques, une recherche de variable d'états mieux adaptées à la discrétisation est engagée. Un système équivalent à l'équation de Webster, constitué de deux équations de transport couplées est établi pour ces nouvelles variables. L'étude de la stabilité numérique pour des schémas appliqués à ce système a donné satisfaction. La conservation d'une énergie est prouvée dans le cas de coefficients constants pour un C.F.L. égal à 1. L'algorithme développé va à terme être utilisé sur des données issues de l'Imagerie à Résonance Magnétique et pourra donner lieu à de la synthèse sonore.

Participants : G. Gaullier (stage), T. Hélie (thèse)

Collaborations extérieures : C.Vergez (LMA)

1.5. Contrôle de la synthèse

Le contrôle de la synthèse joue un rôle tout à fait essentiel dans le succès de la synthèse pour des applications musicales. Il apparaît donc nécessaire d’offrir aux compositeurs des moyens de contrôle exploitant réellement la puissance des processeurs, des systèmes (Bases de données par exemple) et des logiciels d’aujourd’hui. C’est l’objectif qui est visé dans la technique de sélection d'unités sonores comme dans les méthodes d’apprentissage. D’autre part, la puissance de la synthèse additive et le formalisme des fichiers SDIF permettent de novelles applications, telles que des sampleurs intellligents.

1.5.1. Synthèse concaténative par sélection d'unités sonores

Les différents aspects de ce travail sont l'estimation, la classification et la structuration de paramètres, et l'utilisation d'une base de donnés hétérogènes de sons et de caractéristiques. Dans les systèmes de "synthèse de la parole à partir du texte", une nouvelle technique, nommée "sélection d'unités", connaît un grand succès : en effet, les techniques précédentes, malgré des dizaines d'années de recherches intensives n'ont jamais permis d'obtenir une qualité acceptable ; un accroissement de qualité considérable a été obtenu au contraire par cette méthode. Il est donc intéressant de chercher comment la méthode de "sélection d'unités" peut être également appliquée à la synthèse sonore et musicale de haute qualité. La méthode utilise une large base de données hétérogènes de sons choisis (soit des notes séparées, soit des phrases complètes) et de caractéristiques, classés et segmentés suivant des paramètres estimés sur le signal sonore. Le segment qui ressemble le mieux - au sens d'un critère donné - au résultat désiré, est trouvé par des méthodes efficaces de recherche et d'extraction utilisées par l'algorithme de sélection d'unités. Pour répondre aux exigences concernant les paramètres de synthèse nécessaires, le segment sonore trouvé est transformé par des techniques temporelles ou fréquentielles de re-synthèse telles que PSOLA, re-synthèse additive, vocodeur de phase et filtrage. Le segment sonore est enchaîné avec les segments trouvés pour les autres parties du signal à construire, en appliquant des techniques d'interpolation pour former les transitions, et des transformations de niveaux plus élevés. L'année 2002 a vu l'intégration du calcul des descripteurs développés pour les projets européens ECRINS et CUIDADO, utilisant le standard de format de fichier SDIF, et la finalisation du calcul des caractéristiques des unités.

Participants : D. Schwarz (thèse)

Collaboration interne : P. Tisserand, G. Peeters (équipe Analyse-Synthèse)

1.5.2. Méthodes par apprentissage pour l'estimation des paramètres de contrôle d'algorithmes de synthèse

Dans le contexte de la recherche sur l'estimation des paramètres de contrôle pour un modèle physique de trompette [D'haes02d], la recherche pendant l'année 2002 a porté sur les algorithmes de recherche des K plus proches voisins (KPPV) et sur les contraintes physiques de l'instrument.

Algorithme de KPPV, comparaison avec autres méthodes et optimisation :

L'efficacité des algorithmes de séparation-évaluation (branch and bound) pour le calcul des KPPV a été étudiée. Les aspects les plus importants qui influencent cette efficacité sont :

- Méthode de décomposition.

- Méthode d'élimination.

- Méthode de décomposition

- Ordre de parcours

- Niveau de décomposition.

Une dérivation théorique d'une méthode de décomposition a été proposée, fondée sur l'analyse en composantes principales. Différentes méthodes d'élimination ont été combinées ce qui aboutit à 10 algorithmes différents. Comme l'efficacité est fortement influencée par le niveau de décomposition, celui-ci est optimisé par un modèle statistique qui exprime le coût de calcul total en fonction du coût de parcours d'un nœud et du coût de calcul d'une distance. Les algorithmes ont été comparés pour leur efficacité [D'haes02b] [D'haes02a].

Contraintes physiques :

Un problème observé pendant l'estimation des paramètres est que les contraintes physiques de l'instrument n'étaient pas respectées. Afin de résoudre ce problème, un "modèle de contrôle" pour l'instrument a été défini. A partir d'une dérivation théorique, des conditions ont été dérivées pour lesquelles la résonance du modèle physique est maximale (résonance d'un mode). Ceci nous a permis d’identifier des relations approximatives entre les paramètres de contrôle et les caractéristiques du son, et de définir des contraintes physiques [D'haes02c].

Participants : W. D’Haese (thèse)

Collaborations extérieures : D. van Dyck (Université d‘Anvers)

1.5.3. Projet Orgue, un sampleur SDIF

En parallèle à la construction de l'orgue du Palais des Beaux-Arts de Bruxelles par G. Westenfelder et la société Syncordia, l'IRCAM a été chargé de concevoir le prototype d'un système de synthèse sonore pouvant s'adjoindre à l'orgue (de facture classique).

Ce projet nécessite des compétences en analyse-synthèse des sons et en diffusion dans l’espace. Il est donc mené en collaboration entre les équipes Acoustique des salles et Analyse-Synthèse.

Suite au travail effectué en 2001, une première expérimentation du système a été effectuée en grandeur réelle (dans l’Espace de Projection de l’Ircam) en janvier 2002.

En mars 2002 des contacts ont été pris au Conservatoire National de Musique de Paris. Avec l’autorisation du facteur d’orgue, un échantillonnage partiel de l’orgue du CNSMDP a été effectué en juillet 2002 avec l’assistance de M. Deschamps. Les analyses de ces échantillons ont alors pu être lancées en août pour produire les fichiers SDIF. Le principal résultat est un orgue virtuel sous forme d’un sampleur SDIF offrant de très intéressantes possibilités sonores et musicales.

La présentation finale du projet s’est déroulée le 5 novembre 2002 dans l’Espace de Projection de l’Ircam. Deux rapports ont été rédigés [Rioux02b], [Rioux02c] ainsi qu’un article de conférence [Rioux02a].

Participants : V. Rioux, M. Deschamps, M. Poletti

Collaborations internes : équipe Acoustique des salles

1.6. Activités de développement

Les activités de développement ont représenté une part relativement importante du travail de l’équipe. En premier lieu, il s’agit du développement d’outils logiciels pour le Forum des utilisateurs, compositeurs et musiciens, tels que SuperVP, AudioSculpt et analyse-psola. Par ailleurs, certains développements ont été effectués pour répondre à des contrats extérieurs nous permettant de valoriser notre connaissance et notre savoir-faire. Enfin des outils internes comme des bibliothèques ou XSpect sont les moyens de travail quotidiens indispensables aux avancées de l’équipe.

1.6.1. Analyse PSOLA

Ce stage a eu pour but le portage en langage C++ de l'analyse PSOLA écrit par G. Peeters en Matlab dans le cadre de sa thèse. La librairie MatMTL (Cf. MatMTL ci-dessous) a grandement facilité ce portage. De plus des améliorations ont été apportées avec notamment différentes options proposées à l'utilisateur ainsi que les fichiers de sortie écrits en SDIF.

Le programme analyse_psola en C++ tourne sous Linux. La documentation développeur est en ligne à l'adresse : http://iii/analyse_synthese/documentation/psola_analyse/index.html

Participants : E. Joseph (stage), G. Peeters

Collaborations internes : A. Roebel (équipe Analyse-Synthèse)

1.6.2. Transformation des voix en temps réels

Le projet VoxIntox a été demandé et financé par MobiStation, une société de jeux téléphoniques. Pour le service VoxIntox MobiStation a demandé à l'IRCAM de leur proposer des algorithmes pour la transformation des voix en temps réels. Plusieurs algorithmes ont été étudiés. L'implémentation de ces algorithmes a été conçue sur la base de SuperVP. La création d'un bibliothèque dynamique qui pourrait être utilisée dans AudioSculpt pour remplacer l'appel d'un application externe a été déjà étudiée. Le projet VoxIntox a permis de financer la création de cette bibliothèque. Elle permet d'utiliser SuperVP avec tous les algorithmes accessibles en mode ligne commande, en remplaçant seulement les modules E/S qui sont redirigés vers une E/S mémoire. L'efficacité en calcul de SuperVP a permis de gérer 60 voix en parallèle sur un processeur à 1.8GHz, grâce au niveau très bas (8kHz) du taux d'échantillonnage utilisé pour la voix téléphonique. Avec un taux d'échantillonnage pour un traitement de haute qualité, il serait quand même possible de traiter 1 ou 2 voix en temps réel. La qualité et la vitesse obtenues ont été appréciées favorablement par MobiStation. L'extension de la bibliothèque dite "transformer" (qui implémente actuellement deux algorithmes de transformation de voix) pourrait être effectuée en 2003.

Participants : A. Roebel

Collaborations extérieure : Société MobiStation

1.6.3. Logiciel SuperVP

Le développement de SuperVP s’est poursuivi en plus de la bibliothèque "transformer". En premier lieu il est apparu que beaucoup de fonctionnalités de AudioSculpt 1.2beta ne sont bien intégrées dans le fonctionnement général. Après les changements à la base des modules de calcul de SuperVP qui ont été nécessaires pour une haute qualité de traitement, plusieurs fonctions ont été remises en service correctement : calcul du cepstre discret, calcul de fréquence fondamentale, module de mixage avec mixage mul/cross/add, et module freeze. Concernant la fonction freeze la fonctionnalité de la version originale était très limitée, ne permettant de traiter qu’un seul point de freeze. De plus, le freeze n'était pas traité comme un insert dans le son original. Un nouveau module freeze a donc été conçu qui permet de mettre plusieurs points de freeze dans le fichier et qui insère les segments freeze comme une dilatation. La différence du freeze et de la dilatation reste dans le fait que le freeze permet de gérer une statistique de la variation de fréquence pour chaque bin, ce qui peut être utilisé pour éviter de créer des sinusoïdes fixes donc gênantes. Concernant l'implémentation du crayon dans AudioSculpt, un mode d'utilisation important consiste à amplifier fortement certaines régions avec le crayon et supprimer d’autres lors de la normalisation. Dans la version ancienne d'AudioSculpt, la superposition des filtres était gérée par AudioSculpt. Avec la version AudioSculpt 2 qui permet de combiner les filtres plus librement, ce n'est plus possible et donc la partie filtrage a dû être modifiée pour permettre de choisir le mode de superposition des filtres. Deux modes de superposition ont été conçus, le mode multiplication pour l'opération de filtrage sériel et le mode maximum qui sert pour le filtrage avec normalisation. La vitesse du calcul a été améliorée par l'utilisation d'un nouvelle bibliothèque pour le calcul de la transformation Fourier, libfft (voir le paragraphe développement libfft).

Participants : A. Roebel

Collaborations extérieures : A. Lithaud (compositeur)

1.6.4. Logiciel AudioSculpt

M. LoCascio a commencé à travailler à l'IRCAM en juin 2002 sur le développement d’AudioSculpt-2. La structure et l'organisation de AudioSculpt ont été réexaminés. L’ensemble du projet a été converti de CodeWarrior 7 à CodeWarrior 8, et de nombreux bogues ont été réparés dans l'interface graphique et dans le fonctionnement sous Macintosh OS X. Pour le Forum d'automne, plusieurs nouvelles possibilités ont été apportées, améliorations du "crayon", format binaire pour optimiser les grands fichiers de filtres en Super VP, etc. Après le Forum, le sonagramme d’une sélection a été réalisé pour permettre le calcul de sonagramme des grands fichiers de son. En fin d’année, le portage de Diphone pour Macintosh OS X a été commencé.

Participants : M. LoCascio, A. Roebel

Collaborations extérieures : A. Lithaud (compositeur)

1.6.5. Bibliothèque libfft

L'analyse du temps de calcul de SuperVP a montré que la partie FFT est la partie la plus coûteuse. La FFT implémentée dans la bibliothèque UDI utilise un module FFT développé par R. Mayer. La comparaison affichée sur plusieurs sites Internet montre que l'implémentation de R. Mayer n’est plus la meilleure. Par conséquent, une nouvelle bibliothèque, libfft, a été conçue en partant du code libre de la FFT split radix de T. Ooura (http://momonga.t.u-tokyo.ac.jp/~ooura/fft.html). Le code a été fortement modifié ; d'une part, il a été limité au type double, d'autre part les fonctions FFT et IFFT ont été en échangées. La nouvelle bibliothèque a été conçue comme bibliothèque générique avec une interface définie pour les compilations en C. La bibliothèque FFT a été complétée avec une fonction pour générer les fenêtres d’analyse et aussi les fenêtres utilisées pour la réallocation d'énergie dans les spectrogrammes.

Participants : A. Roebel

1.6.6. Bibliothèque Easdif

Avec notre bibliothèque SDIF, la programmation se faisait à très bas niveau. Toutes les opérations (correction de la taille de la trame, alignement des données) étaient à faire à la main. Le projet Easdif a donc été pensé pour créer une bibliothèque C++ qui permet de générer et lire les fichiers SDIF avec un niveau beaucoup plus élevé et sans réduire les possibilités d'exprimer toutes les fonctionnalités de SDIF (création des types adaptés, NVT, etc.). Nous avons donc défini une API de haut niveau qui permet d’exprimer toutes les fonctionnalités SDIF en cachant les détails de stockage des données et de la transformation des types. La gestion des erreurs a été conçue en utilisant les exceptions. L'API a été implémentée et la fonctionnalité a été vérifiée par F. Tisserand. Pour une raison technique de fonctionnement des exceptions, la bibliothèque Easdif doit contenir toutes les fonctions SDIF. La bibliothèque est maintenant en test avec une première application, l’implémentation de l'analyse PSOLA en C++. Pour l'avenir, il reste à implémenter le mécanisme de configuration et installation avant de publier la bibliothèque en téléchargement libre.

Participants : F. Tisserand (stage) A. Roebel, P. Tisserand, D. Schwarz

1.6.7. Bibliothèque MatMTL

Pour faciliter le portage des fonctions Matlab en C/C++, une bibliothèque a été conçue qui permet de transformer les fonctions avec relativement peu de changement de la syntaxe et en même temps permets de diminuer le temps de calcul. Une étude des bibliothèques existantes a montré que les bibliothèques en programmation générique sont particulièrement bien adaptées pour cette tâche. Parmi les bibliothèques existantes, la bibliothèque Blitz est spécialement intéressante car elle utilise la programmation générique pour optimiser les expressions matricielles. Cette technique, baptisée expressions génériques, permet une syntaxe de très haut niveau et en même temps laisse le compilateur organiser le code beaucoup plus proche de l’optimum que toutes les autres bibliothèques connues. Malheureusement la syntaxe de Blitz n'est pas très proche de la syntaxe Matlab et le projet MatMTL a donc eu comme but d’implémenter une bibliothèque de programmation générique avec une syntaxe la plus proche possible de la syntaxe Matlab pour faciliter le portage des fonctions existantes. La bibliothèque MatMTL résultant de ces travaux de développement connaît la plupart des constructions utilisées pour la programmation matricielle et en même temps arrive à diminuer le temps de calcul en moyenne d'un facteur 10. MatMTL a été utilisée pendant l'année dans l'équipe pour plusieurs projets, notamment pour réduire le temps de calcul de fonctions Matlab existantes (projets estimation de F0, additive pbench, séparation des sources, alignement partition).

Participants : A. Roebel

1.6.8. Logiciel XSpect

Les travaux sur le logiciel XSpect ont été centrés sur l’utilisation des différents modes d'analyse spectrale (LPC et CED) qui sont possibles dans SuperVP. Ces deux modes d'analyse spectrale ont été mis dans XSpect. Par ailleurs, nous avons intégré la lecture des fichiers .wav comprimé, et fixé plusieurs bogues concernant l'utilisation des bibliothèques X11/Motif et l'utilisation des marques.

Participants : A. Roebel

1.7. Publications et communications

Articles parus dans une revue à comité de lecture

[Herrera03a] Herrera, P., Peeters, G., Dubnov, S., « Automatic Classification of Musical Sounds », Journal of New Musical Research, 2003

[Peeters02a] Peeters, G., « Pourquoi Gerard Depardieu parle anglais sans accent », La Recherche, Novembre 2002, n° 358, pp. 98-99

[Wright02a] Wright, M., Beauchamp, J., Fitz, K., Rodet, X., Roebel, A., Serra, X., Wakefield, G., « Analysis/Synthesis Comparison », Organised Sound, 2002, vol. 5, n° 3, pp. 173-189

Actes de congrès ou de colloque avec comité de lecture

[Almeida02a] Almeida, A., Vergez, C., Caussé, R., Rodet, X., « Etude des écoulements dans les instruments à vent à anche double, pour application à la Synthèse par Modèle Physique. », CFA, Congrès Français d'Acoustique, Lille, France, 2002

[Dhaes02a] D'haes, W., van Dyck, D., Rodet, X., « An efficient branch and bound seach algorithm for computing K nearest neighbors in a multidimensional vector space », Signal Processing, Pattern Recognition and Applications (SPPRA), Crete, 2002

[Dhaes02b] D'haes, W., van Dyck, D., Rodet, X., « An efficient branch and bound seach algorithm for computing K nearest neighbors in a multidimensional vector space », IEEE Advanced Concepts for Intelligent Vision Systems (ACIVS), Gent, 2002

[Dhaes02c] D'haes, W., van Dyck, D., Rodet, X., « Physical Constraints for the Control of a Physical Model of a Trumpet : wim D'haes, Dirk van Dyck and Xavier Rodet », International Conference on Digital Audio Effects (DAFx), Hamburg, 2002

[Dhaes02d] D'haes, W., van Dyck, D., Rodet, X., « Control Parameter Estimation for a Physical Model of a Trumpet Using Pattern Recognition : wim D'haes, Dirk van Dyck and Xavier Rodet », IEEE Workshop on Model Based Processing and Coding of Audio (MPCA), Leuven, 2002

[Peeters02b] Peeters, G., Rodet, X., « Automatically selecting signal descriptors for Sound Classification », ICMC, Goteborg, 2002

[Peeters02c] Peeters, G., La Burthe, A., Rodet, X., « Toward Automatic Music Audio Summary Generation from Signal Analysis », ISMIR, Paris, 2002

[Rioux02a] Rioux, V., Poletti, M., « An experimental SDIF-sampler in Max/MSP », International Computer Music Conference, Göteborg, 2002

[Roebel02a] Roebel, A., « Estimating partial frequency and frequency slope using reassignment operators », International Computer Music Conference, Göteborg, 2002, pp. 122-125

Actes de congrès ou de colloque sans comité de lecture

[Almeida02b] Almeida, A., Vergez, C., Caussé, R., Rodet, X., « Physical study of double-reed instruments for application to sound-synthesis », International Symposium in Musical Acoustics, Mexico, 2002

Travaux universitaires (thèses, mémoires) et rapports de stage

[Arroabarren02a] Arroabarren, I., « On the instantaneous amplitude and instantaneous frequency of vibrato signals in singing voice », Université publique de Navarre, 2002

[Fagnan02a] Fagnan, L., « LES PRINCIPES CENTRAUX DE LA METHODE BEL CANTO ET LEURS EFFETS ACOUSTIQUES PORTES SUR LE CHANT CHORAL », Université de l'Alberta, Edmonton, 2002

[Gaullier02a] Gaullier, G., « Modélisation du conduit vocal : modèle géométrique et étude numérique de l'acoustique », Université Pierre et Marie Curie, 2002

[Helie02a] Hélie, T., « Modélisation physique d'instruments de musique en systèmes dynamiques et inversion », Université de Paris XI - Orsay, 2002

[LaBurthe02a] La Burthe, A., « Résumé sonore », Université Joseph Fourier - INPG Grenoble, 2002. [DEA ATIAM]

[Pruham02a] Pruham, B., « Estimation de la fréquence fondamentale d'un signal », Université de Besançon, 2002

Rapports de recherche ou de fin de contrat

[Rioux02b] Rioux, V., « Projet Orgue, Palais des Beaux-Arts (II) : second rapport intermédiaire », 2002

[Rioux02c] Rioux, V., « Projet Orgue, Palais des Beaux-Arts (III) : rapport final de synthèse », 2002

[Tisserand02a] Tisserand, P., Rodet, X., « ECRINS: Rapport sur la clasification », 2002

[Tisserand02b] Tisserand, P., Rodet, X., « ECRINS: Rapport sur l'évolution dynamique », 2002

[Tisserand02c] Tisserand, P., Rodet, X., « ECRINS: Etude sur les outils de mise en forme », 2002

Conférences invitées

[Rodet02a] Rodet, X., « Synthesis and Processing of the Singing Voice », 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), Leuven, 2002

[Rodet02b] Rodet, X., « Present state and future challenges of synthesis and processing of the singing voice », AES, Helsinky, 2002

Emissions radiophoniques et télévisées, entretiens journalistiques, animations

Entretiens sur Vox Intox par X. Rodetpour le mensuel Phosphore, Nov 02