RAPPORT D'ACTIVITE 2000

3. Analyse et synthèse des sons

Les activités de recherche de l'équipe Analyse-Synthèse sont marquées par les applications des nouvelles techniques de synthèse développées dans l'équipe, comme la méthode SINOLA. Celle-ci est utilisée dans la création de l'opéra du compositer P. Manoury a l'opéra Bastille en mars prochain. On peut aussi noter le développement de plus en plus complet de methodes plus classiques comme l'analyse-synthèse additive qui s'enrichit d'enveloppes spectrales et du contrôle du résiduel, et qui est mis à la disposition des musiciens dans l'ensemble Diphone Studio. Ces activités sont aussi marquées par l'intérêt grandissant qui se fait jour pour les applications multimédia et sur les réseaux, characérisation des sons, des timbres, etc.

Le développement se tourne de plus en plus vers l'utilisation de plus en plus important des stations Linux et donc la nécessité de portage sous ce système. Mais de nombreux logiciels de l'équipe ont également été portés sous Windows, ce qui pourrait ouvrir des perspectives intéresssantes dans les années ultérieures si une solution est trouvée pour la partie GUI. L'autre effort important a été le développement du standard SDIF qui est maintenant bien accepté et utilisé par la communauté et qui est désormais offert en licence GNU GPL. Enfin un effort a été entrepris pour spécifier et développer sur Macintosh des outils indépendants des logiciels particulier et donc accélérer le développemnt (bibliothèque Zoomable Panes)

3.1 Activités de recherche

3.1.1 Caractérisation des signaux sonores

Etude des descripteurs

Le travail sur les descripteurs relatifs à la perception des sons d'instruments (perception du timbre) a été poursuivi par G.. La description des sons harmoniques tenus ainsi qu'un nouvel ensemble de descripteurs pour les sons de percussions ont été étudiés. Ce travail s'effectue en collaboration avec l'équipe PCM s'occupant de la partie expérimentale. Les deux ensembles de descripteurs ont été inclus dans le standard ISO MPEG-7. Pour l'occasion une validation expérimentale des deux ensembles de descripteurs a été réalisée sur une base de sons non-synthétiques. Les descripteurs font maintenant également l'objet d'une définition en XML dans MPEG-7. Ce travail d'intégration s'effectue avec le département Valorisation (V. Puig, Th. Plamann) ainsi que l'université Pompeu Fabra (Barcelone). Publications correspondantes: [Peeters00a], [Herrera00a], [Herrera00b], [Plamann00a].

Responsable : Puig V., Rodet X.
Participant : Peeters G. (thèse), Plamann Th.
Collaborations internes : Département Valorisation, de Cheveigné A. (équipe Perception et Cognition Musicales)
Collaboration externe : Herrera P. (Institut Audiovisuel de l'Université Pompeu Fabra de Barcelone)

Segmentation et indexation des signaux sonores

Ce travail (thèse de S. Rossignol sur contrat CTI-CCETT) concerne la segmentation et l'indexation des signaux sonores musicaux, aussi bien pour des applications multimédia que pour des manipulations de sons. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent.

1) Le premier niveau, appelé << sources , concerne la distinction entre la parole et la musique. Plusieurs méthodes de classification ont été étudiées.

2) Le deuxième niveau, appelé << caractéristiques , concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato.

3) Le troisième niveau concerne la segmentation en << notes ou en phones ou plus généralement en parties stables , suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif... Les données obtenues pour un certain niveau sont utilisées par les niveaux de numéros d'ordre supérieurs afin d'améliorer leurs performances.

Le logiciel de segmentation Segmentation est l'un des résultats de ce travail de recherche. http://www.ircam.fr/ anasyn/segmentation/segmentation.html . Développé d'abord sous Unix, il a été porté sur Macintosh par S. Rossignol et A. Lefèvre. dans l'environnement Diphone Studio. La thèse de S. Rossignol [Rossignol00a] a été soutenue en juilllet 2000.

Responsable : Rodet X.
Participant : Rossignol S. (thèse)
Collaborations inernes : Lefèvre A.
Collaborations externes : Soumagne J. (Ecole Supélec-Metz), Philippe P. (CCETT-CNET)

Détection et modélisation des transitoires d'attaque rapides

Ce travail a été réalisé par Florent Jaillet, stagiaire de l'école Supelec-Paris [Jaillet00a]. Le terme de transitoire d'attaque, bien qu'il soit couramment employé en informatique musicale, ne possède pas de définition précise. Il désigne en fait la portion du signal correspondant au début de chaque note produite par un instrument. Les attaques des notes correspondent à des zones de variations brusques et rapides du signal et leurs durées sont très courtes (de l'ordre de quelques ms). L'attaque correspond également à une brusque augmentation de l'énergie à court terme du signal et cette augmentation se répartit sur l'ensemble du spectre. Le contenu spectral est donc très riche, ce qui se repère particulièrementent dans les hautes fréquences, l'énergie étant concentrée dans les basses fréquences dans les zones du signal qui ne comportent pas de transitoires. La détection des transitoires d'attaque est nécessaire à la fois pour pour permettre une extraction et une modélisation appropriées, mais également pour assurer une synchronisation de l'analyse afin d'éviter le phénomène de pré-écho en empéchant le chevauchement des attaques par la fenêtre d'analyse.

Le programme de détection et modélisation des transitoires d'attaque mis au point présente les caractéristiques suivantes :
- Il ne nécessite pas l'utilisation de résultats de cette l'analyse additive. Le détecteur pourra ainsi être utilisé pour d'autres méthodes d'analyse-synthèse ou d'autres utilisations (segmentation, reconnaissance de rythme, suppression de clics...).
- Le programme permet de détecter les transitoires d'attaque marquées pour tous les types de sons (notamment les sons polyphoniques) avec une bonne précision temporelle. Il utilise en conséquence une représentation temps-fréquence du signal en avecdes fenêtres d'analyse et un pas de calcul courts.
- Le programme est simple d'utilisation. Il ne laisse au choix de l'utilisateur qu'un réglage de sensibilité du détecteur et très peu de paramètres.
- Un interface graphique a été réalisée sous Matlab. Elle permet l'écoute et la visualisation des résultats ainsi que le réglage des paramètres d'analyse.
- Les résultats obtenus peuvent être enregistrés au format SDIF. Ceci permet d'utiliser directement les résultats de la détection avec les outils déjà existants de l'Ircam.

Le détecteur à été testé sur divers types de sons et les résultats obtenus sont très intéressants et très encourageants. Par exemple, dans un mixage de percussions (tabla) et de sons continus (Sarod) le programme a permis de détecter et séparer le tabla.

Responsable : Rodet X.
Participant : Jaillet F. (stage)
Collaborations externes : Ecole Supélec-Paris

3.1.2 Analyse/Synthèse

Analyse/Synthèse SINOLA

Le travail de thèse de G. Peeters a pour but de déterminé lse avantages et inconvénients des modélisation temporelles et spectrales des signaux musicaux. Un modèle de signal, appelé SINOLA, tirant parti des deux types de modélisation a été proposé l'année passée. Ce modèle repose d'une part sur une modélisation en forme d'onde élémentaire et d'autre part sur une modélisation sous forme d'une somme de sinusoïdes.

L'étape d'analyse consiste à déterminer les singularités périodiques ou non du signal, ainsi qu'a déterminer dans le plan fréquentielle les composantes périodiques (sinusoïdales). L'étude des algorithmes de détection et caractérisation du signal en singularité est effectuée en comparaison des techniques de détection d'instants de fermeture de la glotte utilisés en parole. L'estimation des paramètres fréquentiels (sinusoïdes) proposée repose sur la déformation du spectre complexe. Cette methode est comparée aux méthodes d'estimation généralement utilisées dans le domaine musicale.

Cette année le travail de thèse a vu ses premières applications: la création d'un effet de choeur artificiel en temps réel (Opéra "K ..." de Philippe Manoury) [Schnell00a], la modification de parole en réalité virtuel (installation "Elle et la voix"), deux post-productions de film (un film franco-anglais et "Vercingétorix").

Une partie de l'année a également été consacrée à la rédaction du document de thèse qui devrait être soutenue début 2001.

Responsable : Rodet X.
Participant : Peeters G. (thèse)
Collaborations internes : Schnell N. (équipe Systèmes Temps Réel)

Etude du modèle sinusoïdal: régularité des paramètres, mesure de sinusoïdalité.

Cette recherche est menée dans le cadre de la thèse de F. Corson (ATIAM). Le modèle d'amplitude et de fréquence localement constantes, qui est au coeur de l'analyse sinusoïdale standard, ne permet pas de traiter correctement les variations rapides des sinusoïdes. Afin d'y remédier, certains algorithmes utilisent des modèles d'amplitude et de fréquence linéaires ou polynomiaux. Cependant, l'introduction de nouveaux paramètres dans le modèle pose le problème de la robustesse. Nous nous proposons d'étudier plus en détail le choix des classes de fonctions utilisées pour représenter la fréquence et l'amplitude des sinusoïdes et leur effet sur la robustesse de l'analyse.

Habituellement, la détection d'une sinusoïde est envisagée comme la recherche d'une trajectoire de fréquence optimisant un certain critère de sinusoïdalité en chacun de ses points. Il parait difficile de dire si la solution unique obtenue est la seule description possible du signal. Nous avons donc choisi de procéder différemment: partant de toutes les trajectoires possibles (une classe de fonctions à définir), nous retenons l'ensemble des portions de ces trajectoires pour lesquelles une certaine mesure de sinusoïdalité dépasse un certain seuil. Cette méthode permet d'épuiser l'ensemble des descriptions possibles du signal. En contrepartie, on obtient pour chaque sinusoïde présente dans le signal un "faisceau" composé d'une infinité de portions de trajectoires admissibles. Le résultat de l'analyse est la réunion de ces faisceaux, et pour en extraire une description du signal, il faut pouvoir trier les portions de trajectoires correspondant aux différentes sinusoïdes. Il est clair que si l'on admet des trajectoires très irrégulières ou que l'on choisit un seuil de sinusoïdalité très bas, les différents faisceaux seront très étalés et le tri sera impossible. En revanche, si le tri est possible, on pourra considérer que le modèle est suffisamment contraint pour que l'analyse soit robuste.

L'étude de ce problème a permis de définir une mesure de régularité et une mesure de sinusoïdalité adaptées. Nous avons également été amenés à définir une mesure de distance entre trajectoires de phase. En effet, nous avons pu montrer que pour des seuils de régularité et de sinusoïdalité bien choisis, les trajectoires admissibles peuvent être regroupées par "proximité", permettant d'isoler des faisceaux de trajectoires bien distincts. La première estimation - grossière - du seuil de sinsusoïdalité que nous avons obtenue reste trop élevée pour une application pratique, mais pour le principe, il est établi qu'une analyse telle que décrite au paragraphe précédent peut effectivement être envisagée, et un calcul plus soigné devrait permettre de la mettre en oeuvre.

Responsable : Rodet X.
Participant : Corson F. (thèse)
Collaborations internes : Peeters G., Roebel A.

Synthèse par sélection d'unités sonores et transformation

Les différents aspects de ce travail sont l'estimation, la classification et la structuration de paramètres, l'utilisation d'une base de donnés hétérogènes de sons et de caractéristiques, et une recherche sur la conception et l'architecture logicielles fondées sur des composants réutilisables Dans les systèmes de "synthèse de la parole à partir du texte", une nouvelle technique, nommée "sélection d'unités", connait un grand succès: en effet, les techniques précédentes, malgré des dizaines d'années de recherches intensives n'ont jamais permis d'obtenir une qualité acceptable; un accroissement de qualité considérable a été obtenu au contraire par cette méthode. Il est donc fondamental de chercher comment des méthodes de "sélection d'unités" peuvent être également appliquées à la synthèse sonore et musicale de haute qualité. La méthode utilise une large base de données hétérogènes de sons choisis (soit des notes séparées, soit des phrases complètes) et de caractéristiques, classés et segmentés suivant des paramètres estimés sur le signal sonore. Le segment qui ressemble le mieux - au sens d'un critère donné - au résultat désiré, est trouvé par des méthodes efficaces de recherche et d'extraction utilisées par l'algorithme de sélection d'unités. Pour répondre aux exigences concernant les paramètres de synthèse nécessaires, le segment sonore trouvé est transformé par des techniques temporelles ou fréquentielles de re-synthèse telles que PSOLA, re-synthèse additive, vocodeur de phase et filtrage. Le segment sonore est enchaîné avec les segments trouvés pour les autres parties du signal à construire, en appliquant des techniques d'interpolation pour former les transitions, et des transformations de niveaux plus élevés. L'analyse des signaux choisis pour la constitution de la base de données (segmentation et classification automatiques), et l'extraction des paramètres utilisent des méthodes de pointe de traitement du signal (estimations statistiques, etc..), de traitement des données (arbres de classification, analyse factorielle, etc..), et d'intelligence artificielle (réseaux de neurones, modèles de Markov cachés, algorithmes génétiques, etc..). Pour faciliter les recherches et développements en collaboration inter-équipes et en regard d'une applicabilité facile au marché multimédia en croissance rapide, des interfaces et formats d'échange ouverts et standardisés sont développés et utilisés. La clé de la réussite du développement d'un système logiciel complexe comme proposé, est de le fonder sur les principes du génie logiciel. L'architecture du système logiciel est établie selon une conception orientée-objet et consiste en des composants réutilisables pour un développement, une flexibilité et une maintenance améliorés.

La thèse a vu la mise au point d'un système d'expérimentation et les premiers résultats. Ils ont été présenté aux chercheurs, compositeurs et musicien de l'Ircam à un séminaire de recherche interne, et à la conférence scientifique DAFx [Schwarz00b].

Responsable : Rodet X.
Participant : Schwarz D. (thèse)
Collaboration interne : Peeters G., Rossignol S. (équipe Analyse et Synthèse Musicales), N. Orio (équipe Systèmes Temps réel)

3.1.3 Modèles physiques

Méthodes d'inversion de systèmes dynamiques, modèles de la production de la voix et d'instruments de musique

Le but de cette thèse ATS est de mettre au point des outils d'estimation automatique des paramètres et/ou des entrées de systèmes dynamiques non-linéaires représentant l'appareil phonatoire et des instruments de musique. L'intérêt est de construire des méthodes d'analyse de modèles physiques, modèles qui ont l'avantage d'engendrer directement les caractéristiques sonores de l'instrument, et leurs variations (telles que les attaques et transitoires).

Durant la premiere année de thèse, nous nous sommes d'abord concentrés sur une étude bibliographique de la modélisation physique des vents et de la théorie des systèmes dynamiques. Cette première prise de contact nous a conduit a envisager une forme de système qui semble adaptée à une physique légèrement simplifiée de l'instrument et à l'inversion : les systèmes differentiels non linéaires à retards (S.A.R. - sujet thématique d'un groupe de recherche naissant, Cf. http://www.ircyn.prd.fr/gdr/sar.html).

Nous avons alors commencé à concrétiser notre étude par la poursuite du sujet d'inversion de modèle de cuivre (débute en DEA ATS), en retravaillant sur le résonateur qui n'était pas alors représenté dans le formalisme des S.A.R., mais par une fonction de réflexion, calculée numériquement à partir de mesures d'impédance. La tentative d'identification d'un modèle de Prony (S.A.R. linéaire à un retard) donnant des résultats peu satisfaisants, il a été choisi de reprendre une étude physique de chaque élément du résonateur, avec la volonté d'approcher chacun d'eux par un S.A.R. adapté. Actuellement, l'étude sur le "rayonnement sphérique" est achevée et donne des modeles de la forme souhaitée. L'étude du pavillon a également ete engagée, et nous a conduit à plusieurs voies de recherche. Les résultats actuels nous poussent à utiliser la concaténation de cônes. L'étude du pavillon rayonnant est sur le point d'etre achevée.

L'identification du système sur la mesure d'impédance sera alors faite pour une propagation linéaire dans le tube, et l'inversion du système sera envisagée pour ce cas dans un premier temps. Les recherches prochaines porteront certainement sur les méthodes d'inversion, et sur la stabilité et la discrétisation des inverseurs obtenus. L'étude de l'inversion de modèle de production de la voix sera debuté a l'issue de celle sur les cuivres.

Responsable: X. Rodet X.
Participant: T. Hélie T.
Collaboration interne: Vergez C. (Equipe AcoustiqueInstrumentale)
Collaborations externes: ENST, INRIA, Ecole des Mines de Paris

Estimation des paramètres d'un modèle par apprentissage

La synthèse par modèle physique génère un son à partir d'une description de tous les phénomènes mécaniques et acoustiques d'un instrument. Ceci permet de synthétiser un son d'une haute qualité tout en contrôlant des paramètres ressemblant aux gestes de l'instrumentiste. Le problème qui se pose dans ce contexte est qu'on sait pas comment faire évoluer ces paramètres afin d'obtenir un son qui ressemble à celui d'un vrai instrument joué par un expert. Le but du travail est de mettre au point des outils d'estimation automatique des paramètres d'un modèle physique à partir d'enregistrements de signaux mesurés sur l'instrument naturel. Puisque les équations mathématiques sur lesquelles le modèle repose sont non-linéaires et très difficiles à inverser (Cf. le paragraphe Méthodes d'inversion de systèmes dynamiques), une autre solution est d'utiliser des techniques issues de l'intelligence artificielle nommées apprentissage par machine (machine learning). L'avantage de cette approche est qu'elle peut être généralisée facilement à d'autres modèles physiques ou algorithmes de synthèse que le modèle de trompette qui a été considéré jusqu'à présent. La technique qui a été utilisée dans le stage de DEA de W. d'Haes est nommée apprentissage par table (instance-based learning) et consiste en une étape d'apprentissage et une étape de simulation. D'abord un ensemble de sons représentant l'espace sonore du modèle est produit, qui comprend tous les notes joués avec toutes les intensités et variations de timbre. Pendant l'apprentissage, les caractéristiques du son (fréquence fondamentale, enveloppe spectrale ...) et les paramètres de contrôle (pression dans la bouche, longeur du tube ...) sont enregistrés dans une table de vecteurs. Pour la simulation d'un son donné, les mêmes caractéristiques du signal sont estimées et les caractéristiques les plus ressemblantes sont cherchées dans la table. Les paramètres du contrôle qui y correspondent sont extraits et utilisés pour la resynthèse. Un algorithme de recherche rapide a été réalisée, utilisant la méthode de séparation-évaluation (branch and bound). Ceci suppose que l'ensemble des données soit décomposé hiérarchiquement en un arbre. L'algorithme de recherche parcours cet arbre évitant les noeuds qui sont trop loin du vecteur cherché. La distance utilisée entre deux vecteurs est la distance euclidienne pondérée. Comme la justesse du modèle est essentielle, la fréquence fondamentale est munie d'un poids élevé. La simulation des sons produits par le modèle et des sons naturels donne déjà des résultats satisfaisantes après corrections manuelles. Typiquement, pendant les transitoires du signal, les méthodes d'estimation parviennent difficilement à estimer les bonnes valeurs des caractéristiques ce qui donne à des sons imparfaits à la synthèse. De nombreuses autres améliorations de la méthode sont prévues pour reproduire exactement les sons naturels. De plus d'autres méthodes d'apprentissage seront testées et comparées, en particulier les réseaus de neurones. Ce travail est poursuivi dans la thèse de Wim D'Haes (Universiteé d'Anvers).

Responsable : Rodet X.
Participant : D'Haes W. (thèse)
Collaborations internes : Hélie T., Tisserand P., Vergez C (Equipe Acoustique des Intstruments)
Collaborations externes : Université d'Anvers

Oscillateur non-linéaire modèle du violon

Le travail a commencé avec l'amélioration par un stagiaire (M. Duch) du modèle simple implémenté sur la base des travaux de S. Serafin dans les années précédentes [Duch00a]. M. Duch a continué ces travaux sur l'estimation plus précise des paramètres connexes à la partie linéaire du modèle (filtres des pertes au niveau du chevalet et du sillet). Il a également porté ce modèle dans l'environnement jMax permettant d'en jouer en temps réel avec une tablette graphiqe comme contrôleur simulant l'archet.

U n autre stagiaire, A. Mewissen acontinué les travaux sur l'étude de differents modèles de friction pour modeéiser l'interaction corde-archet [Mewissen00a]. Le travail a porté aussi sur la prise en compte de largeur de crins en interaction avec la corde. Des sons de violon très réalistes ont été obtenus avec le modèle final de A. Mewssen.

Responsable : Rodet X.
Participant : Duch M., Mewissen A. (stages)
Collaborations internes : Vergez C., Wanderley M., Tisserand P.

Oscillateur non-linéaire modèle du hautbois

La synthèse par modèle physique est une technique de synthèse sonore
fondée sur la description mathématique de la physique de l'instrument.
Cette technique a deux raisons d'être. La première est d'ordre
artistique. Là où les synthèse par modèle de signaux ne se contrôlent
que par des paramètres descriptifs du son (ce sont donc des données de
traitement de signal telles que l'enveloppe du spectre, le taux
d'inharmonicité, etc...), les paramètres de contrôle d'une telle
synthèse sont des paramètres physiques: géométrie, matériau de
l'instrument, ... qui sont donc bien plus aisément manipulables,
lorqu'il s'agit de faire de la musique. Les applications les plus
usitées sont les chimères aux proportions gigantesques (trompette de
plusieurs mètres de long, tambour dont la membrane s'épaissit au cours
du temps...).
Le deuxième intérêt est lui d'ordre scientifique: écouter le son produit
par la simulation des équations d'un modèle décrivant le fonctionnement
est sans doûte la manière la plus fiable d'estimer la validité du
modèle.

Le hautbois se distingue des autres bois, et en particulier de sa
sousine la clarinette par deux aspects: d'abord, le mécanisme
d'excitation est constitué d'une anche double. Avoir deux anches au lieu
d'une seule n'est pas en soit trés différent, cependant, à cause de
l'absence d'un large bec, et de la façon particulière dont l'anche
double se raccorde au résonateur, il se produit des phénomènes
d'écoulement dont les effets sur le son sont bien plus importants que
dans le cas d'une clarinette.
L'autre différence est la forme conique du résonateur. Cette conicité
est responsable de la présence de tous les partiels dans le spectre,
alors que pour une clarinette, seuls les harmoniques impairs sont
présents.
Le modèle physique de clarinette est l'un des premiers à avoir été
implenté, et certainement le mieux connu. Le travail du stage a consisté
à mettre en évidence les différences de fonctionnement entre cet
instrument et le hautbois, et à les intégrer dans un modèle plus complet
de hautbois. La deuxième partie a constisté en l'implentation
informatique de ce modèle. La simulation du tuyau conique était basée
sur une version modifiée de la technique des "digital waveguide
modeling" de Julius Smith, prenant en compte le fait que dans un tube
conique, la relation Pression/debit n'est pas instantanee (l'impedance
caracteristique depend de la frequence), .au contraire des tubes
cylindriques. Une autre méthode a aussi été étudiée, et consistant à
simuler le cône par deux tubes cylindriques raccordés
perpendiculairement sur l'anche. La résolution des équations
hydrodynamiques et de leur couplage avec le résonateur (équations
implicites) n'a pas donné de résultats satisfaisants .

Responsable : Rodet X.
Participant : Lemaître G. (stage)
Collaborations internes : Vergez C. (équipe Acoustique des instruments), Hélie T.
Collaborations externes : Gilbert J. et Dalmon J.P. (Université du Mans).

3.1.3 Etude du geste musical

Pendant l'année 2000, à partir d'une collaboration avec l'Université de Nijmegen et l'Université Libre d'Amsterdam, Hollande (Dr. Peter Desain et Peter Beek), les études sur les gestes d'un clarinettiste et leur influence dans le son enregistré ont été approfondies. Quatre clarinettistes
de haut niveau jouant plusieurs pièces du répertoire classique et contemporain (Brahms, Poulenc, Stravinski, Boulez entre autres) ont été enregistrés avec un système 3D de capture de mouvements Optotrak. Les résultats de ces mesures ont été résumés dans un article soumis au IV Gesture Workshop, Londres, UK, Avril 2001.

L'autre axe de travail qui a été développé pendant l'année 2000 est le portage des modèles déjà développés en FTS dans l'environnement jMax. Cette partie des travaux correspond à une applications des recherches développées pendant les trois premières années de thèse sur la modélisation des gestes et le contrôle gestuel de la synthèse sonore. Ce travail sera prolongé pendant les premiers mois de l'année 2001.

Enfin, une partie importante de l'année a été consacrée à la rédaction du document de thèse, une version préliminaire (en Anglais) étant disponible dès la fin de novembre 2000.

Responsable : Rodet X.
Participant : Wanderley M.
Collaborations internes : Battier M. (Valorisation), N. Schnell (Equipe Systèmes Temps-Réel)
Collaborations externes : Depalle Ph. (McGill Univ.), Desain P. (Nijmegen Univ.), Beek P. (Université Libre d'Amsterdam)

3.2 Activités de développement

3.2.1 Le format de fichier SDIF

SDIF est un standard de format de fichiers de paramètres d'analyse et de synthèse (Exemples: FFT, additive, filtres, fondamental,...) pour différents logiciels et différents centres de recherche (Cnmat, Université de Berkeley, CCRMA, Université de Stanford, IUA, Université de Barcelone, etc., plus de 13 Centres). Le standard SDIF est élaboré en collaboration notamment avec le CNMAT, Berkeley. Ce standard a été utilisé pour la session "Analysis/Synthesis Comparison" de l'ICMC 2000: afin de pouvoir comparer les différentes méthodes d'analyse, les participants (les chercheurs les plus actifs du domaine) ont présenté leurs données en SDIF. De plus une mailing-list (sdif@ircam.fr) a été créée pour permettre un échange autour de la librairie.

En 2000, le développement de ce standard et de la bibliothèque ont été poursuivis (http://www.ircam.fr/sdif).

Spécification des types: Les types SDFI (frames, matrix, etc.) sont spécifiés et documentés en ligne (http://www.ircam.fr/sdif).

Portage sur Linux et Windows par D. Schwarz, P. Tisserand et R. Ballany. La bibliothèque est aussi disponible sur Irix (SGI), OSF (DEC Alpha) et Macintosh cequi couvre pratiquement tous les sytèmes utilisés aujourd'hui.

Licence GNU GPL: La nouvelle version de la bibliothèque a été mise en accès libre (non-commercial) sur le serveur de l'Ircam par D. Schwarz et P. Tisserand. Les sources, les binaires pour diverses plates-formes (Linux Intel x86, SGI, Alpha, Windows NT et MacOs 9), la documentation et les fonctions pour Matlab sont disponibles en téléchargement sur la page dédiée à SDIF (http://www.ircam.fr/sdif). Par exemple cela a permis à L. Haken et K. Fitz l'intégration du format SDIF dans Loris, le système d'analyse synthèse additive du CERL.

Intégration de SDIF dans OpenMusic par C. Agon (équipe Représentation Musicale), dans Estimate et Modformat (enveloppes spectrales) par S. Roux.
Intégration de SDIF dans jMax: Afin de permettre une étude sur l'inversion de modèle physique par apprentissage (Wim Dhaes), un lecteur et écrivain SDIF ont été implémentés sous jMax par P. Tsserand. Cet ensemble d'objets permet de stocker les événements de contrôle au format SDIF et de rejouer les séquences de contrôle ulterieurement. Le choix du format de fichier SDIF est lié à l'information temporelle contenue dans les frames et la manipulation possible de ces fichiers par les logiciels Diphone et OpenMusic.

Intégration de SDIF dans MATLAB: Afin de pouvoir travailler sur les données issues de jMax, Additive, hmm et autres logiciels fournissant des analyses en SDIF, des fonctions de lecture et d'enregistrement de données au format SDIF ont été implémentées sous Matlab. Ces fonctions ont été demandées et utilisées par des chercheurs d'autres Instituts internationaux.
Afin de permettre une installation plus aisée, les outils GNU autoconf et automake ont été utilisés. Une procédure de test a été ajoutée pour permettre une vérification de la bonne installation de la bibliothèque.

Des extensions et projets pour SDIF ont été publiés dans les articles [Schwarz00a] et [Wright00a] présentés à l'International Computer Music Conference (ICMC 2000), Berlin, Germany, Août 2000.

Responsable : Rodet X.
Participants : Schwarz D., Tisserand P., Ballany R., Roebel A, Roux S.
Collaborations internes : Agon C. (équipe Représentation Musicale)
Collaborations externes : Wright M. (Cnmat, Université de Berkeley)

3.2.2 Autres développements sur Unix

Maintenances, installations et portages sous Linux

Les logiciels suivants ont été modifiés et leur capacités d'installation Cross-Platform améliorées, en particulier pour être portés sous Linux.

Librairies: librairie de sons Ircam STtools, librairie UDI, librairie Pm, librairie SpecEnv (P. Tisserand et D. Schwarz).

Programmes: SuperVP, Additve, F0, HMM, SuperVP.

Serveur de sons rplayd: ce serveur a été installé sur les machines de l'équipe, rendu compatible avec la librairie STtools et le programme playsf, et amélioré par A. Roebel. Ainsi, un utilisateur loggé sur une machine quelconque peut envoyer le son sur la machine de son choix, en particulier celle dont la sortie sonore est proche de son point de travail. L'utilisation du réseau des machines est ainsi très optimisé.

Portage de Xspect sous Linux: Le logiciel Xspect posait un problème particulier. Avec l'évolution des harwares graphiques, son mode d'affichage n'était plus compatible Linux. Il a donc été modifié en profondeur par E. Vancour. De plus, A. Roebel a remis à jour certaines parties comme l'appel aux librairies de calcul (UDI, f0, etc.) et la sortie sonore sur le serveur rplayd.

Responsable : Rodet X.
Participants : Schwarz D. (thèse), Tisserand P., Ballany R. (stage), Roebel A., Roux S. (stage), Vancour E. (stage)

Améliorations de Additive et F0

Diverses améliorations ont été apportées aux logiciels F0 et Additive par un stagiaire, Sébastien Roux. En particulier l'estimation (programme Estimate) et l'application (programmes Modformat et Filnor) des enveloppes spectrales aux composantes sinusoidales du signal d'une part et aux composantes résiduelles d'autre part, ainsi que les entrées et sorties en SDIF [Roux00a].

Responsable : Rodet X.
Participant : Roux S. (stage)
Collaborations internes : Schwarz D. et . Tisserand P.

3.2.3 Portage sur Windows

Un stagiaire de l'Université de Glasgow, Ross Ballany, a porté nos programmes d'analyse synthèse sous Windows-NT dans le cadre d'une collaboration avec France Télécom R&D (STtools, Additive, F0, ModRes, UDI, SpecEnv, Estimate, HMM, VUV) [Ballany00a]. De plus, il a porté la librairie SDIF sous windows. Il devient donc intéressant d'envisager la mise à disposition des logiciels d'analyse-synthèse sous Windows dans le cadre du Forum si une solution peut être trouvée pour lea partie GUI.

Responsable : Rodet X.
Participant : Ballany R. (stage)
Collaborations internes : Schwarz D. et . Tisserand P.
Collaborations externes : Université de Glasgow

3.2.4 Développement de logiciels Forum

Logiciels AudioSculpt et Super VP

Le développement de la nouvelle version de ce logiciel continue en 2001, suite au travail qu'a fait A. Ricci.

Le plan de réalisation de l'interface graphique, écrit par A. Ricci, a été utilisé comme un guide de développement, mais certaines questions concernant le fonctionnement de l'interface demeurent: structure des menus et de leurs éléments, représentation des manipulations dynamiques du son et des différents types de filtrage.

Ce travail a commencé par la rédaction de la documentation du code d'A. Ricci, puis par l'addition d'éléments de l'interface graphique : nouveaux menus, dialogs, et fonctionalités pour le filtrage directement sur le sonogramme.

Ensuite a commencé l' intégration des codes des APIs Console, Bpf et "zoomable panes", utilisé par AudioSculpt et Diphone, pour uniformiser les codes de ces logiciels. Ce sont des librairies puissantes de représentation 2D utilisant PowerPlant. Ceci a nécessité de réactualiser le code utilisant l'ancienne version des "zoomable panes". Le résultat est un librairie unique et autonome de "zoomable panes" utilisée par les deux logiciels. La documentation développeur a été écrite par David Ralley. Cette librairie pourrait être utilisée par d'autres développements à l'Ircam ou à l'extèrieur . Elle est prête aussi pour une possible diffusion Public-Domain.

Enfin, le travail sur la connexion entre AudioSculpt et Super VP est commencé afin d'avoir une version "beta" de ce logiciel au printemps 2001. De plus des déverminages et améliorations de Super VP ont été commencé par A. Roebel.

Responsable : Rodet X.
Participants : Ralley D., Roebel A.
Collaborations internes : Lefèvre A., Tutschku H. (département Production)
Collaborations externes : Lithaud A. (compositeur)

Logiciels Diphone Studio

Le logiciel Diphone Studio développé par Adrien Lefèvre a été l'obet de nombreuses améliorations:

Automatisation complète de la chaine de fabrication des dictionaires: depuis ResAn, HMM et AddAn jusqu'à Diphone.

Synchronisation sur Macintosh avec la base CVS Unix de SDIF, PM, Chant, Modres, F0, Estimate, Segm, HMM.

Travail général sur les GUI, notamment le Compatibilité Appearence Manager d'Apple.

Les APIs Bpf et BpfEdition ont été finalisées en librairie bas-niveau:

BpfTools Window

Les codes des APIs Console, Bpf et "zoomable panes" sont désormais dans des librairies séparées et utilisées par AudioSculpt (Cf. paragraphe AudioSculpt).

Responsable : Rodet X.
Participant : Lefèvre A.
Collaborations internes : Schwarz D., Ralley D., Tutschku H. (département Production), Lithaud A. (compositeur)

3.3 Liste des participants

Personnel sous contrat de travail

Responsable : Xavier Rodet
Chargés de recherche : Stéphane Rossignol, Patrice Tisserand, Axel Roebel
Chargés de développement : Adrien Lefèvre, David Ralley

Thésards

Geoffroy Peeters, DEA Atiam, Thèse Université Paris-6
Marcello Wanderley, Thèse, Université Paris-6
Diemo Schwarz, Thèse Université Paris-6
Thomas Hélie, DEA Atiam, Thèse ATS
Francis Corson, DEA Atiam, Thèse Université Paris-6
Wim d'Haes, DEA Atiam, Thèse Université d'Anvers

Etudiants

Sébastien Roux, stage, Ecole Centrale de Lyon
Ross Ballany, stage, Master de l'Université de Glasgow
Marti Duch, Master in Digital Arts de l' Institut Universitari de l'Audiovisual (IUA) de Barcelone
Arnaud Mewissen, stage, de l'université de Gand
Florent Jaillet, stage, Ecole Supelec-Paris
Guillaume Lemaître, stage, DEA de l'université du Mans

Consultants

Alain Lithaud, compositeur

3.4 Informations annexes

3.4.1 Publications

Articles parus dans des revues à comité de lecture

[Vergez00b] C. Vergez and X. Rodet, "New Algorithm for Nonlinear Propagation of a Sound Wave. Application to a Physical Model of a Trumpet" Journal of Signal Processing (Special issue on nonlinear signal processing) 2000.

[Vergez00c] C. Vergez and X. Rodet, "Dynamical Systems and Physical Models of Trumpet-like Instruments. Analytical Study and Asymptotical Properties" Acustica united with Acta Acustica, February 2000, 80(1).

Chapitres dans des ouvrages collectifs

[Cadoz 00] Cadoz Claude, Wanderley Marcelo, "Gesture-Music". - in Trends in Gestural Control of Music, pp. 1 - 55, Paris, France, Ircam, Mars 2000.

Actes de congrès avec comité de lecture

[Vergez00c] Vergez, C. and Rodet, X., Air flow related improvements for basic physical models of brass instruments. In Proceedings of ICMC'2000, Berlin, Germany.

[Wanderley00a] Marcelo M. Wanderley, Jean-Philippe Viollet, Fabrice Isart & Xavier Rodet. . On the Choice of Transducer Technologies for Specific Musical Functions. Proc. International Computer Music Conference, ICMC2000 - Berlin, Germany.

[Hunt00a] Andy Hunt, Marcelo M. Wanderley & Ross Kirk. Towards a Model for Instrumental
Mapping in Expert Musical Interaction. Proc. International Computer Music Conference, ICMC2000 -Berlin, Germany.

[Wanderley00b] Marcelo M. Wanderley, Nicola Orio & Norbert Schnell. Towards an analysis of
interaction in sound generating systems. ISEA 2000 - Forum des Images/UNESCO - Paris, France - December 2000.

[Peeters00a] Peeters, McAdams, Herrera, ICMC2000, Berlin, "Instrument sound description in the context of MPEG-7"

[Herrera00a] ISO/IEC JTC 1/SC 29/WG 11, Noordwijkerhout meeting, m5809, MPEG-7,"Result of Audio CE on Timbre Similarity", Perfecto Herrera, Xavier Amatrian, Geoffroy Peeters

[Herrera00b] ISO/IEC JTC 1/SC 29/WG 11, Geneva meeting, m6046, MPEG-7, "Core experiment on timbre similarity for non-sustained sounds", Perfecto Herrera, Xavier Amatriain, Geoffroy Peeters, Tobias Plamann

[Plamann00a] ISO/IEC JTC 1/SC 29/WG 11, Bejing meeting, m6325, MPEG-7, "Third Party Validation Procedure and Status of the CE on Timbre Similarity", Tobias Plamann (IRCAM), Geoffroy Peeters (IRCAM), Perfecto Herrera (IUA/UPF), Xavier Amatriain (IUA/UPF), MPEG-7 Commitee Draft

[Schnell00a] Schnell, Peeters Lemouton, Manoury, Rodet, ICMC2000, Berlin, "Synthesizing a choir in real-time using Pitch-Synchronous Overlap Add (PSOLA)"

[Schwarz00b] Diemo Schwarz. A System for Data-Driven Concatenative Sound Synthesis. Proceedings of the COST-G6 Conference on Digital Audio Effects (DAFx-00), Verona, Italy, December 7-9, 2000. http://www.ircam.fr/anasyn/schwarz/publications/dafx2000/cussdafx.html

[Schwarz00a] Diemo Schwarz and Matthew Wright. Extensions and Applications of the SDIF Sound Description Interchange Format. Proceedings of the International Computer Music Conference (ICMC 2000), Berlin, Germany, August 2000. http://www.ircam.fr/anasyn/schwarz/publications/icmc2000/sdif-extensions.html

[Wright00a] Matthew Wright, Amar Chaudhary, Adrian Freed, Sami Khoury, Ali Momeni, Diemo Schwarz, and David Wessel. An XML-based SDIF Stream Relationships Language. Proceedings of the International Computer Music Conference (ICMC 2000), Berlin, August 2000. http://cnmat.CNMAT.Berkeley.EDU/ICMC2000/pdf/SDIF-SRL.pdf

[Hunt00] Hunt Andy, Wanderley Marcello, Kirk Ross, "Towards a model for instrumental mapping in expert musical interaction", ICMC: International Computer Music Conference, (Berlin, Allemagne, Septembre 2000).

[Wanderley00a] Wanderley Marcello et al., "On the choice of transducer technologies for specific musical functions: ", ICMC: International Computer Music Conference, (Berlin, Allemagne, Septembre 2000).

[Rodet00a] X. Rodet, Sound analysis, processing and synthesis tools for music research and production. XIII CIM00, l'Aquila, Italy, September 2000.

[Fayemendy00a] G. Fayemendy, J.B. Rault & X. Rodet, Description, mise en oeure et applications de la norme MPEG4-SA. 6èmes Journées d'Études et d'Échanges "COmpression et REprésentation des Signaux Audiovisuels" , CORESA' 2000, 19-20 Octobre, Futoroscope Poitiers, France.

Travaux universitaires, mémoires, thèses, habilitations

[Rossignol00a] Rossignol Stéphane, "Segmentation et indexation des signaux sonores musicaux". - Thèse: Acoustique, traitement du signal et informatique appliqués à la musique, Juillet 2000, Jussieu.

[Tassart00a] Stéphan Tassart, "Modélisation, simulation et analyse des
instruments à vent avec retards fractionnaires". - Thèse: ATIAM, Décembre 2000, Ircam.

[Vergez00a] C. Vergez, "Trompette et Trompettiste: un système dynamique non linéaire analysé, modélisé et simulé dans un contexte musical". - Thèse: ATIAM, soutenue en Janvier 2000, Ircam.
Note: Christophe Vergez a obtenu le prix jeune chercheur pour cette thèse.

[Duch00a] Marty Duch, Physical modelling of the violin: study and implementation, Rapport de stage, Ingenieur technique des télécommunications, La Salle, Barcelone.

[Mewissen00a] Arnaud Mewissen, "Modèle non-linéaire de violon pour la synthèse sonore en temps-réel", Rapport de stage: Ingenieur, Ircam - Université de Liège, Juin 2000.

[Ballany00a] Portage de programmes d'analyse-synthèse sur Windows, Rapport de stage de Master de l'Université de Glasgow

[Roux00a] Sébastien Roux, "Améliorations et développements de logiciels d'analyse et de synthèse sonore". Mémoire de stage: Ingénieur CPE Lyon, Ircam, Juillet 2000.

[Jaillet00a] Florent Jaillet, Détection et modélisation des transitoires d'attaque rapides, Rapport de stage: Ecole Supélec.

Diffusion de connaissances

Interview de Xavier Rodet, dans O1Informatique par R. Edouard le 23-03-2000.

Emission à France Culture, Grenoble, Novembre 2000, Xavier Rodet: Mythes et utopies de la machine.

M. Wanderley, organisation conjointement avec Marie-Hélène Serra de la section : Towards a descriptive approach of gesture and sound interaction (Vers une approche descriptive de l'interaction entre geste et son), pendant la International Symposium on Interactive Arts (ISEA 2000), Paris. Le 8 décembre 2000, et coordination et participation dans la table ronde à la fin de la section.

Contrats

Contrat avec le CNET-CCETT : Caractérisation et Segmentation des sons.
Contrat pour post-processing de la voix dans un film franco-anglais.
Contrat pour post-processing de la voix dans le film Vercingéorix.

Jurys de thèse et d'habilitation à diriger des recherches

Thèse de C. Vergez, X. Rodet, Paris, Janvier 2000, Directeur de thèse.

Thèse de S. Rossignol, Paris, Juillet 2000, X. Rodet Directeur de thèse.

Thèse de L. Daudet, Marseille, Décembre 2000, X. Rodet, rapporteur.

Habilitation de G. Beaudoin, Octobre 2000, X. Rodet membre du jury.

Conférences

Séminaires du DEA SETI, LIMSI, 1er février, Xavier Rodet, Recherches en Informatique Musicale.

Séminaire interne Ircam, Diemo Schwarz, Synthèse par sélection d'unités sonores et transformation, Mai 2000.

Conférence au College iconique, Xavier Rodet, Descripteurs du son, Institut National de l'Audiovisuel, Paris Juillet 2000.

Conférence aux Journées Portes Ouvertes de l'Ircam, Juin 2000: La trompette virtuelle, Présentation d'une simulation informatique de l'instrument, par Xavier Rodet, Christophe Vergez.

Conférence aux Journées Portes Ouvertes de l'Ircam, Juin 2000: Synthèse et traitement des sons par Xavier Rodet

Analyse et synthèse sonore, X. Rodet, Académie d'ete de l'Ircam, Cracovie, Juillet 2000.

Séminaire interne Ircam, Wim D'Haes, Estimation des paramètres d'un modèle par apprentissage, Octobre 2000.

Conférence au festival Les 38ème rugissants, Grenoble, Novembre 2000, Xavier Rodet: Mythes et utopies de la machine.

Conférence invitée de M. Wanderley, Jan. 2000 Ecole des Mines de Paris - Paris: Contrôle Gestuel de la Synthèse Sonore

Conférence invitée de M. Wanderley, Jan. 2000 NICI - Nijmegen, Pays-Bas: Performer Gestures in Instrumental Music - The case of the Clarinet

Conférence invitée de M. Wanderley, Oct. 2000 University of Glasgow, Ecosse : Gestural Control of Sound Synthesis

Conférence invitée de M. Wanderley, Dec. 2000 CNRS - Marseille : Non-obvious Performer Gestures in Instrumental Music

Brevet

``Procédé de simulation de la propagation non linéaire d'une onde de pression dans un résonateur''. (Inv. C. Vergez et X. Rodet) [n.ref.mf/ema-bff 980272].