RAPPORT D'ACTIVITE 1998

Equipe Analyse/Synthèse

3. Analyse et synthèse des sons

L'’intérêt du compositeur pour la synthèse réside dans la possibilité d'’organiser le matériau sonore comme il l'’entend, générer des sons inouïs, hybrider divers sons pour réaliser des intermédiaires et prolonger les instruments naturels en dépassant leurs limites naturelles. L'’intérêt du scientifique recouvre, quant à lui, deux objectifs : le premier, d'’ordre fondamental, est d'accroître nos connaissances relatives à la production et à la perception des sons (simuler pour mieux comprendre) ; le second, d'’ordre méthodologique, est d'’imaginer des systèmes à la fois généraux et modulaires capables de structurer et de modifier ces connaissances (comprendre pour mieux simuler, interpoler et extrapoler).

Grâce à la mise au point de méthodes d'analyse de plus en plus sophistiquées, le modèle additif est l'un des plus prometteurs. C'est une voie que nous avons initiée et que nous développons avec d'autres centres de recherche comme le CNET et l'école Télécom Paris. Cependant, d'autes techniques complémentaires sont étudiées, comme le modèle PSOLA ou le Matching-Pursuit. Par ailleurs, les demandes des compositeurs et la croissance des applications multimedia font émerger de nouvelles directions de recherches, telles que la caractérisation des signaux sonores.

Bien qu’elle ait toujours fait l’'objet d’'un intérêt certain en synthèse de la parole et en informatique musicale, la modélisation physique demeure pour l'’instant peu utilisée dans un contexte de production. Il faut y voir trois raisons essentielles : une première d'’ordre scientifique, liée à la difficulté de la modélisation même ; une autre d’'ordre pratique, liée à la difficulté de mise en œoeuvre ; et une dernière, d'’ordre musical, liée à la difficulté d'’utilisation. Nos travaux s'organisent donc de façons à apporter des solutions dans ces trois directions. D'abord des modèles plus généraux, en étendant nos modèles d'oscillation non-linéaire à de nouveaux instruments comme les cordes frottées. Ensuite une recherche de méthodes d'anayse de paramètres pour les modèles physiques. Enfin un travail intensif sur le contrôle, en termes de logiciel avec par exemple Diphone et le standard SDIF et en termes d'interface graphique et gestuel avec nos recherches sur le geste musical et l'utilisation de nouveaux dispositifs comme les tablettes graphiques.


3.1 Activités de recherche


3.1.1 Modèles de signaux


Caractérisation des signaux sonores

Le travail de thèse S. Rossignol (contrat CTI-CCETT) concerne la caractérisation des signaux sonores pour les applications Multimedia. Durant l'année 1997, les paramètres pertinents pour la segmentation des signaux sonores (musique, parole, bruits,....) avaient été étudiés. Pendant l'année 1998, dans un premier temps, le travail a porté sur la séparation de sources (en se limitant à deux sources). Dans le cadre de la collaboration de l'équipe avec l'école Supélec-Metz, le travail a ensuite été poursuivi à Metz. Ceci correspond à la deuxième phase de la thèse. Une base de données d'exemples audio incluant musique et parole a été constituée. Les outils de segmentation précédemment développés ont été améliorés (prise de décision classique ou par Réseaux de Neurones, inclusion d'autres fonctions d'observation...) et testés sur la base de donnée. Trois niveaux de segmentation sont définis. Le niveau << source >> : dans une bande son, les parties parlées , les parties chantées, les parties instrumentales, et d'autres (bruits...) sont distinguées. Le niveau << caractéristiques >> : des segments plus petits sont caractérisés avec des attributs du type : silence/son, transitoire/stable, voisé/non voisé, harmonique, présence de vibrato... Le dernier niveau est la segmentation du signal en notes ou en phones. Pour la distinction parole/musique, en particulier, les meilleurs résultats sont obtenus avec un réseau de neurones. Le taux d'erreur est déjà de l'ordre de 4% malgré la taille insuffisante de l'ensemble d'apprentissage. Ce travail a été exposé dans plusieurs communications internationales. Un programme de segmentation a été mis au point et sera proposé en utilisation interne prochainement.

Responsable : Depalle P. et Rodet X.
Participant : Rossignol S. (Thèsard ATIAM)
Collaborations externes : Soumagne J. (Ecole Supélec-Metz), Philippe P. (CCETT-CNET), Rault J.B. (CCETT-CNET)


Recherche d'extraits sonores dans une large base de données

Ce travail de stage a étudié la reconnaissance d'extraits sonores dans une très large base de données, d'une taille equivalente à celle de 15000 CDs (soit 15000 heures de musique). Etant donné un court extrait (typiquement 10 s.) d'une de ces oeuvres, il s'agit de retrouver l'oeuvre et la position dans l'oeuvre de cet extrait. Pour cela, chaque oeuvre et ses différentes parties sont caractérisées par une signature sonore, c'est à dire des paramètres spécifiques en nombre suffisemment réduit pour permettre une recherche rapide. Il convient alors de classer sous forme hiérarchique ces signatures sonores de façon à permettre une recherche et une comparaison rapide de l'extrait inconnu avec l'ensemble des oeuvres de la base.

Responsable : Rodet X.
Participant : Worms L. (stagiaire Ecole Supèrieure de Physique de Marseille)
Collaborations internes : Rossignol S. (Thèsard ATIAM)


Analyse-Synthèse PSOLA

Le travail de thèse G. Peeters est centré sur l'Analyse-Synthèse PSOLA (Pitch Synchronous Overlap Add), le rôle de la phase et la construction d'un modèle de phase, en rapport avec l'Analyse-Synthèse Additive. Le développement de la méthode FD-PSOLA (Frequency Domain PSOLA), a été poursuivi. Le travail a porté, en particulier, sur l'amélioration de l'interpolation fréquentielle par repositionnement des fenêtres grâce à une analyse du spectre de phase à long terme (signal sinusoidal) où à court terme (signal à phase minimum). Par ailleurs, le passage en LP-PSOLA (Linear Prediction PSOLA) permet de concentrer les pseudo-réponses impulsionnelles sur un support temporel étroit de façon à minimiser la distorsion inhérente au fenêtrage PSOLA. La méthode PSOLA a été appliquée aux sons des instruments de musique. Par essence, la méthode PSOLA n'est applicable qu'aux portions de signal périodiques, où presque-périodiques. Une caractérisation du signal en ses composantes périodiques (sinusoidales) et non-périodiques (non-sinusoidales) dans le plan temps-fréquence est donc nécessaire. Cette caractérisation est effectuée par la création d'un modèle d'évolution temporelle du spectre de phase. Les paramètres du modèle sont évalués de manière automatique et comparés avec l'observation du signal. Les modèles de phases peuvent être appliqués également en analyse/synthèse Additive. Cette partie a donné lieu a une collaboration avec M. Oudot et R. Gribonval, doctorants dans l'équipe (Cf. paragraphes suivants). Ces travaux ont donné lieu à un séminiare interne IRCAM, à une publication aux Journées d'Informatique Musicale et aux DAFX'98 à Barcelone. L'étude de cet ensemble de méthodes a été également orientée vers leur lien avec l'analyse/synthèse Additive grâce à une répartition fréquentielle de l'information du signal selon un critère de périodicité/non-périodicité.

Responsable : Rodet X.
Participant : Peeters G. (Thèsard ATIAM)
Collaboration interne : Oudot M. (Thèsarde ENST), Gribonval R. (Thèsard ULM)

Analyse-Synthèse Additive+Résiduel

Le travail de thèse de M. Oudot (contrat CTI-CNET) à été terminé à l'Ircam après deux ans passés à l'école Télécom-Paris dans le cadre d'une collaboration fructueuse. M. Oudot a développé de nouvelles méthodes d'analyse/synthèse additive et leur application au codage de la parole à bas débit. Au cours de l'année 1998, la recherche a porté sur la synthèse de la voix de très haute qualité (collaboration avec G. Peeters). M. Oudot a mis au point un système  complet d'analyse/synthèse additive+résiduel. La partie additive est harmonique avec amplitudes contrôlées par enveloppe spectrale. La partie 'résiduel' est représentée par l'enveloppe spectrale d'un bruit gaussien. Ce système est en cours d'optimisation afin d'être proposé en utilisation interne et avec entrées/sorties dans le format SDIF (collaboration avec D. Schwarz). La transformation de voix de haute-qualité a également été abordée. Elle permet, par exemple, à partir d'une voix unique codée dans le modèle Additif, de générer plusieurs voix de timbres et d'articulations distinctes utilisables dans les services de réponse par ordinateur sans avoir à enregistrer et coder toutes ces voix différentes. Les changements d'enveloppe spectrale qui accompagnent les variations de fréquence fondamentale ont aussi éte abordés. Ces changements sont partiellement connus pour la voix chantée mais peu étudiés pour la parole. M. Oudot a soutenu sa thése à l'Ircam en novembre 1998 sous le titre: "Analyse/syntèse des signaux de parole à partir d'un modèle de sinusoides et de bruit. Application au codage bas débit et aux transformations prosodiques".

Responsable: Rodet X.
Participant: Oudot M.
Collaborations internes: Peeters G. (Thèsard ATIAM), Schwarz D. (stagiaire Université de Stuttgart)
Collaboration externe: Télécom-Paris, Moulines E.

Applications des Statistiques d'Ordres Supérieurs

Les travaux de S. Dubnov sur les applications des Statistiques d'Ordres Supérieurs (HOS) ont été poursuivis en collaboration avec Hebrew University de Jérusalem dans le cadre d'un contrat "Autoroute de l'Information" de l'AFIRST. En particulier, ces recherches ont porté sur la classification des sons au moyen d'un Classifieur Universel appliqué à l'évolution temporelle du son. Cette évolution est représentée par une séquence de spectres à court terme. Ces spectres sont d'abord simplifiés en termes de coefficients cepstraux, qui représentent d'une part l'enveloppe spectrale à court terme et d'autre part la structure fine du spectre à court terme. Les dérivées temporelles de ces coefficients sont aussi utilisées. De façon à simplifier la représentation des évolutions, le nombre de spectres du vocabulaire est largement réduit grâce à la technique de Quantification Vectorielle (K-means). L'évolution d'un son est alors représentée par une séquence de vecteurs. Une méthode de classification fondée sur la théorie de l'information est ensuite appliquée. Cette méthode compare des séquences de vecteurs (donc des sons) en estimant une entropie croisée entre leurs sources stochastiques supposées. L'ensemble de la méthode de reconnaissance a d'abord été appliquée à l'identification d'instruments de musique sur des segments de 12ms seulement: 18 instruments ont ainsi pu être reconnus avec un taux d'erreur quasi-nul. De même, des extraits d'oeuvres jouées par différents instruments sont classés automatiquement suivant chaque instrument. Enfin, en collaboration avec l'équipe Représentations Musicales, la même méthode a été appliquée à des séquence de notes dans la représentation MIDI. Différents types d'oeuvres et de compositeurs peuvent ainsi être classés. Il est même possible, en utilisant une source stochastique hybride entre deux oeuvres, de créer une oeuvre hybride.

Responsable: X. Rodet
Participant: S. Dubnov (PostDoctorant Hebrew University, Jerusalem)
Collaborations internes: Equipe Représentations Musicales, G. Assayag
Collaboration externe: Hebrew University, Jerusalem

Analyse par Matching Pursuit

Le travail de thèse de R. Gribonval (en collaboration avec l'Ecole Polytechnique) a pour sujet l'Analyse-Synthèse par Matching Pursuit.’ Cette technique d'analyse temps-fréquence adaptative décompose un signal sur un ensemble de formes d’'ondes élémentaires nommé dictionnaire d'atomes. Parmi les avantages potentiels de cette approche, sont visées une représentation des signaux adaptée à leur structure et la possibilité d'’avoir plusieurs représentations donnant des points de vue différents (par exemple ondelettes, Fof et sinusoïdal). De plus, grâce à la représentation structurée des signaux que fournit le Matching Pursuit, des manipulations telles que la séparation des parties transitoires et stationnaires deviennent possibles. Le Matching Pursuit a été adapté pour représenter efficacement des structures communément présentes dans les signaux musicaux. La classification et la caractérisation de transitoires de signaux musicaux par des Arbres de Décision ont notamment été étudiées. Le but est, par exemple, de distinguer automatiquement l'attaque d'un violon de celle d'un clarinette. Dans une autre partie du travail, le Matching Pursuit "Harmonique" permet de décomposer le signal en "molécules" harmoniques, elles mêmes formées par association d'atomes temps-fréquence. En utilisant un dictionnaire d'atome temps-fréquence constitué de sinusoides à fréquence variable au cours du temps (chirps), des signaux tels que le vibrato d'une chanteuse, où la fréquence instantanée varie au cours du temps, peuvent être représentés efficacement. Ces méthodes peuvent s'appliquer à l'analyse-transformation-synthèse, à la classification, à la reconnaissance et donc à la recherche dans les bases de données également.

Responsable : Rodet X.
Participant : Gribonval R. (Thèsard ULM)
Collaborations externes : Mallat S. et E. Bacry E. (Ecole Polytechnique)


Fenêtres infinies et Transformée de Fourier à Court Terme

Ce travail propose une nouvelle méthode permettant d'appliquer des fenêtres d'analyse et de synthèse de taille infinie (donc de haute-résolution fréquentielle et sans lobes secondaires) dans le calcul de la Transformée de Fourier à Court Terme. Dans un premier temps, ce sujet a fait l'objet d'une étude théorique et expérimentale visant à définir la portée et les champs d'application possible de la méthode. Puis cette méthode a été implantée par S. Tassart et décrite dans un article présenté à international Compter Music Conference, Ann Arbor, USA, en Septembre 1998. Plusieurs applications sont enviseageables suivant les domaines, sonagrammes, détection de partiels sinusoidaux, analyse en Formes d'Ondes Formantiques, intégration dans le Super Vocoder de Phase, etc.. .

Responsable: Rodet X.
Participant: Tassart S. (Thèsard ATIAM)

3.1.2 Modèles physiques

Systèmes dynamiques et modèles physiques de trompette

Le travail de thèse de C. Vergez sur les systèmes dynamiques et les modèles de trompette a progressé avec succès dans plusieurs directions et doit s'achever en 1999. Deux articles de fond sur les modèles physiques et les sytèmes dynamiques, ont été acceptés pour publication dans le ComputerMusic Journal pour paraitre en 1999. L'exploitation des résultats obtenus avec la Bouche Artificielle construite dans l'équipe a été poursuivie afin de mieux comprendre le comportement de tels systèmes dynamiques et d'améliorer les simulations, en particulier les transitoires d'attaque et la relation non-linéaire entre le jet d'air et les lèvres. Ces travaux ont été montré a ISMA'98 et au CCRMA de l'Université de Stanford (Cf. rapport de mission à l'ISMA de Vergez C. et X. Rodet) et ont suscité un grand intérèt. L'étude du comportement du modèle simulé a été continuée également. Ont été étudiées, en particulier, les différentes bifurcations depuis le point fixe jusqu'aux oscillations quasi-périodiques et au chaos que l'on voit apparaitre dans le modèle. Ce travail a fait l'objet d'une publication à NOLTA 1998. Par ailleurs, un travail a été mené sur la transmission non-linéaire dans le tube acoustique formé par l'instrument. Une implantation de transmission non-linéaire adaptée au temps-réel a également été développée et testée dans le modèle. Enfin l'effort a porté aussi sur le contrôle gestuel du modèle temps-réel. Pour cela, une interface de contrôle gestuel specialisée est en cours de développement en complément des dispositifs du commerce, comme le Yamaha WX5, mais permettant notamment de contrôler la position des pistons.

Responsable: Rodet X.
Participant: Vergez C. (Thèsard ATIAM)
Collaborations internes: Tassart S. (Thèsard ATIAM), Terrrier A. (Atelier de Mécanique), Pierrot P. (Service Informatique)

Estimation de paramètres par apprentissage

L'un des buts principaux des modèles physiques des instruments de musique est la synthèse musicale. Celle-ci est obtenue en fournissant au modèle les valeurs, fonctions du temps, des paramètres de contrôle du modèle. La qualité du résultat sonore et musical est étroitement liée aux valeurs de ces paramètres. Par ailleurs, la mesure de ces paramètres dans le cas d'un instrument réel est souvent très difficile sinon impossible. Enfin, aussi bon que soit le modèle physique, il faut toujours un musicien "expert" pour en jouer. Le but du stage de T. Hélie en 1998, a donc été l'étude des méthodes d'estimation automatique des paramètres d'un modèle physique à partir des signaux observés. Ces signaux sont, en premier lieu, le signal produit sur un instrument réel par un musicien "expert", mais peuvent comprendre également d'autres signaux mesurés sur l'instrument, voire même sur l'instrumentiste. Les modèles physiques sont des systèmes complexes et non-linéaires. L'estimation des paramètres de façon générale est donc un problème difficile. Pour être plus abordable, le problème est restreint à un modèle physique de trompette développé dans l'équipe Analyse-Synthèse de l'Ircam. Dans une étape préliminaire, T. Hélie a montré que ce modèle est non-inversible: la connaissance du son produit n'est pas suffisante pour reconstruire l'évolution des paramètres initiaux. En fait, l'ensemble des solutions s'est avéré infini, non dénombrable, et même probablement multidimensionnel, puisque les solutions appartiennent à une variété différentielle. De plus, il n'y a aucune raison évidente de choisir un point particulier de la variété comme solution. Pour pallier à cette difficulté, une contrainte fortement restrictive mais physiquement signicative est choisi: la variation minimale des paramètres est recherchée. En effet, on peut considérer que la dynamique interne du modèle évolue beaucoup plus rapidement que les paramètres de la commande du musicien. Ainsi, pour une fenêtre temporelle assez courte, les paramètres recherchés peuvent être considérés comme constants. Alors, la variété différentielle sur laquelle se trouvent les solutions est une fonction du signal mesuré; et puisque le signal évolue sur l'intervalle de temps considéré, la variété est modifiée. Par conséquent, sous l'hypothèse précédente, la solution constante recherchée est nécessairement, à chaque instant, un point de la variété, et les coordonnées de ce point sont constantes. Dans le cas de notre modèle de trompette, il s'avère que seulement un point se trouve dans l'intervalle possible des paramètres physiques. L'existence et l'unicité sont alors obtenues. En raison de problèmes d'analyse numérique, quelques points anormaux apparaissent. Afin d'améliorer la robustesse de la méthode, un algorithme basé sur une approche statistique (vraisemblance) a été développé. Cette dernière étape permet d'obtenir une méthode d'évaluation efficace .

Responsable : Rodet X.
Participant : Hélie T. (stagiaire DEA ATIAM)
Collaboration interne : Vergez C. (Thèsard ATIAM)
Collaboration externe : Lévine J. (Ecole des Mines de Paris)

Variables d'état et Retards Fractionnaires

La thèse de S. Tassart a pour sujet la représentation en variables d'état pour la simulation d'instruments de musique, et s'articule en trois parties autour des thèmes de la modélisation, la simulation et l'analyse de modèles en variables d'état de guides d'ondes avec pertes viscothermiques, appliquées aux instruments à vent. Dans le but de raffiner cette formalisation au cas des guides d'ondes de longueur quelconque ou variable, S. Tassart a été amené à étudier les filtres à retard fractionnaire. L'étude systématique de ces filtres dans le cadre de l'approximation de fonctions analytiques, l'a conduit à envisager les systèmes linéaires discrets fractionnaires, plusieurs nouvelles représentations explicites des filtres de retard fractionnaire et des implémentations rapides pour ces filtres. La rédaction de la thèse a permis également de mettre au propre toutes les implémentations de retard fractionnaire qui ont étées proposées et utilisées (implémentation des LIF et des passe-tout), ainsi que les nombreuses applications qui peuvent en découler. Par exemple, une application originale des filtres à retard fractionnaire est le cas de la propagation non-linéaire des ondes acoustiques dans un guide d'onde. S. Tassart a montré que l'analyse des paramètres de ces modèles de guides d'ondes se ramène souvent à un problème de synthèse de filtre rationnel discret d'ordre faible. Dans le cas simplifié des systèmes linéaires quasi-harmoniques, la ressemblance de ce problème avec celui bien connu de l'identification de sinusoïdes dans du bruit permet d'envisager l'adaptation de nombreuses méthodes d'identification au cas des modèles présentement étudiés.

Responsables: Rodet X.
Participant:Tassart S. (Thèsard ATIAM)
Collaboration interne : Equipe Acoustique Instrumentale, Masallam R. (Thèsard Université du Mans)



Oscillateur non-linéaire modèle du violon

En 1996, une recherche sur l'oscillation non-linéaire dans l'interaction corde-archet du violon, a été effectuée dans l'équipe par A. Ward. Une stagiaire ATIAM (S. Serafin) a été chargée de développer ce modèle non-linéaire de base de violon et son contrôle gestuel. Ce travail s'est inspiré du travail sur la trompette de C. Vergez mais avec les systèmes temps réel jMax et MSP, ce qui facilite largement l'implémentation et le contrôle. De plus, le violon présente un cas particulièrement intéressant de problème de contrôle et a donc bénéficié d'une collaboration avec M. Wanderley qui travaille sur le geste musical. En particulier, pour simuler l'archet, S. Serafin a étudié divers dispositifs gestuels, tels que la souris à quatre dimensions développée dans l'équipe et une tablette graphique Wacom. Un modèle physique de base de violon a donc été implanté et tourne en temps-réel. L'étude de son contrôle gestuel par un tablette graphique s'est révèlé très intéressant. Une prolongation en thèse de doctorat a donc été commencée. De nombreuses améliorations du modèle de base sont implantées ou à l'étude. De plus, une nouvelle tablette graphique est désormais utilisée. Elle permet de capter le mouvement d'une main tenant un stylet (représentant l'archet du violon) et le mouvement d'un autre capteur représentant la main gauche du violoniste. Une collaboration avec le CCRMA de l'University de Stanford est également entamée.

Responsable: Rodet X.
Participant: Serafin S. (stagiaire DEA ATIAM)
Collaborations internes: Vergez C. (Thèsard ATIAM) et Wanderley M. (Thèsard ATIAM)
Collaboration externe : University de Stanford (Smith J.)


3.1.3 Contrôle gestuel

Dispositif expérimental de contrôle

  Ce travail a été mené par V. Hayward, chercheur de l'université McGill en année sabbatique dans l'équipe. Un dispositif de contrôle "haptique" conçu pour stimuler des sensations kinestésiques et tactiles a été testé dans diverses applications. Les dispositifs dits "haptiques" sont des transducteurs pour le sens du touché et les sens kinesthésiques de la main en particulier. Le but premier est de tester les caractéristiques pertinentes d'instruments mécano-acoustiques connus sans en avoir les limitations dues à leur principe. Ces caractéristiques incluent par exemple la nécessité pour un instrumentiste de fournir de l'énergie mécanique (résultante d'un mouvement dissipatif) afin de produire un son et d'en percevoir l'effet par des sensations auditives et kinestésiques/tactiles. Le but second est de fournir un site expérimental programmable pour explorer l'importance du geste au cours de l'exécution musicale, et l'adéquation de divers types de gestes à divers types de contrôle.

Responsable: Rodet X.
Participant: Hayward V. (Chercheur en année sabbatique Université McGill)
Collaborations internes: Wanderley M.M. (Thésard ATIAM), Rovan J. (chercheur invité)
Collaborations externes: Université McGill

Etude du geste musical

M.Wanderley développe une thèse commencée en fin 1996 sur le sujet: "Définition, modélisation et implémentation de méthodes d'acquisition de gestes et ses applications à la synthèse sonore". Les premiers mois de thèse ont été dédiés à une étude sur les possibilités des systèmes de capture gestuel existants, sur les travaux menés à l'Ircam dans ce domaine (publication aux JIM98) et sur les environnements de synthèse temps-réel les plus courants. Le sujet comprend quatre parties: l'étude des gestes du musicien, la modélisation des gestes et les méthodes d'acquisition, le mapping des variables gestuelles aux variables du synthétiseur et finalement la modélisation de l'instrument. La première partie a été menée pendant l'année 1997 et a abouti à deux rapports d'activités. A partir d'août 1998, elle est aussi développée dans un ouvrage édité en collaboration avec Marc Battier et produit par l'Ircam. Cet ouvrage est consistitué d'un CDROM où plusieurs chercheurs et musiciens ont été invités à contribuer avec des articles proposant un survol de l'état de l'art de la recherche sur le contrôle gestuel. La date de sortie est prévue aux alentours de juin 1999. La question de la modélisation et de l'acquisition des gestes (publication à SEAMUS98) a été poursuivie pendant l'année 98, avec l'étude des échantillons du projet Studio-en-Ligne et l'analyse de performances vidéo (publication acceptée pour le 3ème Gesture Workshop en 1999). La modélisation de ces effets a été faite dans l'environnement de synthèse FTS/jMax pour la simulation des modifications observées dans les échantillons. La troisième partie a été développée en collaboration avec Joseph Rovan, Shlomo Dubnov et Norbert Schnell, dans le cadre de la modélisation du contrôle d'une clarinette en synthèse additive et dans la définition du système de synthèse temps-réel ESCHER, au début de 98 (publication à IEEE SMC 98). Finalement, dans l'année 99 nous nous percherons sur la quatrième partie du travail en finissant le modèle dans l'environnement jMax.

Responsables: Depalle Ph., X. Rodet
Participant: Wanderley M. M. (Thésard ATIAM)
Collaborations internes: Battier M., Schnell N., Rovan J. et Équipe Acoustique des Salles
Collaborations externes: Camurri A. (DIST - Genova)


3.2 Activités de développement

AudioSculpt

De nombreuses incertitudes pèsent sur l'avenir des plateformes micro-informatiques pour les musiciens. En attendant que des solutions stables se dégagent, le développement d'AudioSculpt a été poursuivi seulement dans le sens du debugging, de la maintenance et de quelques améliorations simples. De nombreux points de SVP ont été corrigés dans la version 1.45 disponible aujourd'hui sous Unix. Cette version de SVP est en cours d'intégration dans AudioSculpt. La nouvelle version d'AudioSculpt ainsi constituée sera disponible très prochainement dans le Forum. Par ailleurs une réflexion de fond a été entreprise sur l'avenir d'AudioSculpt, sa structure et les plateformes cibles. Il devient en effet nécessaire de reconstruire une nouvelle version de ce logiciel dont l'origine est très ancienne et l'environnement de développement obsolète.

Responsables: Rodet X. et Depalle P.
Participant: Koenders M. (développeur)


Diphone et Chant

Le logiciel Diphone a beaucoup évolué dans l'année 1998. De nombreuses fonctionnalités ont été ajoutées à l'interface graphique utilisateur. L'architecture a été totalement refaite autour d'un noyau de gestion des segments qui communique avec des "plug-in" pour toutes les analyses et synthèses (importation et exportation de fichiers d'analyse et de son). En plus de Additive, de nouvelles analyses/synthèses ont été ajoutées sous formes de nouveaux plug-in : Chant et Signal-échantillonné. La synthèse Chant offre plusieurs Patchs qui incluent les Formes d'Onde Formantiques (FOF), les Filtres avec entrée de bruit ou de fichier. La synthèse Signal-échantillonné permet de concaténer (avec fade-in et fade-out) des segments de sons trouvés dans des fichiers, ce qui constitue un outil intéressant de micro-montage. Le résultat d'un tel montage peut, par exemple, être utilisé comme fichier d'entrée d'un banc de filtres Chant. Enfin, une liaison a été établie entre Diphone et Max, qui permet de récupérer dans Max les valeurs des paramètres fournies par Diphone au temps T donné par Max. Un effort particulier a été fait pour améliorer l'analyse. L'analyse de fréquence fondamentale et l'analyse additive en partiels ont été séparées de Diphone en une application nouvele nommée AddAn. L'interface graphique utilisateur rend l'utilisation d 'AddAn bien plus aisée. Une autre amélioration importante est le lien avec la bibliothèque SDIF (Cf. ci-dessous), qui permet désormais l'importation et l'exportation pour la synthèse en fichiers binaires au format SDIF.

Responsable: Rodet X.
Participant: Lefevre A. (développeur) et Vergez C. (développeur)
Collaborations internes: Virolle D. (stagiaire ESIEA)

Enveloppes spectrales dans l'analyse et la synthèse

Pour beaucoup d'applications de traitement et de synthèse du son, l'enveloppe spectrale joue un rôle crucial. Pour des applications musicales, l'enveloppe spectrale détermine en grande partie le timbre, en particulier la couleur du son. Pour la voix, des caractéristiques importantes telles que le type d'une voyelle ou une partie de la qualité vocale dépendent de l'enveloppe spectrale. Dans le contexte de l'informatique musicale, il est important d'avoir un contrôle précis de l'enveloppe spectrale pour que les compositeurs puissent réaliser exactement leurs idées. Par exemple, dans la synthèse de la voix chantée, il est nécessaire de placer les formants précisemment pour obtenir bon voix qualité. Dans le contexte de l'analyse et de la synthèse additive, où un son est décomposé en sinusoides, ce qui rend chaque détail du son accessible à la manipulation, les enveloppes spectrales apportent une sortie au problème du contrôle des paramètres des centaines de sinusoides en fonction du temps. Dans cette thèse de diplôme, diverses méthodes pour l'évaluation, la représentation, la mémorisation en fichier, la manipulation, et l'application des enveloppes spectrales pour la synthèse ont été évaluées, améliorées, et mises en application. Une bibliothèque de programmes pour l'utilisation des enveloppes spectrales a été construite et est disponible en interne. Elle fait appel également à la bibliothèque SDIF qui a été complétée spécialement pour l'utilisation des enveloppes spectrales. Par ailleurs, les programmes d'analyse/synthèse additive+résiduel de M. Oudot, où la partie additive est harmonique avec amplitudes contrôlées par enveloppe spectrale, ont été revus par D. Schwarz. La partie résiduel est représentée par l'enveloppe spectrale d'un bruit gaussien. Ce système est en cours d'optimisation afin d'être proposé en utilisation interne et avec entrées/sorties dans le format SDIF. Un rapport est disponible en ligne sur
http://www.ircam.fr/equipes/analyse-synthese/schwarz/specenv.ps.gz
et des documentations en ligne, accessible en interne, sur
file:/u/formes/schwarz/doc/index.html

Responsable: Rodet X.
Participant: Schwarz D. (stagiaire Université de Stuttgart)
Collaborations internes: Oudot M. (Thésarde ENST)

Le format de fichiers SDIF

SDIF est un standard de format de fichiers de paramètres d'analyse et de synthèse (Exemples: FFT, additive, filtres, fondamental...) pour différents logiciels et différents centres de recherche (CNMAT-Berkeley, CCRMA-Stanford, IUA-Barcelone, ... plus de 13 Centres). Le standard SDIF a été élaboré en collaboration avec le CNMAT, Berkeley, par D. Virolle, R. Woehrmann et X. Rodet. La bibliothèque SDIF a été écrite et installée à l'Ircam par D. Virolle. En 1998, le développement de ce standard et de la bibliothèque ont été poursuivis. SDIF a été présenté à un groupe d'un douzaine de centres de recherches lors de l'ICMC 1998 et a été très bien accueilli. La nouvelle version de la bibliothèque devrait, très prochainement, être mise en accès libre (non-commercial) sur le serveur de l'Ircam.

Responsable: Rodet X.
Participants: Virolle D. (stagiaire ESIEA), Schwarz D. (stagiaire Université de Stuttgart)
Collaboration externe: CNMAT, Berkeley

Xspect

Xspect est un logiciel de visualisation et d'analyse de signaux. Son développement a été poursuivi grâce à un stagiaire en 1998. Diverses améliorations ont été apportées aux analyses et à l'interface graphique. La partie la plus nouvelle concerne la représentation en "sonagrammes". Deux stratégies ont été étudiées. L'une en OpenGL, l'autre en Xwindow. Différentes raisons ont conduit à choisir de preéférence l'option Xwindow. Une nouvelle version de Xspect incluant un état provisoire de la représentation en sonagrammes est mise en service en interne. La documentation utilisateurs est également mise à jour.

Responsable: Rodet X.
Participant: Guillet V. (stagiaire)

3.3 Compositeur en recherche

Durant l'année 1998, le compositeur G. Racot a travaillé avec l'équipe Analyse-Synthèse sur l'utilisation musicale du logiciel Diphone et de la synthèse sonore par les méthodes Additive et Chant. La recherche a porté en particulier sur la facilité d'utilisation des logiciels, sur les interfaces utilisateurs et sur de nouvelles possibilités et exemples sonores qui ont été diffusés dans le CD-ROM du Forum de l'Ircam en Décembre 1998. Ce travail a donné lieu a l'écriture par G. Racot d'un Manuel d'utilisation et Tutoriel pour le logiciel Diphone en novembre 1998.

Publications

Dubnov S. et X. Rodet, Study of spectro-temporal parameters in musical performance, with applications for expressive instrument synthesis in Pro. IEEE International Conference on Systems, Man, and Cybernetics, San Diego, USA , novembre 1998.

Dubnov S. et X. Rodet, Timbre Characterisation and Recognition with Combined Stationary and Temporal Features in Proc. ICMC 98: International Computer Music Conference 1998, Ann Arbor, MI, USA, october 1998.

Peeters G., Analyse et Synthese des sons musicaux par la methode PSOLA in Proc. JIM: Journées d'informatique musicale, Agelonge, France, mai 1998.

Peeters G. et X. Rodet, Signal Characterization in terms of Sinusoidal and Non-Sinusoidal Components in Proc. DAFX 1998, Barcelona, Spain, novembre 1998.

Rodet X. et S. Rossignol, Automatic characterisation of musical signals: feature extraction and temporal segmentation in Proc. worshop Content Processing of Music for Multimedia Applications, ACM MULTIMEDIA, septembre 1998

Rodet X., Sinusoidal+Residual Models for Musical Sound Signals Analysis/Synthesis in Proc. of the Fourth Meeting on the FWO Research Society on Foundations of Music Research: Time-Frequency Techniques and Music , Ghent, Belgium, mars 1998.

Rodet X., Sinusoidal+Residual Models for Musical Sound Signals Analysis/Synthesis, Applied Signal Processing Vol. 4 No. 3 1997 pp 131-141.

Rossignol S., X. Rodet, J. Soumagne, J-L. Colette, Ph. Depalle, Feature extraction and temporal segmentation of acoustic signals in Proc. ICMC 98: International Computer Music Conference 1998, Ann Arbor, MI, USA, october 1998.

Rovan J. et Wanderley M. M. Gestural Controllers: Strategies for Expressive Application SEAMUS'98, Dartmouth College, Hanover, NH, USA, avril 1998.

Tassart S. , Infinite length windows for short-time Fourier transform in Proc. ICMC 98: International Computer Music Conference 98, Ann Arbor, MI, USA, october1998.

Vergez C. et X. Rodet, Bifurcation Sequence in a Physical Model of Trumpet-like Instruments: From a Fixed Point to Chaos in Proc. NOLTA, Crans-Montana, septembre 1998.

Vergez C. et X. Rodet, Experiments With An Artificial Mouth For Trumpet ISMA in Proc. International Symposium of Music Acoustics, Leavenworth, WA, juin 1998.

Wanderley M. M. , Schnell N. et J. Rovan, Escher - Modeling and Composing "Expressive Instruments" in Real-time IEEE Symposium on Systems, Man and Cybernetics - SMC98 - San Diego, CA - USA, octobre, 1998.

Wanderley M. M. et al., Gestural Research at Ircam: A Progress Report, Journées d'Informatique Musicale - JIM98 - La Londe-les-Maures - France, mai 1998.

Wright M., A. Freed, X. Rodet, X. Serra, D. Virolle, D. Wessel et R. Woehrmann, New Applications of the Sound Description Interchange Format ICMC: International Computer Music Conference 1998, Ann Arbor, MI, USA, octobre 1998.

Thèse

Oudot M., Analyse/synthèse des signaux de parole à partir d'un modèle de sinusoides et de bruit. Application au codage bas débit et aux transformations prosodiques, thèse de l'ENST, Ircam, 13 novembre1998.

Rapports internes

Dubnov S., Classification de l'évolution dynamique des signaux sonores, rapport de recherche, Ircam, Janvier 1998

Oudot M., Etude du modèle sinusoides+bruit, application au codage et à la synthèse de la parole, rapport de 3ème année de thèse, Ircam, Mai 1998. Rapport intermédiaire en ligne sur:
http://www.ircam.fr/equipes/analyse-synthese/oudot/

Peeters G., Analyses pitch synchrone et décision voisé/non-voisé en temps et en fréquence, rapport de thèse 2ème année, Ircam, Mai 1998. Rapport intermédiaire en ligne sur:
http://www.ircam.fr/equipes/analyse-synthese/peeters/PSOLA/index.htm

Peeters G, Rapport de mission à JIM, mai 1998.

Peeters G., Rapport de mission à DAFX, novembre 1998.

Racot G., Manuel d'utilisation et Tutoriel du logiciel Diphone, Ircam, novembre 1998.

Rodet X., Rapport au CNRS pour l'UMR Ircam-CNRS, Juin 1998.

Rodet X. et C. Vergez, Rapport sur les missions à ICA/ASA, EMU, CCRMA et CNMAT, Juillet 1998.

Rodet X. et S. Rossignol, Rapport de mission à ICMC'98, Octobre 1998

Rossignol S., X. Rodet, une petite documentation en ligne du programme segmentation :
http://www.ircam.fr/equipes/analyse-synthese/segmentation/segmentation.html

Rossignol S. et X. Rodet , Rapport de mission à l'ACM MULTIMEDIA'98, septembre 1998.

Rossignol S., Segmentation - Extraction du vibrato - Séparation de sources, rapport de 2ème année de thèse, Ircam, Janvier 98.

Schwarz D., Spectral Envelopes in Sound Analysis and Synthesis, on-line html documentation:
file:/u/formes/schwarz/doc/index.html

Tassart S. rapport de thèse, Ircam, Décembre 98.

Wanderley M. M., Gesture, Sensors, Feedback - Some comments on the design of Gestural Controllers, rapport intermédiaire de thèse, June 98. Disponible en ligne sur:
http://www.ircam.fr/equipes/analyse-synthese/wanderle/Gestes/Externe/Sensor_Feedb/Intro.html

Wanderley M. M., KANSEI - The Technology of Emotion Workshop, Genes, Italie.

Rapport de DEA

Hélie T., Etude de méthodes d'estimation des paramètres d'un modèle physique d'instrument de trompette, DEA d'Automatique et Traitement du Signal-Université Paris XI, Ircam, juillet 1998.

Hélie T., Estimation des paramètres d'un modèle physique de trompette, ATIAM, Ircam, juillet 1998.

Henrich N., Synthèse de la voix chantée par règles, ATIAM, Ircam, juillet 1998.

Serafin S., Un oscillateur non-lineaire modele physique de base des instruments de type violon, ATIAM, Ircam, juillet 1998.

Rapport de stage

Berthaut J. Rapport de stage ouvrier de 1ère année, Ecole Centrale de Lyon août 1998.

Guillet V., Améliorations de Xspect, Insa de Lyon, Septembre 1998.

Schwarz D., Spectral Envelopes in Sound Analysis and Synthesis, Université de Stuttgart, juin 1998.

Worms L., Reconnaissance d'extraits sonores dans une large base de données, Ecole Supèrieure de Physique de Marseille, Décembre 1998.

Contrats

Contrat avec le CNET-Lannion: Application de l'analyse-synthèse additive+résiduel à la synthèse et au codage.

Contrat avec le CCETT: Caractérisation des sons.

Contrat avec la Cité des Sciences et de l'Industrie de la Villette, documents multimedia pour deux thèmes, L'exploration du timbre et Reconstruire un son.

Conférences invitées

Oudot M. et X. Rodet, l'IRCAM et ses activités en traitement de la parole. Présentation des travaux de thèse de Marine Oudot, Thomson-CSF communications, Gennevilliers, FRANCE, 12 octobre 1998.

Rodet X., Sinusoidal+Residual Models for Musical Sound Signals Analysis/Synthesis ,Fourth Meeting on the FWO Research Society on Foundations of Music Research: Time-Frequency Techniques and Music , Ghent, Belgium, 20 mars 1998.

Rodet X., Synthèse sonore par ordinateur, Séminaire CNRS "Création Artistique et machines", Paris avril 1998.

Rodet X., La synthèse musicale, Université PFU, Barcelone, mai 1998.

Rodet X., Synthesis and Control of Synthesis Using a Generalized Diphone Method, session spéciale Musical Acoustics: Signal Modeling in Music Synthesis and Processing, 16th International Congress on Acoustics (ICA) et 135th Meeting of the Acoustical Society of America (ASA) Seattle, Washington, USA, juin 1998.

Rodet X. et C. Vergez, Le logiciel Diphone, et Simulation de la trompette et bouche artificielle, workshop au CCRMA de l'Université de Stanford, 3 juillet 1998.

Rodet X., La reconstruction de voix de castrat, Rencontres Internationales de l'Audiovisuel-Images et Sciences, CNRS, Nancy, 13 octobre 1998

Rossignol S., Charactérisation et Segmentation des sons, Session spéciale de l'ACM, Bristol, septembre 1998

Wanderley, M.M., Gestural Controllers, Conf. Invitee au SIM (Staatliches Institut fur Musikforschung), Berlin, juillet 1998.

Wanderley, M.M. and X. Rodet, Le geste dans le controle de la synthese sonore, Colloque "L'Interface homme-machine dans la creation musicale", Ircam, décembre 1998.

Séminaires internes 1998

Lefevre A. et X. Rodet, D. Virolle, Le logiciel Diphone: Nouvelle architecture logicielle et nouveaux synthétiseurs.

Schnell N., B. Rovan et M. Wanderley, ESCHER - a multidimensional real-time additive synthesis environment

Rossignol S., X. Rodet et Ph. Depalle, Segmentation des signaux sonores

Marcello Wanderley et Ph. Depalle, Le geste musical.

Geoffroy Peeters et Xavier Rodet Analyse/synthèse PSOLA.

Travail sur les enveloppes spectrales Diemo Schwarz

Marine Oudot Applications du modèle sinusoïdes et bruit aux codage, débruitage et à la transformation des sons de parole.

Jurys universitaires

Rodet X, Rapporteur du Jury de thèse de L. Rossi, Université de Corse, Janvier 1998.

Rodet X., membre du Jury de thèse de M. Oudot, Analyse/synthese des signaux de parole a partir d'un modele de sinusoides et de bruit. Application au codage bas debit et aux transformations prosodiques, thèse de l'ENST, Ircam, 13 novembre1998.

Activités de formation

S. Tassart, Organisation et coordination du DEA Atiam (1/2 temps).

Ph. Depalle, DEA Atiam, cours d’analyse spectrale et de synthèse des sons.

C. Vergez, cours d'initiation au langage C, DEA ATIAM.

X. Rodet, Cours dans le DEA Atiam Modèles physiques et systèmes dynamiques pour la synthèse sonore..

X. Rodet: Cours dans le DEA Atiam: Synthèse Chant et FFT-1.


Emissions et diffusion de l'information

Rodet X., Interview pour l'article "Faire chanter les morts de SVJ, janvier 1998.

Rodet X., La synthèse sonore, tournage pour l'émission 5/5 de la Chaine TV 5, mars 1998.

Rodet X.et A. Lefèvre: La nouvelle version du logiciel Diphone, Journées Forum de l’'Ircam, mars 1998.

Rodet X., La synthèse sonore et son contrôle, Portes Ouvertes de l'’Ircam, juin 1998.

Rodet X., participation à la réalisation d'une installation Multimedia Le projet Cistercien, (C. Ikam et L.F. Fleury) première diffusion à l'Ircam en juin1998.

Rodet X., La nouvelle version du logiciel Diphone, Worshop Forum de l’'Ircam au CNMAT de l'Université de Berkeley, juillet 1998.

Rodet X., Interview pour l'Est Républicain, La reconstruction de voix de castrat, Nancy, 13 octobre 1998.

Rodet X.et A. Lefèvre: La nouvelle version du logiciel Diphone, Journées Forum de l’'Ircam, Décembre 1998.C. Vergez, Trompette virtuelle et bouche articielle pour la trompette, tournage pour la Chaine TV 5.

Réalisation d'une vidéo "Atelier Mécanique" par Lepoivre V. et B. Villegas, ISTS, mai 1998, sur la bouche artificielle pour la trompette.

Collaborations

Soumagne J. et L. Colette, Supélec-Metz, Département automatique, Metz, France, "Codage des signaux sonores".

N.Tishby N. et R. El-Yaniv, Hebrew University, "Caractérisation de la texture et des gestes musicaux dans des séquence de notes".

Wright M. et A. Freed, CNMAT, Université de Berkeley, "Le standard SDIF".

Moulines E., Télécom-Paris, Département Signal, Paris, France, "Synthèse et codage par modèles additif".

Ecole des Mines de Paris, Lévine J.

Personnel

Responsables:

Contractuels:

Chercheurs invités:

Thésards:

Stagiaires: