PROJET D'ACTIVITE 2000

3. Analyse et synthèse des sons

L'équipe Analyse et synthèse des sons cherche, simultanément, à répondre aux besoins et aux demandes des musiciens et compositeurs de l'Ircam et de la création musicale contemporaine, et à ouvrir de nouvelles voies conceptuelles ou applicatives pour offrir des possibilités innovantes dans ce domaine. C'est de cette double circulation de demandes et de d'explorations que se nourrit la recherche et le développement que mène l'équipe, non pas de front, mais bien plutôt en continuité entre invention et mise en oeuvre. De façon parallèle, les modalités scientifiques et musicales concourrent à l'évolution des moyens théoriques et des idées de la pratique concrète. Dans le contexte de l'Ircam, l'un des aspects les plus marquants est l'accent mis sur l'interopérabilité des logiciels issus des différentes équipes du département scientifique. Le travail, sur des années, de recherche puis d'implémentation du standard SDIF (Sound Description Interchange Format) en est l'un des meilleurs exemples, la bibliothèque de liaison entre Open-Music et AudioScult en est un autre. La maturité des logiciels d'analyse, utilisables désormais directement par les musiciens, est également une évolution marquante, tout comme l'implémentation 'temps réel' de méthodes de synthèse puissantes (Sinusoidale Additive+Résiduel, Enveloppes Spectrales, PSOLA, etc...) dans l'environment jMAx de l'Ircam. Elle ouvre,  en conséquence, la possibilité d'étendre la palette des techniques d'analyse en fonction des besoins, des applications et même des sons, et bien sûr enrichit les méthodes de contrôle et de synthèse. Enfin, l'une des directions les plus innovantes est celle des recherches en inversion des modèles physiques d'instrument afin de pallier à la difficulté du jeu instrumental, difficulté inhérente au modèle physique aussi bon  soit-il. Le contrôle gestuel bien sûr est l'autre versant de l'utilisation musicale de modèles de plus en plus puissants, souples et fonctionnant malgré tout en temps-réel. Ces évolutions marquantes guident les nouvelles directions prises par les recherches en modèles de signaux et modèles de physiques et en développement, présentées ci-dessous.
 

3.1 Activités de recherche
 

3.1.1 Modèles de signaux
 

Synthèse/Codage sonore à partir de descripteurs de haut niveau et perceptuels

Les descripteurs sont des attributs de niveau élevé tels que ceux utilisés dans certaines méthodes de synthèse, ou définis
en psycho-acoustique, ou provenant des modèles de production (dits modèles physiques). Une première approche
pour la définition de l'ensemble des descripteurs proviendra de l'étude des méthodes actuelles de synthèse, en
particulier la méthode FOF (Formes d'Onde Formantiques), la méthode sinusoidale additive+résiduel et le modèle source-filtre en général. Il s'en dégage déja l'importance des enveloppes spectrales, des caractères harmonique/inharmonique et sinusoidal/bruité et les formes de modulations (d'amplitude, de fréquence et de phase) de ces caractères. D'autres facteurs importants seront dégagés au fur et à mesure des besoins rencontrés. Une
deuxième approche pour la définition de l'ensemble des descripteurs est issue des modèles physiques d'instruments. En
effet, il existe des modèles physiques simplifiés des différentes classes d'instruments (par exemple, clarinette,
trompette, violon, flûte, etc.). Autrement dit, les sons produits par ces systèmes dynamiques simples sont entendus
comme ayant le timbre caractéristique des classes d'instruments correspondants. On peut espérer en déduire une
relations entre ces timbres caractéristiques et les propriétés des signaux produits. D'autres facteurs importants
pourront provenir des propriété de résonnance et des modes d'excitation des instruments et corps sonores (frappé,
frotté, soufflé, etc.). Une troisième approche pour la définitin de l'ensemble des descripteurs proviendra d'études
psycho-acoustiques. L'équipe Perception et Cognition Musicales de l'Ircam a étudié la façon dont les auditeurs
organisent mentalement des relations perceptives entre timbres (un «espace de timbres», sorte de carte où les
distances sont petites entre les objets sonores semblables et plus grandes entre les objets dissemblables). L'examen des
paramètres acoustico-auditifs sous-jacents aux dimensions de cet espace et aux traits spécifiques, fournira donc des
directions essentielles pour le choix des descripteurs. Parmi des facteurs trouvé comme importants, on peut citer la
hauteur, la brillance, l'évolution dynamique, le grain, le bruit, etc.... Il faut enfin souligner que l'ensemble des
descripteurs ne sera pas une simple liste mais plutôt un graphe valué, structuré de façon à rendre compte de
l'importance respective des descripteurs. La question de leur dépendance/indépendance devra être étudiée
soigneusement, car, s'il semble souhaitable qu'il soient aussi indépendants que possible, il n'est pas évident que ce soit
toujours possible. Il semble souhaitable d'offrir une description "à précision ajustable" des sons, depuis une description
schématique (rapide et de faible quantité d'information) jusqu'à une description "transparente". Cette précision
ajustable est déjà utilisée à l'Ircam dans plusieurs logiciels. Par exemple, l'analyse Harmonique+Résiduel permet, a
volonté de passer, pour de la parole, de débits de 2.4Kbps jusqu'à, à haut débit, une qualité transparente. Un autre
exemple apparait dans le logiciel Diphone ou une écoute temps-réel de qualité réduite est possible même sur des
machines lentes: la synthèse additive permet en effet de réduire à volonté le nombre de partiels synthétisés tout en
gardant une bonne idée du son et de son organisation. Ces questions sont déjà largement abordées dans le projet
européen CUIDAD dirigé par l'IRCAM en collaboration avec plusieurs institutions européenes et dans ses travaux
de propositions pour standard international MPEG-7, ainsi que dans le standard SDIF (Cf. paragraphe 3.3) en cours d'établissement par l'Ircam et le CNMAT (Center for New Music and Audio Technologies) de
Berkeley en collaboration avec de nombreuses institutions internationales. Un ensemble aussi exhaustif que possible
de sons de test devra être constitué en une base de donnée appelée à s'enrichir constamment de sons fournis par
d'autres équipes de l'Ircam et de la communauté en général. L'Ircam, en particulier, a construit une grande base de
données de sons instrumentaux accessibles en ligne et qui fournira une excellente base de départ pour ces tests. Le
Audio Test Set pour le Core Experiment de MPEG-7 est aussi un ensemble de sons qui permettra de tester les
descripteurs. Bien d'autres bases de données ou CD d'exemples sonores divers existent (animaux, bruitages,
ambiances, etc...). La recherche des descripteurs pourra se faire de façon progressive, en partant d'un ensemble de
descripteurs connus aujourd'hui par l'expérience de la synthèse sonore et par les connaissances psycho-acoustique.
Cet ensemble serait alors enrichi et modifié peu à peu en fonction des besoins et des difficultés rencontrées dans les
essais de codage de la base de donnée de sons de test.

Responsable : Rodet X.
Participant : Chercheur sur contrat
Collaborations internes : Schwarz D.
Collaborations externes : Rault J.B. (Centre d'Etude des Télécommunications)

Synthèse par sélection d'unités sonores et transformation

Ce travail regroupe des recherches dans les directions suivantes: estimation, classification et structuration de
paramètres, utilisation d'une base de donnés hétérogènes de sons et de caractéristiques, recherche sur la
conception et l'architecture logicielles fondées sur des composants réutilisables. En effet,  il s'avère qu'une nouvelle technologie pour la partie synthèse des systèmes de synthèse à partir du texte appelée "sélection
d'unités" peut être, aussi bien,  appliquée à la composition en musique et à la synthèse sonore de haute qualité. En
utilisant une base de données hétérogènes de bruits, de notes isolées ou de phrases musicales, et des caractéristiques
classées et segmentées selon des paramètres estimés à partir du signal sonore, le meilleure candidat pour un segment
de la sortie sonore est trouvé par des méthodes efficaces d'extraction de données et un algorithme de sélection
d'unités. Le segment sonore choisi dans la base de données est transformé pour correspondre aux paramètres de
synthèse désirés, par des techniques temporelles ou fréquentielles de resynthèse telles que PSOLA (Cf. paragraphe Analyse-Synthèse PSOLA), la resynthèse additive, le phase vocoder, et le filtrage. Le segment sonore ainsi transformé est enchaîné avec les segments trouvés pour les autres parties de la sortie désirée, en appliquant par exemple des techniques d'interpolation (crossfade) pour éviter les discontinuités, ou des transformations de niveau plus élevé. L'analyse de la base de données (segmentation et classification automatiques), et l'extraction de paramètres sont faites au moyen de méthodes de traitement du signal avançées et d'intelligence artificielle telles que les réseaux neuronaux, les modèles de markov cachés, et les algorithmes génétiques. Pour une applicabilité facile au marché multimédia rapidement croissant, des interfaces et les formats d'échange ouverts, normalisés, seront développés et utilisés. La clé du développement réussi d'un système logiciel complexe comme celui proposé, repose sur les principes de l'ingénierie logicielle. L'architecture logicielle sera établie selon une conception orientée-objet et des composants réutilisables pour favoriser la flexibilité, l'expansibilité, et la maintenance.

Responsable : Rodet X.
Participant : Schwarz D. (thèse)
Collaboration interne : Peeters G., Corson F.

Analyse-Synthèse PSOLA (Pitch Synchronous Overlapp Add) et Additive

La thèse de G. Peeters sur l'Analyse-Synthese PSOLA et Additive doit se terminer dans l'année 2000. L'année passée a permis de tester les bases d'une méthode d'analyse-synthèse de type PSOLA et une extension incluant l'analyse-synthèse de type sinusoidal additif, l'ensemble étant nommé SINOLA. L'année prochaine sera donc consacrée au développement, à la validation et aux tests de ces méthodes. De plus ces méthodes pourront être implantées en temps-réel sur la station de travail jMax de l'Ircam et sous Unix, de façon à être utilisées par les assistants musicaux et les compositeurs de l'Institut ou même de l'extérieur. Du point de vue de l'analyse additive, une des avancées les plus intéressante est une meilleure estimation des paramètres. D'une part, grâce à une suppression des biais de l'analyse classique stationaire, d'autre part grâce à une estimation de pente locale des paramètres. Cette nouvelle méthode d'estimation sera donc confrontée aux méthodes classiques afin de mesurer le gain qu'elle apporte. L'utilisation des paramètres de pente dans l'étape de construction de trajets sinusoidaux sera aussi envisagée, soit par une méthode heuristique fondée sur un critère de régularité des trajets en terme de courbure, soit par par la méthode HMM (Modèles de Markov Cachés). Du point de vue de l'analyse PSOLA, seront étudiés de façon approfondie, le découpage en marqueurs de période fondamentale et le découpage en marqueurs de caratère sinusoidal/non-sinusoidal. Le dernier point nécessaire à la méthode SINOLA, c'est-à-dire le détection et la modélisation des transitoires, sera mis au point pour être disponible également dans tout autre méthode d'analyse. Pour permettre une communication facile des données d'analyse entre différents logiciels, toutes les entrées et sorties seront implantées dans le format SDIF en cours de développement dans l'équipe. Enfin une partie importante de l'année sera consacrée à la rédaction du document de thèse et à la documentation des méthodes et des logiciels issus de cette recherche qui trouveront des applications musicales manifestement très intéressantes.

Responsable : Rodet X.
Participant : Peeters G. (thèse), stagiaire de DEA
Collaboration interne : Corson F.

Séparation et reconstruction de signaux audio: modélisation à résolution multiple, modèles statistiques de
regroupement et utilisation de connaissances hétérogènes.

Le terme "Analyse de Scènes Auditives" est souvent utilisé pour désigner, notamment, la capacité de discerner,
séparer et décrire des événement acoustiques variés et concomitants. Dans ce cadre, la "Séparation de Flux Sonores"
consiste à distinguer certains groupes d'événements acoustiques et à les grouper en flux sonores. La simulation par
ordinateur de cette capacité a été abordée sous des angles variés, par divers chercheurs. C'est un problème
extrêmement difficile s'il n'est pas limité et contraint, et qui est loin d'être résolu. Suivant un axe différent, on entend
par "Séparation de Sources", la restitution ou restauration de N signaux inobservables appelés sources, à partir de M
observations de leur mélange, mélange lui-même supposé inconnu. Elémentaire à l'origine (inversion d'un modèle de
mélange linéaire instantané), la Séparation de Sources s'est considérablement enrichie ces dernières années. Dans de
nombreux cas, pour des signaux audio, on ne dispose que d'une (M=1) ou deux (enregistrement stéréo M=2)
observations. Les méthodes usuelles en Séparation de Sources ne sont donc utilisables que dans une mesure très
réduite.
    La  "Séparation et Reconstruction de Signaux Audio" est etudiée ici sous l'angle du Traitement du Signal et avec
l'objectif de pouvoir séparer et reconstruire des signaux audio mixés. La plupart des travaux en Analyse de Scènes
Auditives utilisent une première étape de décomposition du signal en, d'une part, une somme de sinusoïdes (nommées
partiels) à fréquence et amplitude variant dans le temps et, d'autre part, un signal aléatoire (dit résiduel) de densité
spectrale variant dans le temps. La deuxième étape consiste en la classification des diverses composantes en groupes
censés correspondre aux événements acoustiques (nommés simplement sons) composant la scène auditive. Les
difficultés que soulèvent ces deux étapes sont nombreuses et considérables. Cependant, des travaux comme ceux de
Pearson, Ellis, Rossi montrent que des résultats plus ou moins satisfaisants peuvent être obtenus dans un contexte
limité ou contraint et avec des approches rigoureuses et complètes en traitement du signal et théorie de l'information,
enfin en incluant aussi l'ensemble des connaissances disponibles dans un contexte donné et pas seulement les données
directement calculables par traitement du signal. Ce travail viendra en continuité du travail de stage de DEA
ATIAM de F. Corson.

Responsable : Rodet X.
Participant : Corson F. (thèse)
Collaboration interne : Peeters G.

Analyse en Formants

La longue expérience de l'Ircam avec les modèles de synthèse montre que la disponibilité du couple analyse et synthèse est gage de succès de la méthode, en particulier auprès des musiciens. Pour la synthèse en formants, filtres ou FOFs (Formes d'Onde Formantiques), l'analyse en modèles de résonnance (ModRes et ResAn) mise au point en 1999 dans l'équipe rencontre beaucoup de succès mais ne s'applique qu'aux sons de type percussif ou réponse impulsionnelle. Le besoin se fait donc sentir d'une méthode d'analyse en formants pour les sons entretenus. C'est un élément indispensable pour les logiciels  Chant et Diphone. L'analyse en formants est un problème difficile qui a été étudié par de nombreux chercheurs pour la parole et par l'équipe Analyse-Synthèse dans le cas général. Des solutions partielles ont été écrites mais de nombreux problèmes subsistent qui devront être résolus de façon à fournir un outil qui, même s'il n'est pas parfait, sera utile dans de nombreux contextes. Un nouvel algorithme d'analyse en formants des sons continus (par opposition aux sons de type percussifs) sera mis au point, et sera intégré à Diphone-Studio. Cette application, qui tournera sur Unix et Mac-OS, sera aussi un composant réutilisable dans d'autres logiciels comme AudioSculpt.

Responsable : Rodet X.
Participant : Stagiaire
Collaboration interne : Schwarz D., Lefèvre A.,

3.1.2 Modèles physiques
 

Méthodes d'inversion de systèmes dynamiques,
modèles de la production de la voix et d'instruments de musique

Le but de cette thèse ATS (Troisième cycle Automatique et Traitement du Signal, Université Paris-11 Orsay) est de
mettre au point des outils d'estimation automatique des paramètres et/ou des entrées de systèmes dynamiques
non-linéaires représentant  l'appareil phonatoire et des instruments de musique. L'intérêt est de construire des
méthodes d'analyse de modèles physiques, modèles qui ont l'avantage d'engendrer  directement les caractéristiques
sonores de l'instrument, et leurs variations  (telles que les attaques et transitoires).
    Durant cette première année de thèse, la modélisation  physique de l'appareil phonatoire et de plusieurs
instruments sera étudiée, dans le but de mieux comprendre les types de problèmes posés par l'inversion, et de dégager
éventuellement une structure commune dans laquelle celle-ci peut être envisagée.
    Au cours du stage de T. Hélie (Diplôme d'Etudes Approndies ATS) en 1998, des méthodes d'inversion d'un modèle
physique  de trompette ont été testées. Ces méthodes reposaient sur l'inversion du système d'équations  décrivant le
modèle. De telles méthodes sont extrêmement prometteuses mais difficiles à mettre  en oeuvre, tant pour des raisons
théoriques que pour des problèmes de stabilité, de précision  numérique et de résistance au bruit.
    Pour toutes ces raisons, plusieurs approches, qui seront l'objet de collaborations,  seront abordées, en particulier,
approche orientée traitement du signal et statistique ou  approche automatique et commande optimale. Ces méthodes
seront élaborées de façon graduelle en  commençant par des contextes simples, par exemple avec une dimension 1 de
l'espace des grandeurs  inconnues, puis en passant progressivement à des contextes de plus en plus généraux.
 

Responsable : Rodet X.
Participant : Hélie T. (thèse)
Collaboration interne : Vergez C.
Collaborations externes: ENST (Ecole Nationale de Télécommunications), INRIA (Institut National de Recherche
en Informatique et Automatique), Ecole des Mines de Paris.
 

Oscillateur non-linéaire modèle du violon

L'année 1999 verra la continuation de la thèse de S. Serafin sur un modèle non-linéaire de Violon et son contrôle gestuel. Cette thèse sera poursuivie à l'université de Stanford et fera l'objet d'une collaboration entre les deux instituts.
En particulier, sera étudiée l'estimation plus précise des paramètres connexes à la partie linéaire du modèle (filtres des pertes au niveau du chevalet et du sillet) et la partie non-linéaire (interaction entre la corde et l'archet). Dans ce domaine, un nouveau modèle de friction, déjà abordé en 1999, sera perfectionné et évalué. Il est fondé notamment sur une modélisation de la friction proposée par P.R. Dahl. En particulier le modèle de violon sera examiné en terme de sa jouabilité, qui peut être définie comme la région d'un espace multidimensionnel constitué des paramètres du modèle où la forme d'onde caractéristique du violon est obtenue.
Sera analysée l'influence, sur la jouabilité du modèle, des ondes de torsion et de la forme de la courbe de friction, qui représente l'interaction entre la corde et l'archet. Ces informations sont utiles pour savoir quels éléments du modèle sont essentiels et lesquels peuvent être négligés, afin de réduire le coût de calcul dans le cadre d'une implémentation temps réel. De plus, le violon présente un cas particulièrement intéressant de problème de contrôle : seront étudiées et implémentées, pour simuler l'archet, différentes façons de contrôler le modèle, en utilisant des capteurs comme la tablette Wacom et la souris Jerry, en collaboration avec M. Wanderley qui travaille sur le geste musical. Le modèle, actuellement implanté sous MSP sera porté sur jMax et les simulations seront effectuées avec jMax ce qui étendra largement l'utilisation et le contrôle.

Responsable : Rodet X.
Participant : Stagiaire, Serafin S. (thèse)
Collaborations internes : Vergez C., Wanderley M., équipe Acoustique.
Collaborations externes : Smith J. (CCRMA)

Etude d'un Modèle Physique englobant les modèles particuliers des différentes classses d'instruments

La synthèse musicale dite par modèles physiques utilise des modèles mathématiques et informatiques des instruments
acoustiques. L'un des buts poursuivis est que, lorsqu'ils sont joués comme des instruments classiques, ces modèles aient
le même comportement que les instruments. Mais pour la création musicale, les modèles ne peuvent être limités à
imiter les instruments traditionnels. Certains compositeurs, par exemple, veulent transformer graduellement un
instrument en un autre. Il faut donc pouvoir comprendre et garantir le comportement des modèles en toutes
circonstances. Certaines classes de systèmes dynamiques non linéaires qui représentent
les traits essentiels de familles d'instruments ont déjà été étudiées. Il s'agit donc d'examiner des
classes de systèmes, notamment les systèmes à boucle(s) de rétroaction linéaire avec retard et non-linéarité(s) qui
modélisent de nombreux instruments entretenus. Seront examinés avant tout les principes de base du
fonctionnement des diverses classes. Pour la classe clarinette, la non-linéarité est considérée comme
sans mémoire. Pour la classe trompette ou voix ce n'est plus le cas, on peut
considérer comme modèle de base le couplage non-linéaire d'un oscillateur harmonique avec une boucle de
rétroaction. Pour le type flûte, il apparaît deux boucle de rétroaction. Le
type hautbois et le type violon (Stefania Serafin fait sa thèse dans l'équipe Analyse-Synthèse sur un modèle de violon
et son contrôle), pour lesquels le modèle est encore différent, doivent être également abordés. Il faudra étudier la stabilité et les bifurcations vers les
solutions périodiques et chaotiques. L'étude portera alors sur l'influence sur leur stabilité des éléments du système
bouclé. En particulier, il faudra essaier de vérifier l'hypothèse que le caractère passe-bas de la boucle linéaire réduit le
nombre de solutions stables, en essayant d'obtenir, si possible, l'unicité. De façon surprenante, les solutions chaotiques
se révèlent très intéressantes d'un point de vue musical. On tentera de contrôler le passage à ces solutions et de
permettre une influence graduelle du caractère chaotique Une autre hypothèse à vérifier est l'influence de la phase de
la fonction de transfert de cet élément linéaire. Il semble en effet que, du point de vue pratique, des solutions
équivalentes à la quasi-périodicité puissent être obtenues. De toute façon les rôles de cette phase et des symétries du
système devront être déterminés. Ensuite, il sera nécessaire comprendre l'interaction des deux éléments couplés (cas d'un oscillateur harmonique avec une boucle de rétroaction et cas de deux boucles de rétroaction) qui semble jouer un rôle essentiel dans plusieurs types de modèles. Les résultats concernent donc l'acoustique musicale, la synthèse musicale
pour les centres de recherche comme pour des applications commerciales dans les synthétiseurs à venir afin
d'améliorer leurs qualités sonores, leurs possibilités et leur facilité de contrôle. En particulier, le calcul numérique en
temps réel de la solution de telles équations permet d'observer leurs propriétés tout en faisant varier les paramètres de
l'équation. Par l'intuition qui en résulte, on obtient ainsi un outil d'exploration mathématique tout a fait
remarquable. De telles expérimentations et implémentation du calcul de solutions sur
ordinateur dans le système temps-réel jMaxl'IRCAM ont déjà commencé. Des développements théoriques très
intéressants en plus des applications pratiques mises en place éventuellement avec les musiciens sont attendus.

Responsable : Rodet X.
Participant : Duch M. (stage)
Collaborations internes : Vergez C., Serafin S., équipe Systèmes temps-réel et équipe Acoustique.
 

Oscillateur non-linéaire modèle de hautbois

Plusieurs modèles physiques d'instruments de musique ont été développés avec succès dans l'équipe. Notamment un modèle simplifié de clarinette, un modèle de trompette qui est actuellement sans aucun doute le meilleur au monde, et un modèle de violon déjà extrêmement intéressant. Pour une utilisation musicale en création contemporaine, il est nécessaire d'offrir non seulement des modèles largement plus puissants que l'instrument classique correspondant, mais encore de permettre une forme d'hybridation continue entre les classes d'instruments, donc au préalable plus de classes différentes. Le type flûte ayant déjà été étudié à l'Ircam, y compris dans une implantation sous forme d'équation non-linéaire avec retard dans l'équipe, la principale classe non encore étudiée de ce point de vue est la classe hautbois (anche double et tuyau conique). Ce travail sera fondé sur les travaux de divers chercheurs, que ce soit a l'Ircam ou dans d'autres instituts comme l'Université du Mans. Le modèle comprendra, suivant le principe maintenant bien établi dans l'équipe, une non linéarité sans mémoire de dimension la plus faible possible et une partie linéaire avec retard correspondant au corps de l'instrument. Enfin ce modèle sera implanté en version temps-réel sur jMAx dans la continuité des modèles physiques de base et de trompette qui fonctionnent déjà temps-réel dans ce système.

Responsable : Rodet X.
Participant : Stagiaire de DEA
Collaborations internes : Caussé R. (Equipe Acoustique Instrumentale), Vergez C.
 

3.1.3 Contrôle gestuel

Etude du geste musical

Pendant l'année 2000, la thèse de M. Wanderley devra s'achever avec
la complétion des études sur les gestes d'un clarinettiste et leur influence dans
le son enregistré. Cela se fera dans une collaboration avec l'Université
de Nijmegen, Hollande (Dr. Peter Desain). Ce sera en particulier,  l'occasion
d'enregistrer les mouvements de quelques clarinettistes pour en déduire
des  gestes de base possibles et leur modélisation.
L'idée de cette étude est de vérifier l'influence de divers paramètres
musicaux dans les mouvements de l'instrumentiste et la variabilité de ces  paramètres
entre différents instrumentistes. Il est aussi prévu de réaliser des tests d'écoute pour vérifier
quel est la perception de ces effets dans différentes circonstances.
    L'autre axe de travail sera la mise en place définitive des modèles déjà
developpés en FTS dans l'environement jMAX. Cette partie des travaux
correspond à une applications des recherches developpées pendant les trois
premières années de thèse sur la modélisation des gestes et le contrôle
gestuel de la synthèse sonore.
    Enfin, une partie importante de l'année sera consacrée à la rédaction du document de thèse, la soutenance de thèse étant prévue pour la fin 2000.
 

Responsables : Rodet X.
Participant : Wanderley M. (thèse)
Collaborations internes : Serafin S., Equipe Acoustique des Salles, Compositeur en Recherche
Collaborations externes : Desain P., Depalle P.

Application Musicale de dispositifs de contrôle gestuel

Des dispositifs de contrôle gestuel ont été étudiés en 1999 dans le cadre d'une bourse du
fond France-Berkeley en collaboration avec
le Cnmat de l'Université de Berkeley. Des dispositifs de contrôle, comme une tablette Wacom,
ont été connectés à des
algorithmes de synthèse temps-réel sur station SGI ou sur Macintosh.
Cela a permis d'explorer l'importance du
geste au cours de l'exécution musicale en situation déterminée, et l'adéquation de divers types de gestes à divers types
de contrôle. Ce travail sera poursuivi pendant l'annér 2000, en mettant l'accent sur
l'utilisation musicale de ces dispositifs de contrôle gestuel ou d'autres comme le Marimba Lumina.
Ce travail sera mené par un compositeur et en collaboration avec le travail de thèse de M. Wanderley sur
le geste musical.

Responsable : Rodet X.
Participant : Compositeur en Recherche
Collaborations internes : Wanderley M., Serafin S.
 

3.2 Activités de développement

Dans la stratégie de l'Ircam et de l'équipe, deux plateformes sont privilégiées. D'une part, la plateforme Linux en continuité des divers Unix utilisés dans le passé à l'Ircam. D'autre part la plateforme Macintosh, qui semble d'ailleurs se rapprocher en partie du monde Unix avec le nouvel OS-10. Le développement sera donc poursuivi sur ces deux plateformes en mettant l'accent sur la convergence des versions des logiciels  en une seule version, compatible Linux et
Macintosh, à l'exclusion cependant, de celles des parties interactives et graphiques qui nécessitent une grande vitesse d'exécution et un aspect spécifique à Mac-OS.  En effet, pour celles-ci, il ne semble pas exister de solution convenant aujourd'hui au contexte  de ces logiciels et de l'Ircam. Par contre, certaines parties interactives et graphiques moins exigentes pourront être développées en Java de façon à êtres indépendantes de la plateforme. Un autre aspect très important des développements logiciels de l'équipe est lié à celui du standard SDIF (Sound Description Interchange Format), lui aussi développé par l'équipe (voir ci-dessous), qui permet une grande facilité d'écriture de codes très génériques et une communication aisée entre tous les logiciels.
 

3.2.1 Développement du standard SDIF et de ses applications

Ce standard de format de fichier, plateforme indépendant, extensible et en accès libre, spécifie très précisemment les types de données de description des signaux audio et leur représentation. Il permet donc à des logiciels différents de communiquer immédiatement dès lors que leurs entrées/sorties sont conformes au standard. Il facilite également la maintenance des fichiers de données grâce aux informations annexes encapsulées dans le fichier, et en permettant à des données hétérogènes de co-exister dans une seul fichier  Par ailleurs, une bibliothèque de lecture/écriture et son API (Application Programmer Interface), ainsi que des applications, sont en cours de développement. Durant l'année 2000, un effort particulier sera mené pour complèter autant que possible le standard, la bibliothèque et son API. D'autres applications seront développées pour faciliter l'accès aux fichiers SDIF, par exemple une application de visualisation graphique des données des fichier SDIF dans la continuité de l'application Sview développée dans l'équipe par P. Chose. Enfin un lecteur et un écrivain SDIF généraux seront développés sous forme d'un bibliothèque partagée. Ils pourront donc être liés aux divers logiciels de l'Ircam (notamment Additive, Diphone-Studio, AudioSculpt, Xspect, Open-Music, jMax, Modalys) et permettre ainsi une communication facile entre eux.

Responsable : Rodet X.
Participant : Développeur
Collaborations internes : Schwarz D., ensemble des développeurs de l'Institut
Collaborations externes : Université de Berkeley-CNMAT

3.2.2 Développement sur Macintosh

Pour optimiser au mieux le travail de développement sur Macintosh, une nouvelle stratégie  a été mise en place en 1999. Les développements des logiciels AudioSculpt et Diphone-Studio ont commencé d'être traités ensembles, de façon à bénéficier d'une synergie plus efficace et de composants logiciels communs à ces applications. Cette stratégie très profitable sera accentuée pendant l'année 2000.

Logiciel AudioSculpt

Une toute nouvelle version de ce logiciel a été mise en chantier en 1999. La réflexion de fond sur la nouvelle version d'AudioSculpt, effectuée en 1999, sera poursuivie. Le cahier des charges élaboré en collaboration avec les musiciens, les
équipes de Production et de Pédagogie ainsi que les nombreux utilisateurs, sera complèté et son implémentation continuée. L'écriture du logiciel sera poursuivie en suivant les spécifications précises élaborées en 1999 et en collaboration avec le développement de Diphone. En particulier, sera repensée l'articulation d'AudioSculpt avec la bibliothèque SVP. La refonte de cette bibliothèque  sera examinée en  collaboration avec P. Depalle, ainsi que le passage en SDIF de ses entrées/sorties.

Responsable : Rodet X.
Participant : Développeur, puis Ricci A.
Collaborations internes : Lefèvre A., équipes Production et Pédagogie
 

Logiciels Diphone-Studio

Diphone-Studio est un package qui regroupe des logiciels d'analyse (AddAn et ResAn), de contrôle (Diphone proprement dit) et de synthèse (plugins de Diphone Additive, Chant et Direct-Signal). En 2000, le développement de Diphone-Studio sera poursuivi en collaboration avec le développement d'AudioSculpt.
L'algorithme d'analyse dit HMM (Hidden Markov Models ou Modèles de Markov Cachés) dont la mise au point a été faite en 1999 sera porté sur Macintosh et intégré à AddAn de façon à proposer à l'utilisateur un éventail élargi de possibilités. Une librairie d'importation SDIF, "Sdifone", connectée au lecteur/écrivain général SDIF et intégrable dans les plug-in sera développée. Ell permettra la généralisation immédiate de Diphone pour tout type de paramètre défini par l'utilisateur. Ce module, qui fera parties des plug-in, sera aussi un composant réutilisable dans d'autres logiciels comme AudioSculpt. Une nouvelle classe  interne, DhAction, sera développée. Elle permettra une description textuelle des actions accèdant au noyau de calcul de Diphone. De même, les actions concernant l'interface graphique auront leur representation dans cette classe. Cela permetra également  d'empiler l'ensemble des actions effectuées par l'utilisateur et, chaque objet DhAction contenant l'action et son inverse implantera un Undo généralisé. Enfin cela permettra à l'application Diphone d'être entièrement scriptable, donc d'accepter des  représentations de séquences sous forme de texte générées par d'autres applications comme Open-Music, ou encore au noyau de calcul de tourner sur un autre processeur, Linux en particulier. Enfin, pour ce qui est du noyau de calcul de Diphone, le principal développement permettra la construction et l'utilisation de plusieurs séquences parallèles, ce qui autorisera la description de la partition sur plusieurs lignes de segments, la polyphponie et la synthèse avec plusieurs méthodes différentes simultanément.

Responsable : Rodet X.
Participant : Lefevre A. (chargé de développement)
Collaborations internes : Développeur AudioSculpt, Schwarz D., équipes Production et Pédagogie

3.2.3 Portages et développements sur Linux

Les portages et développements sur Linux concernent divers outils d'analyse et de visualisation, avec toujours l'objectif d'optimiser le coût d'écriture logicielle grâce à un travail mieux partagé, des composants logiciels réutilisables et une documentation en ligne et adaptée. Ces développements seront effectués pour partie par des stagiaires.

Outils d'analyse et de synthèse

La refonte du logiciel Additive, commencée en 1999 sera continuée avec l'utilisation générale des bibliothèques SDIF, Pm et SpecEnv.  De nouveaux modules seront intégrés, comme le calcul de trajets par HMM (Hidden Markov Models) pour étendre l'analyse aux sons inharmoniques, les Enveloppes Spectrales et la synthèse du bruit. Un autre type de d'analyse/synthèse, la méthode PSOLA, sera développé en direction des utilisateurs car les recherches menées récemment par G. Peeters on montré tout l'intérèt de cette methode, en particulier pour la synthèse de la voix.

Responsable : Rodet X.
Participant : Chargé de développement, stagiaire.
Collaborations internes : Schwarz D.
 

Outils de visualisation et d'analyse de signaux

Le logiciel de visualisation et d'analyse de signaux Xspect est un outil quotidien essentiel aux travaux de l'équipe. Son
développement, qui n'a pas pu être assuré en 1999,  sera donc continué avec un stagiaire informaticien. En particulier il sera nécessaire d'améliorer et d'accélérer le calcul et le tracé des Sonagrammes et d'implanter la lecture et le tracé des Pics Spectraux et Trajets de Partiels en réutilisant le code du logiciel Sview développé dans l'équipe par P. Chose en 1999. De façon générale, le lien avec la bibliothèque SDIF sera établi, en utilisant le lecteur/écrivain général SDIF pour permettre la lecture et le tracé de tous types de données, en collaboration avec le développement Macintosh puisque ce sera le cas également dans Diphone et AudioSculpt.

Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : Chargé de développement, Schwarz D. et Lefèvre A.
 

Liste des participants

Personnel sous contrat de travail

    Responsable: Xavier Rodet
    Chargé de recherche et de développement
    Chargé de développement : Adrien Lefèvre
    Chargé de développement pour AudioSculpt
    Chargé de développement  sur contrats externes
    Chargé de recherche sur contrat

Stagiaires et étudiants

        Geoffroy Peeters, Thèse, DEA ATIAM, Université Paris-6
        Marcello Wanderley, Thèse, DEA ATIAM, Université Paris-6
        Diemo Schwarz, Thèse, DEA ATIAM, Université Paris-6
        Francis Corson, Thèse, DEA ATIAM, ENS-ULM
        Thomas Hélie, Thèse DEA ATS, Paris XI-Orsay
        Marti Duch, stage, École d'Ingénieur La Salle, Barcelone
        Stagiaire formants
        Stagiaire violon
        Stagiaire additive et transitoires
        Stagiaire Xspect