3. Analyse et synthèse des sons
L'équipe Analyse et synthèse des sons cherche, simultanément,
à répondre aux besoins et aux demandes des musiciens et compositeurs
de l'Ircam et de la création musicale contemporaine, et à
ouvrir de nouvelles voies conceptuelles ou applicatives pour offrir des
possibilités innovantes dans ce domaine. C'est de cette double circulation
de demandes et de d'explorations que se nourrit la recherche et le développement
que mène l'équipe, non pas de front, mais bien plutôt
en continuité entre invention et mise en oeuvre. De façon
parallèle, les modalités scientifiques et musicales concourrent
à l'évolution des moyens théoriques et des idées
de la pratique concrète. Dans le contexte de l'Ircam, l'un des aspects
les plus marquants est l'accent mis sur l'interopérabilité
des logiciels issus des différentes équipes du département
scientifique. Le travail, sur des années, de recherche puis d'implémentation
du standard SDIF (Sound Description Interchange Format) en est l'un des
meilleurs exemples, la bibliothèque de liaison entre Open-Music
et AudioScult en est un autre. La maturité des logiciels d'analyse,
utilisables désormais directement par les musiciens, est également
une évolution marquante, tout comme l'implémentation 'temps
réel' de méthodes de synthèse puissantes (Sinusoidale
Additive+Résiduel, Enveloppes Spectrales, PSOLA, etc...) dans l'environment
jMAx de l'Ircam. Elle ouvre, en conséquence, la possibilité
d'étendre la palette des techniques d'analyse en fonction des besoins,
des applications et même des sons, et bien sûr enrichit les
méthodes de contrôle et de synthèse. Enfin, l'une des
directions les plus innovantes est celle des recherches en inversion des
modèles physiques d'instrument afin de pallier à la difficulté
du jeu instrumental, difficulté inhérente au modèle
physique aussi bon soit-il. Le contrôle gestuel bien sûr
est l'autre versant de l'utilisation musicale de modèles de plus
en plus puissants, souples et fonctionnant malgré tout en temps-réel.
Ces évolutions marquantes guident les nouvelles directions prises
par les recherches en modèles de signaux et modèles de physiques
et en développement, présentées ci-dessous.
3.1 Activités de recherche
3.1.1 Modèles de signaux
Synthèse/Codage sonore à partir de descripteurs de haut niveau et perceptuels
Les descripteurs sont des attributs de niveau élevé tels
que ceux utilisés dans certaines méthodes de synthèse,
ou définis
en psycho-acoustique, ou provenant des modèles de production
(dits modèles physiques). Une première approche
pour la définition de l'ensemble des descripteurs proviendra
de l'étude des méthodes actuelles de synthèse, en
particulier la méthode FOF (Formes d'Onde Formantiques), la
méthode sinusoidale additive+résiduel et le modèle
source-filtre en général. Il s'en dégage déja
l'importance des enveloppes spectrales, des caractères harmonique/inharmonique
et sinusoidal/bruité et les formes de modulations (d'amplitude,
de fréquence et de phase) de ces caractères. D'autres facteurs
importants seront dégagés au fur et à mesure des besoins
rencontrés. Une
deuxième approche pour la définition de l'ensemble des
descripteurs est issue des modèles physiques d'instruments. En
effet, il existe des modèles physiques simplifiés des
différentes classes d'instruments (par exemple, clarinette,
trompette, violon, flûte, etc.). Autrement dit, les sons produits
par ces systèmes dynamiques simples sont entendus
comme ayant le timbre caractéristique des classes d'instruments
correspondants. On peut espérer en déduire une
relations entre ces timbres caractéristiques et les propriétés
des signaux produits. D'autres facteurs importants
pourront provenir des propriété de résonnance
et des modes d'excitation des instruments et corps sonores (frappé,
frotté, soufflé, etc.). Une troisième approche
pour la définitin de l'ensemble des descripteurs proviendra d'études
psycho-acoustiques. L'équipe Perception et Cognition Musicales
de l'Ircam a étudié la façon dont les auditeurs
organisent mentalement des relations perceptives entre timbres (un
«espace de timbres», sorte de carte où les
distances sont petites entre les objets sonores semblables et plus
grandes entre les objets dissemblables). L'examen des
paramètres acoustico-auditifs sous-jacents aux dimensions de
cet espace et aux traits spécifiques, fournira donc des
directions essentielles pour le choix des descripteurs. Parmi des facteurs
trouvé comme importants, on peut citer la
hauteur, la brillance, l'évolution dynamique, le grain, le bruit,
etc.... Il faut enfin souligner que l'ensemble des
descripteurs ne sera pas une simple liste mais plutôt un graphe
valué, structuré de façon à rendre compte de
l'importance respective des descripteurs. La question de leur dépendance/indépendance
devra être étudiée
soigneusement, car, s'il semble souhaitable qu'il soient aussi indépendants
que possible, il n'est pas évident que ce soit
toujours possible. Il semble souhaitable d'offrir une description "à
précision ajustable" des sons, depuis une description
schématique (rapide et de faible quantité d'information)
jusqu'à une description "transparente". Cette précision
ajustable est déjà utilisée à l'Ircam dans
plusieurs logiciels. Par exemple, l'analyse Harmonique+Résiduel
permet, a
volonté de passer, pour de la parole, de débits de 2.4Kbps
jusqu'à, à haut débit, une qualité transparente.
Un autre
exemple apparait dans le logiciel Diphone ou une écoute temps-réel
de qualité réduite est possible même sur des
machines lentes: la synthèse additive permet en effet de réduire
à volonté le nombre de partiels synthétisés
tout en
gardant une bonne idée du son et de son organisation. Ces questions
sont déjà largement abordées dans le projet
européen CUIDAD dirigé par l'IRCAM en collaboration avec
plusieurs institutions européenes et dans ses travaux
de propositions pour standard international MPEG-7, ainsi que dans
le standard SDIF (Cf. paragraphe 3.3) en cours d'établissement par
l'Ircam et le CNMAT (Center for New Music and Audio Technologies) de
Berkeley en collaboration avec de nombreuses institutions internationales.
Un ensemble aussi exhaustif que possible
de sons de test devra être constitué en une base de donnée
appelée à s'enrichir constamment de sons fournis par
d'autres équipes de l'Ircam et de la communauté en général.
L'Ircam, en particulier, a construit une grande base de
données de sons instrumentaux accessibles en ligne et qui fournira
une excellente base de départ pour ces tests. Le
Audio Test Set pour le Core Experiment de MPEG-7 est
aussi un ensemble de sons qui permettra de tester les
descripteurs. Bien d'autres bases de données ou CD d'exemples
sonores divers existent (animaux, bruitages,
ambiances, etc...). La recherche des descripteurs pourra se faire de
façon progressive, en partant d'un ensemble de
descripteurs connus aujourd'hui par l'expérience de la synthèse
sonore et par les connaissances psycho-acoustique.
Cet ensemble serait alors enrichi et modifié peu à peu
en fonction des besoins et des difficultés rencontrées dans
les
essais de codage de la base de donnée de sons de test.
Responsable : Rodet X.
Participant : Chercheur sur contrat
Collaborations internes : Schwarz D.
Collaborations externes : Rault J.B. (Centre d'Etude des Télécommunications)
Synthèse par sélection d'unités sonores et transformation
Ce travail regroupe des recherches dans les directions suivantes: estimation,
classification et structuration de
paramètres, utilisation d'une base de donnés hétérogènes
de sons et de caractéristiques, recherche sur la
conception et l'architecture logicielles fondées sur des composants
réutilisables. En effet, il s'avère qu'une nouvelle
technologie pour la partie synthèse des systèmes de synthèse
à partir du texte appelée "sélection
d'unités" peut être, aussi bien, appliquée
à la composition en musique et à la synthèse sonore
de haute qualité. En
utilisant une base de données hétérogènes
de bruits, de notes isolées ou de phrases musicales, et des caractéristiques
classées et segmentées selon des paramètres estimés
à partir du signal sonore, le meilleure candidat pour un segment
de la sortie sonore est trouvé par des méthodes efficaces
d'extraction de données et un algorithme de sélection
d'unités. Le segment sonore choisi dans la base de données
est transformé pour correspondre aux paramètres de
synthèse désirés, par des techniques temporelles
ou fréquentielles de resynthèse telles que PSOLA (Cf. paragraphe
Analyse-Synthèse PSOLA), la resynthèse additive, le phase
vocoder, et le filtrage. Le segment sonore ainsi transformé est
enchaîné avec les segments trouvés pour les autres
parties de la sortie désirée, en appliquant par exemple des
techniques d'interpolation (crossfade) pour éviter les discontinuités,
ou des transformations de niveau plus élevé. L'analyse de
la base de données (segmentation et classification automatiques),
et l'extraction de paramètres sont faites au moyen de méthodes
de traitement du signal avançées et d'intelligence artificielle
telles que les réseaux neuronaux, les modèles de markov cachés,
et les algorithmes génétiques. Pour une applicabilité
facile au marché multimédia rapidement croissant, des interfaces
et les formats d'échange ouverts, normalisés, seront développés
et utilisés. La clé du développement réussi
d'un système logiciel complexe comme celui proposé, repose
sur les principes de l'ingénierie logicielle. L'architecture logicielle
sera établie selon une conception orientée-objet et des composants
réutilisables pour favoriser la flexibilité, l'expansibilité,
et la maintenance.
Responsable : Rodet X.
Participant : Schwarz D. (thèse)
Collaboration interne : Peeters G., Corson F.
Analyse-Synthèse PSOLA (Pitch Synchronous Overlapp Add) et Additive
La thèse de G. Peeters sur l'Analyse-Synthese PSOLA et Additive doit se terminer dans l'année 2000. L'année passée a permis de tester les bases d'une méthode d'analyse-synthèse de type PSOLA et une extension incluant l'analyse-synthèse de type sinusoidal additif, l'ensemble étant nommé SINOLA. L'année prochaine sera donc consacrée au développement, à la validation et aux tests de ces méthodes. De plus ces méthodes pourront être implantées en temps-réel sur la station de travail jMax de l'Ircam et sous Unix, de façon à être utilisées par les assistants musicaux et les compositeurs de l'Institut ou même de l'extérieur. Du point de vue de l'analyse additive, une des avancées les plus intéressante est une meilleure estimation des paramètres. D'une part, grâce à une suppression des biais de l'analyse classique stationaire, d'autre part grâce à une estimation de pente locale des paramètres. Cette nouvelle méthode d'estimation sera donc confrontée aux méthodes classiques afin de mesurer le gain qu'elle apporte. L'utilisation des paramètres de pente dans l'étape de construction de trajets sinusoidaux sera aussi envisagée, soit par une méthode heuristique fondée sur un critère de régularité des trajets en terme de courbure, soit par par la méthode HMM (Modèles de Markov Cachés). Du point de vue de l'analyse PSOLA, seront étudiés de façon approfondie, le découpage en marqueurs de période fondamentale et le découpage en marqueurs de caratère sinusoidal/non-sinusoidal. Le dernier point nécessaire à la méthode SINOLA, c'est-à-dire le détection et la modélisation des transitoires, sera mis au point pour être disponible également dans tout autre méthode d'analyse. Pour permettre une communication facile des données d'analyse entre différents logiciels, toutes les entrées et sorties seront implantées dans le format SDIF en cours de développement dans l'équipe. Enfin une partie importante de l'année sera consacrée à la rédaction du document de thèse et à la documentation des méthodes et des logiciels issus de cette recherche qui trouveront des applications musicales manifestement très intéressantes.
Responsable : Rodet X.
Participant : Peeters G. (thèse), stagiaire de DEA
Collaboration interne : Corson F.
Séparation et reconstruction de signaux audio: modélisation
à résolution multiple, modèles statistiques de
regroupement et utilisation de connaissances hétérogènes.
Le terme "Analyse de Scènes Auditives" est souvent utilisé
pour désigner, notamment, la capacité de discerner,
séparer et décrire des événement acoustiques
variés et concomitants. Dans ce cadre, la "Séparation de
Flux Sonores"
consiste à distinguer certains groupes d'événements
acoustiques et à les grouper en flux sonores. La simulation par
ordinateur de cette capacité a été abordée
sous des angles variés, par divers chercheurs. C'est un problème
extrêmement difficile s'il n'est pas limité et contraint,
et qui est loin d'être résolu. Suivant un axe différent,
on entend
par "Séparation de Sources", la restitution ou restauration
de N signaux inobservables appelés sources, à partir de M
observations de leur mélange, mélange lui-même
supposé inconnu. Elémentaire à l'origine (inversion
d'un modèle de
mélange linéaire instantané), la Séparation
de Sources s'est considérablement enrichie ces dernières
années. Dans de
nombreux cas, pour des signaux audio, on ne dispose que d'une (M=1)
ou deux (enregistrement stéréo M=2)
observations. Les méthodes usuelles en Séparation de
Sources ne sont donc utilisables que dans une mesure très
réduite.
La "Séparation et Reconstruction de
Signaux Audio" est etudiée ici sous l'angle du Traitement du Signal
et avec
l'objectif de pouvoir séparer et reconstruire des signaux audio
mixés. La plupart des travaux en Analyse de Scènes
Auditives utilisent une première étape de décomposition
du signal en, d'une part, une somme de sinusoïdes (nommées
partiels) à fréquence et amplitude variant dans le temps
et, d'autre part, un signal aléatoire (dit résiduel) de densité
spectrale variant dans le temps. La deuxième étape consiste
en la classification des diverses composantes en groupes
censés correspondre aux événements acoustiques
(nommés simplement sons) composant la scène auditive.
Les
difficultés que soulèvent ces deux étapes sont
nombreuses et considérables. Cependant, des travaux comme ceux de
Pearson, Ellis, Rossi montrent que des résultats plus ou moins
satisfaisants peuvent être obtenus dans un contexte
limité ou contraint et avec des approches rigoureuses et complètes
en traitement du signal et théorie de l'information,
enfin en incluant aussi l'ensemble des connaissances disponibles dans
un contexte donné et pas seulement les données
directement calculables par traitement du signal. Ce travail viendra
en continuité du travail de stage de DEA
ATIAM de F. Corson.
Responsable : Rodet X.
Participant : Corson F. (thèse)
Collaboration interne : Peeters G.
Analyse en Formants
La longue expérience de l'Ircam avec les modèles de synthèse montre que la disponibilité du couple analyse et synthèse est gage de succès de la méthode, en particulier auprès des musiciens. Pour la synthèse en formants, filtres ou FOFs (Formes d'Onde Formantiques), l'analyse en modèles de résonnance (ModRes et ResAn) mise au point en 1999 dans l'équipe rencontre beaucoup de succès mais ne s'applique qu'aux sons de type percussif ou réponse impulsionnelle. Le besoin se fait donc sentir d'une méthode d'analyse en formants pour les sons entretenus. C'est un élément indispensable pour les logiciels Chant et Diphone. L'analyse en formants est un problème difficile qui a été étudié par de nombreux chercheurs pour la parole et par l'équipe Analyse-Synthèse dans le cas général. Des solutions partielles ont été écrites mais de nombreux problèmes subsistent qui devront être résolus de façon à fournir un outil qui, même s'il n'est pas parfait, sera utile dans de nombreux contextes. Un nouvel algorithme d'analyse en formants des sons continus (par opposition aux sons de type percussifs) sera mis au point, et sera intégré à Diphone-Studio. Cette application, qui tournera sur Unix et Mac-OS, sera aussi un composant réutilisable dans d'autres logiciels comme AudioSculpt.
Responsable : Rodet X.
Participant : Stagiaire
Collaboration interne : Schwarz D., Lefèvre A.,
3.1.2 Modèles physiques
Méthodes d'inversion de systèmes dynamiques,
modèles de la production de la voix et d'instruments de musique
Le but de cette thèse ATS (Troisième cycle Automatique
et Traitement du Signal, Université Paris-11 Orsay) est de
mettre au point des outils d'estimation automatique des paramètres
et/ou des entrées de systèmes dynamiques
non-linéaires représentant l'appareil phonatoire
et des instruments de musique. L'intérêt est de construire
des
méthodes d'analyse de modèles physiques, modèles
qui ont l'avantage d'engendrer directement les caractéristiques
sonores de l'instrument, et leurs variations (telles que les
attaques et transitoires).
Durant cette première année de thèse,
la modélisation physique de l'appareil phonatoire et de plusieurs
instruments sera étudiée, dans le but de mieux comprendre
les types de problèmes posés par l'inversion, et de dégager
éventuellement une structure commune dans laquelle celle-ci
peut être envisagée.
Au cours du stage de T. Hélie (Diplôme
d'Etudes Approndies ATS) en 1998, des méthodes d'inversion d'un
modèle
physique de trompette ont été testées. Ces
méthodes reposaient sur l'inversion du système d'équations
décrivant le
modèle. De telles méthodes sont extrêmement prometteuses
mais difficiles à mettre en oeuvre, tant pour des raisons
théoriques que pour des problèmes de stabilité,
de précision numérique et de résistance au bruit.
Pour toutes ces raisons, plusieurs approches, qui
seront l'objet de collaborations, seront abordées, en particulier,
approche orientée traitement du signal et statistique ou
approche automatique et commande optimale. Ces méthodes
seront élaborées de façon graduelle en commençant
par des contextes simples, par exemple avec une dimension 1 de
l'espace des grandeurs inconnues, puis en passant progressivement
à des contextes de plus en plus généraux.
Responsable : Rodet X.
Participant : Hélie T. (thèse)
Collaboration interne : Vergez C.
Collaborations externes: ENST (Ecole Nationale de Télécommunications),
INRIA (Institut National de Recherche
en Informatique et Automatique), Ecole des Mines de Paris.
Oscillateur non-linéaire modèle du violon
L'année 1999 verra la continuation de la thèse de S. Serafin
sur un modèle non-linéaire de Violon et son contrôle
gestuel. Cette thèse sera poursuivie à l'université
de Stanford et fera l'objet d'une collaboration entre les deux instituts.
En particulier, sera étudiée l'estimation plus précise
des paramètres connexes à la partie linéaire du modèle
(filtres des pertes au niveau du chevalet et du sillet) et la partie non-linéaire
(interaction entre la corde et l'archet). Dans ce domaine, un nouveau modèle
de friction, déjà abordé en 1999, sera perfectionné
et évalué. Il est fondé notamment sur une modélisation
de la friction proposée par P.R. Dahl. En particulier le modèle
de violon sera examiné en terme de sa jouabilité, qui peut
être définie comme la région d'un espace multidimensionnel
constitué des paramètres du modèle où la forme
d'onde caractéristique du violon est obtenue.
Sera analysée l'influence, sur la jouabilité du modèle,
des ondes de torsion et de la forme de la courbe de friction, qui représente
l'interaction entre la corde et l'archet. Ces informations sont utiles
pour savoir quels éléments du modèle sont essentiels
et lesquels peuvent être négligés, afin de réduire
le coût de calcul dans le cadre d'une implémentation temps
réel. De plus, le violon présente un cas particulièrement
intéressant de problème de contrôle : seront étudiées
et implémentées, pour simuler l'archet, différentes
façons de contrôler le modèle, en utilisant des capteurs
comme la tablette Wacom et la souris Jerry, en collaboration avec M. Wanderley
qui travaille sur le geste musical. Le modèle, actuellement implanté
sous MSP sera porté sur jMax et les simulations seront effectuées
avec jMax ce qui étendra largement l'utilisation et le contrôle.
Responsable : Rodet X.
Participant : Stagiaire, Serafin S. (thèse)
Collaborations internes : Vergez C., Wanderley M., équipe Acoustique.
Collaborations externes : Smith J. (CCRMA)
Etude d'un Modèle Physique englobant les modèles particuliers des différentes classses d'instruments
La synthèse musicale dite par modèles physiques utilise
des modèles mathématiques et informatiques des instruments
acoustiques. L'un des buts poursuivis est que, lorsqu'ils sont joués
comme des instruments classiques, ces modèles aient
le même comportement que les instruments. Mais pour la création
musicale, les modèles ne peuvent être limités à
imiter les instruments traditionnels. Certains compositeurs, par exemple,
veulent transformer graduellement un
instrument en un autre. Il faut donc pouvoir comprendre et garantir
le comportement des modèles en toutes
circonstances. Certaines classes de systèmes dynamiques non
linéaires qui représentent
les traits essentiels de familles d'instruments ont déjà
été étudiées. Il s'agit donc d'examiner des
classes de systèmes, notamment les systèmes à
boucle(s) de rétroaction linéaire avec retard et non-linéarité(s)
qui
modélisent de nombreux instruments entretenus. Seront examinés
avant tout les principes de base du
fonctionnement des diverses classes. Pour la classe clarinette, la
non-linéarité est considérée comme
sans mémoire. Pour la classe trompette ou voix ce n'est plus
le cas, on peut
considérer comme modèle de base le couplage non-linéaire
d'un oscillateur harmonique avec une boucle de
rétroaction. Pour le type flûte, il apparaît deux
boucle de rétroaction. Le
type hautbois et le type violon (Stefania Serafin fait sa thèse
dans l'équipe Analyse-Synthèse sur un modèle de violon
et son contrôle), pour lesquels le modèle est encore différent,
doivent être également abordés. Il faudra étudier
la stabilité et les bifurcations vers les
solutions périodiques et chaotiques. L'étude portera
alors sur l'influence sur leur stabilité des éléments
du système
bouclé. En particulier, il faudra essaier de vérifier
l'hypothèse que le caractère passe-bas de la boucle linéaire
réduit le
nombre de solutions stables, en essayant d'obtenir, si possible, l'unicité.
De façon surprenante, les solutions chaotiques
se révèlent très intéressantes d'un point
de vue musical. On tentera de contrôler le passage à ces solutions
et de
permettre une influence graduelle du caractère chaotique Une
autre hypothèse à vérifier est l'influence de la phase
de
la fonction de transfert de cet élément linéaire.
Il semble en effet que, du point de vue pratique, des solutions
équivalentes à la quasi-périodicité puissent
être obtenues. De toute façon les rôles de cette phase
et des symétries du
système devront être déterminés. Ensuite,
il sera nécessaire comprendre l'interaction des deux éléments
couplés (cas d'un oscillateur harmonique avec une boucle de rétroaction
et cas de deux boucles de rétroaction) qui semble jouer un rôle
essentiel dans plusieurs types de modèles. Les résultats
concernent donc l'acoustique musicale, la synthèse musicale
pour les centres de recherche comme pour des applications commerciales
dans les synthétiseurs à venir afin
d'améliorer leurs qualités sonores, leurs possibilités
et leur facilité de contrôle. En particulier, le calcul numérique
en
temps réel de la solution de telles équations permet
d'observer leurs propriétés tout en faisant varier les paramètres
de
l'équation. Par l'intuition qui en résulte, on obtient
ainsi un outil d'exploration mathématique tout a fait
remarquable. De telles expérimentations et implémentation
du calcul de solutions sur
ordinateur dans le système temps-réel jMaxl'IRCAM ont
déjà commencé. Des développements théoriques
très
intéressants en plus des applications pratiques mises en place
éventuellement avec les musiciens sont attendus.
Responsable : Rodet X.
Participant : Duch M. (stage)
Collaborations internes : Vergez C., Serafin S., équipe Systèmes
temps-réel et équipe Acoustique.
Oscillateur non-linéaire modèle de hautbois
Plusieurs modèles physiques d'instruments de musique ont été développés avec succès dans l'équipe. Notamment un modèle simplifié de clarinette, un modèle de trompette qui est actuellement sans aucun doute le meilleur au monde, et un modèle de violon déjà extrêmement intéressant. Pour une utilisation musicale en création contemporaine, il est nécessaire d'offrir non seulement des modèles largement plus puissants que l'instrument classique correspondant, mais encore de permettre une forme d'hybridation continue entre les classes d'instruments, donc au préalable plus de classes différentes. Le type flûte ayant déjà été étudié à l'Ircam, y compris dans une implantation sous forme d'équation non-linéaire avec retard dans l'équipe, la principale classe non encore étudiée de ce point de vue est la classe hautbois (anche double et tuyau conique). Ce travail sera fondé sur les travaux de divers chercheurs, que ce soit a l'Ircam ou dans d'autres instituts comme l'Université du Mans. Le modèle comprendra, suivant le principe maintenant bien établi dans l'équipe, une non linéarité sans mémoire de dimension la plus faible possible et une partie linéaire avec retard correspondant au corps de l'instrument. Enfin ce modèle sera implanté en version temps-réel sur jMAx dans la continuité des modèles physiques de base et de trompette qui fonctionnent déjà temps-réel dans ce système.
Responsable : Rodet X.
Participant : Stagiaire de DEA
Collaborations internes : Caussé R. (Equipe Acoustique Instrumentale),
Vergez C.
3.1.3 Contrôle gestuel
Etude du geste musical
Pendant l'année 2000, la thèse de M. Wanderley devra s'achever
avec
la complétion des études sur les gestes d'un clarinettiste
et leur influence dans
le son enregistré. Cela se fera dans une collaboration avec
l'Université
de Nijmegen, Hollande (Dr. Peter Desain). Ce sera en particulier,
l'occasion
d'enregistrer les mouvements de quelques clarinettistes pour en déduire
des gestes de base possibles et leur modélisation.
L'idée de cette étude est de vérifier l'influence
de divers paramètres
musicaux dans les mouvements de l'instrumentiste et la variabilité
de ces paramètres
entre différents instrumentistes. Il est aussi prévu
de réaliser des tests d'écoute pour vérifier
quel est la perception de ces effets dans différentes circonstances.
L'autre axe de travail sera la mise en place définitive
des modèles déjà
developpés en FTS dans l'environement jMAX. Cette partie des
travaux
correspond à une applications des recherches developpées
pendant les trois
premières années de thèse sur la modélisation
des gestes et le contrôle
gestuel de la synthèse sonore.
Enfin, une partie importante de l'année sera
consacrée à la rédaction du document de thèse,
la soutenance de thèse étant prévue pour la fin 2000.
Responsables : Rodet X.
Participant : Wanderley M. (thèse)
Collaborations internes : Serafin S., Equipe Acoustique des Salles,
Compositeur en Recherche
Collaborations externes : Desain P., Depalle P.
Application Musicale de dispositifs de contrôle gestuel
Des dispositifs de contrôle gestuel ont été étudiés
en 1999 dans le cadre d'une bourse du
fond France-Berkeley en collaboration avec
le Cnmat de l'Université de Berkeley. Des dispositifs de contrôle,
comme une tablette Wacom,
ont été connectés à des
algorithmes de synthèse temps-réel sur station SGI ou
sur Macintosh.
Cela a permis d'explorer l'importance du
geste au cours de l'exécution musicale en situation déterminée,
et l'adéquation de divers types de gestes à divers types
de contrôle. Ce travail sera poursuivi pendant l'annér
2000, en mettant l'accent sur
l'utilisation musicale de ces dispositifs de contrôle gestuel
ou d'autres comme le Marimba Lumina.
Ce travail sera mené par un compositeur et en collaboration
avec le travail de thèse de M. Wanderley sur
le geste musical.
Responsable : Rodet X.
Participant : Compositeur en Recherche
Collaborations internes : Wanderley M., Serafin S.
3.2 Activités de développement
Dans la stratégie de l'Ircam et de l'équipe, deux plateformes
sont privilégiées. D'une part, la plateforme Linux en continuité
des divers Unix utilisés dans le passé à l'Ircam.
D'autre part la plateforme Macintosh, qui semble d'ailleurs se rapprocher
en partie du monde Unix avec le nouvel OS-10. Le développement sera
donc poursuivi sur ces deux plateformes en mettant l'accent sur la convergence
des versions des logiciels en une seule version, compatible Linux
et
Macintosh, à l'exclusion cependant, de celles des parties interactives
et graphiques qui nécessitent une grande vitesse d'exécution
et un aspect spécifique à Mac-OS. En effet, pour celles-ci,
il ne semble pas exister de solution convenant aujourd'hui au contexte
de ces logiciels et de l'Ircam. Par contre, certaines parties interactives
et graphiques moins exigentes pourront être développées
en Java de façon à êtres indépendantes de la
plateforme. Un autre aspect très important des développements
logiciels de l'équipe est lié à celui du standard
SDIF (Sound Description Interchange Format), lui aussi développé
par l'équipe (voir ci-dessous), qui permet une grande facilité
d'écriture de codes très génériques et une
communication aisée entre tous les logiciels.
3.2.1 Développement du standard SDIF et de ses applications
Ce standard de format de fichier, plateforme indépendant, extensible et en accès libre, spécifie très précisemment les types de données de description des signaux audio et leur représentation. Il permet donc à des logiciels différents de communiquer immédiatement dès lors que leurs entrées/sorties sont conformes au standard. Il facilite également la maintenance des fichiers de données grâce aux informations annexes encapsulées dans le fichier, et en permettant à des données hétérogènes de co-exister dans une seul fichier Par ailleurs, une bibliothèque de lecture/écriture et son API (Application Programmer Interface), ainsi que des applications, sont en cours de développement. Durant l'année 2000, un effort particulier sera mené pour complèter autant que possible le standard, la bibliothèque et son API. D'autres applications seront développées pour faciliter l'accès aux fichiers SDIF, par exemple une application de visualisation graphique des données des fichier SDIF dans la continuité de l'application Sview développée dans l'équipe par P. Chose. Enfin un lecteur et un écrivain SDIF généraux seront développés sous forme d'un bibliothèque partagée. Ils pourront donc être liés aux divers logiciels de l'Ircam (notamment Additive, Diphone-Studio, AudioSculpt, Xspect, Open-Music, jMax, Modalys) et permettre ainsi une communication facile entre eux.
Responsable : Rodet X.
Participant : Développeur
Collaborations internes : Schwarz D., ensemble des développeurs
de l'Institut
Collaborations externes : Université de Berkeley-CNMAT
3.2.2 Développement sur Macintosh
Pour optimiser au mieux le travail de développement sur Macintosh, une nouvelle stratégie a été mise en place en 1999. Les développements des logiciels AudioSculpt et Diphone-Studio ont commencé d'être traités ensembles, de façon à bénéficier d'une synergie plus efficace et de composants logiciels communs à ces applications. Cette stratégie très profitable sera accentuée pendant l'année 2000.
Logiciel AudioSculpt
Une toute nouvelle version de ce logiciel a été mise en
chantier en 1999. La réflexion de fond sur la nouvelle version d'AudioSculpt,
effectuée en 1999, sera poursuivie. Le cahier des charges élaboré
en collaboration avec les musiciens, les
équipes de Production et de Pédagogie ainsi que les nombreux
utilisateurs, sera complèté et son implémentation
continuée. L'écriture du logiciel sera poursuivie en suivant
les spécifications précises élaborées en 1999
et en collaboration avec le développement de Diphone. En particulier,
sera repensée l'articulation d'AudioSculpt avec la bibliothèque
SVP. La refonte de cette bibliothèque sera examinée
en collaboration avec P. Depalle, ainsi que le passage en SDIF de
ses entrées/sorties.
Responsable : Rodet X.
Participant : Développeur, puis Ricci A.
Collaborations internes : Lefèvre A., équipes Production
et Pédagogie
Logiciels Diphone-Studio
Diphone-Studio est un package qui regroupe des logiciels d'analyse (AddAn
et ResAn), de contrôle (Diphone proprement dit) et de synthèse
(plugins de Diphone Additive, Chant et Direct-Signal). En 2000, le développement
de Diphone-Studio sera poursuivi en collaboration avec le développement
d'AudioSculpt.
L'algorithme d'analyse dit HMM (Hidden Markov Models ou Modèles
de Markov Cachés) dont la mise au point a été faite
en 1999 sera porté sur Macintosh et intégré à
AddAn de façon à proposer à l'utilisateur un éventail
élargi de possibilités. Une librairie d'importation SDIF,
"Sdifone", connectée au lecteur/écrivain général
SDIF et intégrable dans les plug-in sera développée.
Ell permettra la généralisation immédiate de Diphone
pour tout type de paramètre défini par l'utilisateur. Ce
module, qui fera parties des plug-in, sera aussi un composant réutilisable
dans d'autres logiciels comme AudioSculpt. Une nouvelle classe interne,
DhAction, sera développée. Elle permettra une description
textuelle des actions accèdant au noyau de calcul de Diphone. De
même, les actions concernant l'interface graphique auront leur representation
dans cette classe. Cela permetra également d'empiler l'ensemble
des actions effectuées par l'utilisateur et, chaque objet DhAction
contenant l'action et son inverse implantera un Undo généralisé.
Enfin cela permettra à l'application Diphone d'être entièrement
scriptable, donc d'accepter des représentations de séquences
sous forme de texte générées par d'autres applications
comme Open-Music, ou encore au noyau de calcul de tourner sur un autre
processeur, Linux en particulier. Enfin, pour ce qui est du noyau de calcul
de Diphone, le principal développement permettra la construction
et l'utilisation de plusieurs séquences parallèles, ce qui
autorisera la description de la partition sur plusieurs lignes de segments,
la polyphponie et la synthèse avec plusieurs méthodes différentes
simultanément.
Responsable : Rodet X.
Participant : Lefevre A. (chargé de développement)
Collaborations internes : Développeur AudioSculpt, Schwarz D.,
équipes Production et Pédagogie
3.2.3 Portages et développements sur Linux
Les portages et développements sur Linux concernent divers outils d'analyse et de visualisation, avec toujours l'objectif d'optimiser le coût d'écriture logicielle grâce à un travail mieux partagé, des composants logiciels réutilisables et une documentation en ligne et adaptée. Ces développements seront effectués pour partie par des stagiaires.
Outils d'analyse et de synthèse
La refonte du logiciel Additive, commencée en 1999 sera continuée avec l'utilisation générale des bibliothèques SDIF, Pm et SpecEnv. De nouveaux modules seront intégrés, comme le calcul de trajets par HMM (Hidden Markov Models) pour étendre l'analyse aux sons inharmoniques, les Enveloppes Spectrales et la synthèse du bruit. Un autre type de d'analyse/synthèse, la méthode PSOLA, sera développé en direction des utilisateurs car les recherches menées récemment par G. Peeters on montré tout l'intérèt de cette methode, en particulier pour la synthèse de la voix.
Responsable : Rodet X.
Participant : Chargé de développement, stagiaire.
Collaborations internes : Schwarz D.
Outils de visualisation et d'analyse de signaux
Le logiciel de visualisation et d'analyse de signaux Xspect est un outil
quotidien essentiel aux travaux de l'équipe. Son
développement, qui n'a pas pu être assuré en 1999,
sera donc continué avec un stagiaire informaticien. En particulier
il sera nécessaire d'améliorer et d'accélérer
le calcul et le tracé des Sonagrammes et d'implanter la lecture
et le tracé des Pics Spectraux et Trajets de Partiels en réutilisant
le code du logiciel Sview développé dans l'équipe
par P. Chose en 1999. De façon générale, le lien avec
la bibliothèque SDIF sera établi, en utilisant le lecteur/écrivain
général SDIF pour permettre la lecture et le tracé
de tous types de données, en collaboration avec le développement
Macintosh puisque ce sera le cas également dans Diphone et AudioSculpt.
Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : Chargé de développement, Schwarz
D. et Lefèvre A.
Liste des participants
Personnel sous contrat de travail
Responsable: Xavier Rodet
Chargé de recherche et de développement
Chargé de développement : Adrien
Lefèvre
Chargé de développement pour
AudioSculpt
Chargé de développement sur
contrats externes
Chargé de recherche sur contrat
Stagiaires et étudiants
Geoffroy Peeters, Thèse,
DEA ATIAM, Université Paris-6
Marcello Wanderley, Thèse,
DEA ATIAM, Université Paris-6
Diemo Schwarz, Thèse,
DEA ATIAM, Université Paris-6
Francis Corson, Thèse,
DEA ATIAM, ENS-ULM
Thomas Hélie, Thèse
DEA ATS, Paris XI-Orsay
Marti Duch, stage, École
d'Ingénieur La Salle, Barcelone
Stagiaire formants
Stagiaire violon
Stagiaire additive et transitoires
Stagiaire Xspect