PROJET D'ACTIVITE 1998

Equipe Analyse/Synthèse

I. ACTIVITES RECHERCHE

1. MODELES DE SIGNAUX

Caractérisation des signaux sonores

S. Rossignol continuera son travail de thèse (contrat CNET) sur la Caractérisation des signaux sonores pour les applications Multimedia. Durant l'année 1997, nous avons étudié les paramètres pertinents pour la segmentation des signaux sonores (musique, parole, bruits,....). Pour l'année 1998, dans un premier temps, le principal du travail portera sur la séparation de sources (en se limitant à deux sources). Quand cette partie sera assez avancée, le travail sera poursuivi à Metz, dans le cadre de notre collaboration avec l'école Supélec-Metz. Ceci correspond à la deuxième phase de la thèse. Dans le même temps nous prévoyons la finalisation des outils de segmentation existants (prise de décision classique ou par Réseaux de Neurones, inclusion d'autres fonctions d'observation...). Ceci pourra être l'objet d'un stage sur la segmentation des signaux sonores en utilisant les résultats de S. Rossignol, avec en vue un programme en C/C++ opérationnel. Dans un second temps, à Metz, sera entamée la construction de bases de données à accès hiérarchique par paramètres perceptifs et la définition des outils de gestion et d'accès pour ces bases de données (troisième phase de la thèse). Dans ce cadre une collaboration avec la Faculté polytechnique de Mons (Caroline Traube) est également possible.

Responsables: P. Depalle, X. Rodet
Participant: S. Rossignol
Collaborations externes: Ecole Supélec-Metz, J. Soumagne, Faculté polytechnique de Mons, Caroline Traube

Analyse-Synthèse PSOLA

Le travail de thèse G. Peeters sur l'Analyse-Synthèse PSOLA (Pitch Synchronous Overlap Add) sera continué. Le développement de la méthode FD-PSOLA (Frequency Domain PSOLA), sera poursuivi. On étudiera en particulier l'amélioration de l'interpolation fréquentielle par repositionnement des fenêtres grâce à une analyse de l'évolution des spectres de phase au cours du temps. Ceci conduira à la mise au point d'un modèle de phase et à l'estimation automatique des paramètres de ce modèle sur des signaux de parole et de musique. Les modèles de phases pourront être appliqués également en analyse/synthèse Additive (collaboration avec M. Oudot). Le passage en LP-PSOLA (Linear Prediction PSOLA) permettra de concentrer les pseudo-réponses impulsionnelles sur un support temporel étroit de façon à minimiser la distorsion inhérente au fenêtrage PSOLA. La méthode PSOLA sera appliquée aux sons des instruments de musique. L'étude de cet ensemble de méthodes sera également orientée vers leur lien possible avec l'analyse/synthèse Additive grâce à une répartition fréquentielle de l'information du signal selon un critère de périodicité/non-périodicité.

Responsable: X. Rodet
Participant: G. Peeters
Collaborations internes:M. Oudot

Analyse-Synthèse Additive

Le travail de thèse de M. Oudot (contrat CNET) sera poursuivi à l'Ircam après deux ans passés à l'école Télécom-Paris dans le cadre d'une collaboration fructueuse. M. Oudot a développé de nouvelles méthodes d'analyse/synthèse additive et leur application au codage de la parole à bas débit. La recherche se portera désormais vers la synthèse de la voix de très haute qualité. En particulier, on étudiera les changements d'enveloppe spectrale qui accompagnent les variations de fréquence fondamentale. Ces changements sont partiellement connus pour la voix chantée mais peu étudiés pour la parole. L'étude sera donc intéressante à ce double titre. La transformation de voix de haute-qualité sera également abordée. Il s'agit, à partir d'une voix unique codée dans le modèle Additif, de générer plusieurs voix de timbres et d'articulations distinctes utilisables dans les services de réponse par ordinateur sans avoir à enregistrer et coder toutes ces voix différentes (collaboration avec G. Peeters).

Responsable: X. Rodet
Participant: M. Oudot
Collaborations internes: G. Peeters
Collaborations externes: Télécom-Paris, E. Moulines.

Applications des Statistiques d'Ordres Supérieurs

Les travaux de S. Dubnov sur les applications des Statistiques d'Ordres Supérieurs (HOS) seront continués. En particulier, nous approfondirons nos recherches sur les distributions des phases des partiels sinusoidaux dans les sons musicaux entretenus. On commencera également une recherche sur la classifications des sons au moyen de Modèles de Markov appliqués à l'évolution temporelle du son (collaboration avec le projet SOL). De façon à simplifier la représentation de ces évolutions, on réduira le nombre de spectres du vocabulaire grâce à la technique de Quantification Vectorielle. La classification sera menée d'abord sur les spectres d'amplitude. Dans un deuxième temps d'autres critères, tels que les statistiques d'ordres supérieurs seront ajoutés. En cours d'année, le travail sera poursuivi à Hebrew University dans le cadre de notre collaboration avec l'Institute for Computer Science.

Responsable: X. Rodet
Participant: S. Dubnov
Collaborations internes: Projet SOL
Collaborations externes: Hebrew University

Analyse par Matching Pursuit et Arbres de Décision

L'année 1998 doit voir la fin de la thèse de R. Gribonval (Ecole Polytechnique) sur l'Analyse-Synthèse par Matching Pursuit et la caractérisation des attaques et transitoires. En utilisant les techniques d'analyse temps-fréquence adaptative par Matching Pursuit développées lors des premières années de thèse, on s'intéressera à la classification et à la caractérisation de transitoires de signaux musicaux par des Arbres de Décision. On pourra par exemple essayer de distinguer automatiquement l'attaque d'un violon de celle d'un clarinette. Ces méthodes peuvent s'appliquer à l'analyse-transformation-synthèse, à la classification, à la reconnaissance et donc à la recherche dans les bases de données également.

Responsable: X. Rodet
Participant: R. Gribonval
Collaborations externes: Ecole Polytechnique, S. Mallat, E. Bacry

Fenêtres infinies et Transformée de Fourier à Court Terme

Nous nous proposons d'étudier une méthode permettant d'appliquer des fenêtres d'analyse et de synthèse de taille infinie (donc de haute-résolution fréquentielle et sans lobes secondaires) dans le calcul de la Transformée de Fourier à Court Terme. Dans un premier temps, ce sujet mené par S. Tassart fera l'objet d'une étude théorique et expérimentale visant à définir la portée et les champs d'application possible de la méthode avec en vue la soumission d'un article dans une revue telle que Signal Processing ou IEEE Audio and Speech Processing. Plusieurs applications sont enviseageables suivant les résultats, sonagrams, détection de partiels sinusoidaux, analyse en Formes d'Ondes Formantiques, intégration dans le Super Vocodeur de Phase, etc.. .

Responsables: X. Rodet, S. Tassart

2. MODELES PHYSIQUES

Retards Fractionnaires

Au cours de la rédaction de la thèse de S. Tassart, (Variables d'Etat, Délais fractionnaires et Estimation des paramètres) la théorie des retards fractionnaires sera développée, permettant d'assoir les bases théoriques du problème (propositions de définitions, définitions des systèmes dynamiques linéaires discrets fractionnaires) en tenant compte qu'il doit exister des liens entre la théorie discrète des retards fractionnaires et celle, continue, des dérivées fractionnaires (D. Matignon). La rédaction de la thèse sera également le moment de mettre au propre toutes les implémentations de retard fractionnaire qui ont étées proposées et utilisées pendant le travail de thèse (implémentation des LIF et des passe-tout), ainsi que les nombreuses applications surprenantes qui peuvent en découler (propagation non-linéaire par exemple).

Responsables: X. Rodet, S. Tassart
Participant: S. Tassart
Collaborations internes:Equipe Acoustique Instrumentale, R. Masallam

Estimation de Paramètres

La fin de la thèse de S. Tassart abordera les problèmes d'estimation de paramètres dans quelques cas simples de modèles physiques, en particulier les paramètres d'une fonction non-linéaire sigmoide couplée à un guide d'onde linéaire, siège d'une auto-oscillation. Il s'agit de montrer que, comme dans le cas des modèles de signaux, des méthodes d'analyse-synthèse sont possibles. Elles permettraient d'obtenir de façon optimale les paramètres de jeu de modèles physiques d'instruments à partir d'enregistrement de ces instruments par des musiciens experts, alors que les mesures directes de ces paramètres sont extrêmement difficiles ou même impossibles.

Responsables: X. Rodet, S. Tassart
Participant: S. Tassart
Collaborations internes: C. Vergez, T. Hélie

Portage de Modeles Physiques sur FTS

Pour mettre à la disposition des musiciens, et en version temps réel, divers modèles de synthèse de l'IRCAM, nous proposons d'encadrer un stagiaire afin de porter les principaux modèles physiques non-linéaires de l'IRCAM (trompette de C. Vergez, clarinette simplifiée, flûte de M.-P. Verge, violon,...) dans le cadre unifié du moteur de calcul temps-réel FTS. Cela permettra également un contrôle gestuel de ces modèles (Cf. études du geste de M. Wanderley, et V. Hayward).

Responsable: X. Rodet, S. Tassart
Participant: Stagiaire
Collaborations internes: C. Vergez, M. Wanderley, S. Serafin, V. Hayward et équipe Systèmes temps réel, Equipe Acoustique Instrumentale, M.-P. Verge

Améliorations du modèle physique de trompette

La première direction sera la poursuite des travaux entrepris en 1997 sur le projet ``Bouche Artificielle''. A partir des mesures simultanées de la pression dans la bouche, de la pression dans l'embouchure, du débit acoustique dans l'embouchure, et de l'ouverture des lèvres, nous préciserons la relation non-linéaire liant ces variables. Nous modifierons en conséquence les équations liant ces grandeurs dans le modèle physique. Nous souhaitons également enregistrer un trompettiste professionnel, la pression étant mesurée dans le pavillon pour s'affranchir de l'influence de la salle et de la propagation en champ libre. La fonction de transfert de l'instrument étant mesurée, nous calculerons par filtrage inverse de la pression dans le pavillon, la pression acoustique dans l'embouchure du trompettiste. Cela nous permet d'envisager une comparaison entre la pression acoustique mesurée dans l'embouchure d'un trompettiste, celle mesurée lors d'un jeu avec la bouche artificielle, et enfin celle calculée lors d'une simulation par le modèle physique.
La seconde direction sera l'optimisation des paramètres du modèle. Nous souhaitons parvenir à une optimisation automatique des paramètres du modèle (collaboration avec S. Tassart). Le but est d'estimer les valeurs des paramètres du modèle minimisant la distance entre des enregistrements réalisés sur un trompettiste professionnel et le résultat de nos simulations. Ce travail pourra donner lieu a un stage de DEA ATIAM (T. Hélie).
La troisième direction sera l'amélioration du contrôle de la synthèse Nous souhaitons pouvoir contrôler la position des pistons. Avec les contrôleurs du commerce (du type saxophone MIDI WX7), cela n'est pas réalisable. Notre projet consiste à utiliser un système à base de capteurs à effet Hall pour mesurer l'enfoncement des clés. Une collaboration avec V. Hayward est envisagée pour l'élaboration d'un système de contrôle efficace mais adapté aux musiciens.

Responsable: X. Rodet
Participant: C. Vergez, T. Hélie
Collaborations internes: S. Tassart, V. Hayward

Oscillateur non-linéaire modèle du violon

Il est prévu de continuer les travaux effectués dans l'équipe par A. Ward en 1996. Une stagiaire ATIAM (S. Serafin) sera chargée de développer ce modèle non-linéaire de violon et son contrôle gestuel. Ce travail s'inspirera étroitement du travail sur la trompette mais avec le système temps réel FTS, ce qui facilitera largement l'implémentation et le contrôle. Les résultats du stage de DEA ATIAM de G. Peeters (1996) sur les retards fractionnaires et dynamiques seront utilisés. De plus, le violon présente un cas particulièrement intéressant de problème de contrôle et donc pourra aussi bénéficier d'une collaboration avec V. Hayward et M. Wanderley qui travaillent sur le geste musical. En particulier, on étudiera pour simuler l'archet, divers dispositifs gestuels, tablette Wycom, souris tri-dimensionnelle ou dispositif à retour d'effort. Une prolongation en thèse de doctorat est envisagée.

Responsable: X. Rodet
Participant: S. Serafin
Collaborations internes: C. Vergez, G. Peeters, V. Hayward et M. Wanderley

3. CONTROLE GESTUEL

Dispositif expérimental de contrôle

Ce travail sera mené par V. Hayward, chercheur de l'université McGill en année sabbatique dans l'équipe. On construira un site expérimental qui associera une méthode de synthèse (existante et déja bien comprise) à un ensemble de dispositifs de contrôle comprenant au moins un dispositif "haptique" conçu pour stimuler des sensations kinestésiques et tactiles. Le but premier est de réaliser, non un "instrument virtuel" destiné à remplacer ou à imiter des instruments existants, mais véritablement un instrument articiel qui aura des caractéristiques pertinentes d'instruments mécano-acoustiques connus sans en avoir les limitations dues à leur principe. Ces caractéristiques incluent par exemple la nécessité pour un instrumentiste de fournir de l'énergie mécanique (résultante d'un mouvement dissipatif) afin de produire un son et d'en percevoir l'effet par des sensations auditives et kinestésiques/tactiles. Le but second est de fournir un site expérimental programmable pour explorer l'importance du geste au cours de l'exécution musicale, et l'adéquation de divers types de gestes à divers types de contrôle.

Responsable: X. Rodet, V. Hayward
Participant: V. Hayward
Collaborations internes:M. Wanderley, B. Rovan
Collaborations externes: Université McGill

Etude du geste musical

M. Wanderley a commencé une thèse en 1997 sur le sujet: "Définition, modélisation et implémentation de méthodes d'acquisition de gestes et ses applications à la synthèse sonore". Après avoir dédié les premiers mois de thèse à une étude sur les possibilités des systèmes de capture gestuel existants et sur les environements de synthèse temps-réel les plus courants, nous nous concentrons sur l'influence des gestes de l'instrumentiste qui joue d'un instrument du type anche simple sur le signal sonore produit. Après avoir analysé des échantillons sonores d'une clarinette issus du projet SOL, nous avons trouvé des annulations de partiels qui peuvent être le résultat d'une combinaison entre l'effet de la salle et des mouvements de l'instrumentiste en train de jouer son instrument. Nous travaillons maintenant dans le but de modéliser cette influence et ensuite d'appliquer ce modèle avec le "Spatialisateur" dans FTS. Ce travail sera mené en collaboration avec le compositeur B. Rovan et V. Hayward (recherche sur les dispositifs gestuels et ses applications), dans le cadre du Groupe de Discussion sur le Geste interne à l'IRCAM et avec des chercheurs externes sur les aspects théoriques du contrôle gestuel.

Responsables: Ph. Depalle, X. Rodet
Participant: M. Wanderley
Collaborations internes: B. Rovan, S. Dubnov, Equipe SOL, Equipe Acoustique de Salles
Collaborations externes: A. Camurri (DIST - Genova), A. Mulder (ATR - Kyoto), T. Marrin (Media Lab - MIT), R. Vertegaal (Twente Univ. - Enschede)

II. ACTIVITES DEVELOPPEMENT

AudioSculpt

De nombreuses incertitudes pèsent sur l'avenir des plateformes micro-informatiques pour les musiciens. En attendant que des solutions stables se dégagent, le développement d'AudioSculpt sera poursuivi seulement dans le sens du debugging, de la maintenance et de quelques améliorations simples comme le traitement commun des phases des pics spectraux pour améliorer les possibilités de dilatation temporelle et en réduire le coût. Par ailleurs une réflexion de fond sera entreprise sur l'avenir d'AudioSculpt, sa structure et les plateformes cibles.

Responsable: P. Depalle et X. Rodet
Participant: développeur

Diphone & Chant

L'année 1998 sera consacrée des améliorations substantielles de Diphone en attendant que les incertitudes sur l'avenir des plateformes micro-informatiques pour les musiciens soient levées:
- Amélioration de la qualité de l'analyse de fréquence fondamentale par l'intégration d'un nouvel algorithme.
- Gestion des enveloppes spectrales et de la composante bruitée dans Additive.
- Langage de création des séquences, fabrication d'un Parser.
- Lois récursives de propagation des scalaires lors de la modification d'un Composite-Segment.
- Importation et Exportation pour la Synthèse en fichiers binaires au format SDIF.
- Portage de HMM sur Macintosh et mise en place d'un "crible" pour utiliser les résultats d'analyse dans Diphone.
- Développement externe de plugins.

Enfin, un stagiaire (D. Schwarz) travaillera sur les Enveloppes Spectrales et le Bruit.

Responsable: X. Rodet
Participant: A. Lefevre et D. Schwarz
Collaborations internes: R. Woehrmann

Xspect

Un stagiaire sera affecté à l'amélioration du logiciel de visualisation et d'analyse de signaux Xspect, en particulier pour implanter les Sonagrams et les Trajets de Partiels en OpenGL (collaboration avec R. Woehrman).

Responsable: X. Rodet
Participant: stagiaire
Collaborations internes: R. Woehrmann

III. PERSONNEL

Responsables:

X. Rodet, P. Depalle

Contractuels:

A. Lefèvre
S. Rossignol
S. Tassart
développeur AudioSculpt

Chercheurs invités:

S. Dubnov, postdoc, Hebrew University-Jerusalem
V. Hayward, année sabbatique, université Mcgill

Thésards:

S. Rossignol, DEA Rennes, Thèse Université Paris-6
G. Peeters, DEA Atiam, Thèse Université Paris-6
M. Oudot, DEA Atiam, Thèse Télécom-Paris
M. Wanderley, Thèse Université Paris-6
S. Tassart, DEA Atiam, Thèse Université Paris-6
C. Vergez, DEA Rouen, Thèse Université Paris-6
R. Gribonval, DEA Atiam, Thèse Ecole Polytechnique

Stagiaires:

D. Schwarz, Université de Stuttgart
S. Serafin, DEA Atiam
T. Hélie, DEA Atiam
Stagiaire portage sur FTS
Stagiaire Xspect