Equipe Analyse/Synthèse

Rapport d'Activité 1997

Xavier Rodet


Les stratégies de recherche et de développement de l'équipe Analyse/Synthèse sont motivées par les demandes des musiciens et par les nécessités scientifiques et techniques spécifiques à ce domaine d'activité. Actuellement, trois types de demandes des musiciens apparaissent en priorité. Le premier souhait se porte sur des méthodes d'analyse/synthèse permettant le traitement des sons. Le second concerne des moyens de contrôle de la synthèse. Enfin la dernière demande est l'extension des outils logiciels existants. Quant aux motivations spécifiquement issues de la recherche et du développement, les principales sont les suivantes. En premier lieu les limitations de certaines théories. Par exemple les limitations des Satistiques d'Ordre 2 conduisent à étudier les Satistiques d'Ordres Supérieurs. De même, les limitations de la méthode Additive classique conduit à étudier la méthode PSOLA. En second lieu, le développement des Modèles Physiques nécessite des avancées dans des domaines comme la compréhension des systèmes non-linéaires ou l'aéro-acoustique des jets. Enfin, une des classes principales de problèmes provient de ce que les analyses et les traitements ne peuvent être ni universels ni globaux et requièrent donc des adaptations particulières aux types de sons et aux types d'informations recherchées.

En conséquence de ces différentes motivations, les stratégies de recherche et de développement de l'équipe sont les suivantes. En premier, l'amélioration des méthodes permettant le traitement, où se trouvent les recherches sur PSOLA et sur la caractérisation, la segmentation et la classification. Ensuite, l'étude des modèles non-linéaires des instruments acoustiques, c'est à dire l'étude de la stabilité, de l'oscillation et de la propagation non-linéaire, ainsi que des mesures sur une bouche artificielle. Enfin une nouvelle direction importante émerge, que l'on nomme le contrôle de la synthèse, et où se trouvent les travaux sur le geste, sur le logiciel Diphone et sur la caractérisation et la segmentation.


I. Analyse et Synthèse par Modèles de Signaux

1. Algorithme de Matching Pursuit amélioré et applications.

Cette étude, qui est l'objet d'une thèse, a été poursuivie en vue d'extraire des informations pertinentes des signaux analysés. Pour cela, les résultats de l'algorithme de Matching Pursuit, les atomes temps-fréquence, sont structurés, par exemple en tentant de séparer les phénomènes transitoires des phénomènes stationnaires. L'une des voies explorées est la classification d'attaques instrumentales et de transitoires à l'aide d'arbres de décision. La construction d'un arbre binaire de décision est fondée sur une dictionnaire de questions telles que "le coefficient attribué à tel atome temps-fréquence dépasse-t-il tel seuil?". Divers coefficients sont possibles, en particulier le coefficient de corrélation utilisé dans l'algorithme de Matching Pursuit. D'autres atomes sont possibles comme les maxima d'une Transformée en ondelettes. Finalement, les noeuds de l'arbre portent des questions choisies dans le dictionnaire et les feuilles sont étiquetées par des classes de son (type d'instrument, mode de jeu,..). La méthode de construction de l'arbre, à partir d'une famille d'exemples sonores, est issue de l'approche Matching Pursuit avec réduction locale "gourmande" ("greedy") de l'entropie.

Responsables: X. Rodet et Ph. Depalle.

Participants: R. Gribonval (Thésard ENS Ulm).

Collaborations externes: S. Mallat et E. Bacry, Ecole Polytechnique.

2. Séparation, segmentation et identification d'objets sonores. Applications à la représentation et à la manipulation des signaux sonores.

Ce travail est mené dans le cadre d'un contrat CNET et d'une thèse co-encadrée par l'IRCAM et l'Ecole Supérieure d'Electricité. Le travail de thèse de Stéphane Rossignol est centré sur la segmentation et la caractérisation des signaux sonores. Les différentes étapes de la recherche sont les suivantes : extraction de paramètres constitutifs et pertinents (tracé de la fréquence fondamentale, de l'énergie, voisement, flux spectral...), et à partir de ceux-ci segmentation des sons en "objets sonores", manipulables et transformables. La finalisation des outils de segmentation existants (segmentation en notes ou phones) est en cours de réalisation, un des buts à court terme étant de construire un programme opérationnel. Il est prévu d'inclure d'autres fonctions d'observation, et éventuellement de passer d'une prise de décision classique (seuillages) à une prise de décision par réseau de neurones. D'autres niveaux de segmentation sont étudiés: segmentation d'une bande-son principalement en parties voix parlée, en parties voix chantée et en parties musique instrumentale (d'autres catégories sont définies: bruits de rue, bruits de machines...); enfin, la segmentation concerne aussi la description hiérarchique des sons liée au contenu, c'est-à-dire la pose d'étiquettes telles que voisé/non voisé, harmonique, présence de vibrato, son/silence, etc., sur des segments de son.

Ensuite, la recherche porte sur la séparation de sources (en se limitant pour le moment à deux sources harmoniques). Là aussi, il y a extraction de paramètres pertinents (groupes harmoniques, modulations, débuts et fins de partiels...) et prises de décision. Des applications sur des signaux simulés et réels ont déjà été faites avec succès.

Enfin, dans une seconde étape, l'application de ces outils dans le contexte du codage sélectif du contenu de scènes sera étudiée en vue d'une compression plus optimale. Des applications aux services multimédias sont également envisagées.

Responsables: Ph. Depalle et X. Rodet.

Participants: S. Rossignol.

Collaborations externes: J.L. Collette et J. Soumagne, professeurs à l'école Supélec Metz, et M. Lever et P. Philippe CCETT Rennes.

3. Application des statistiques d'ordres supérieurs à la caractérisation des signaux sonores.

Ce travail, qui est lié au sujet précédent (I.2.), a été effectué par un chercheur en post-doc. Le premier axe de recherche a été la classification de bruits naturels et de machine par des critères sur les "Statistiques d'Ordres Supérieurs". La méthode est fondée sur la comparaison des Spectres d'Ordres Supérieurs des sons "blanchis" ou résiduels (c.à.d. à enveloppe spectrale plate). Ceci généralise des résultats préalables de classification des sons musicaux, qui utilisent les cumulants (skewness et kurtosis). La classification est nettement meilleure qu'avec une méthode spectrale classique (Cf. article ICASSP-97 de S.Dubnov & N.Tishby)

La caractérisation de l'apériodicité de signaux sonores a été étudiée également pour être appliquée à la classification de sons instrumentaux. Le travail a porté en particulier sur la distinction de l'apériodicité synchrone ou asynchrone des partiels (couplage des phases). Les résultats montrent qu'une différence de couplage de phase semble distinguer divers instruments (Trompette et Violoncelle par exemple).

En collaboration avec B.Rovan and M.Wandereley, un travail a été entrepris sur l'ajout d'un contrôle expressif à la synthèse sonore par navigation gestuelle dans l'espace des timbres. Un sous-espace de timbres expressif a été défini pour un ensemble de registres et de dynamiques. Des effets virtuels de souffle et d'embouchure ont été inclus dans le contrôleur. Enfin un mode de jeu expressif a été obtenu en définissant une relation entre les contrôles et les coordonnées du sous-espace de timbres expressif.

Enfin une étude a porté sur la caractérisation de la texture et des gestes musicaux dans des séquence de notes (codées en MIDI). Le geste musical est défini en termes de distribution de probabilité. La différence entre des gestes musicaux est mesurée par distance statistique (entropie mutuelle). Ces résultats ont été utilisés pour l'analyse et la génération de différentes textures.

Responsables: X. Rodet .

Participants: S. Dubnov (Post-doc).

Collaborations internes: S. Macadam, équipe Perception et Cognition Musicale, G. Assayag, équipe Représentations Musicales

Collaborations externes: Hebrew University, Jérusalem, Israel.

4. Améliorations des modèles d'analyse/synthèse par addition de sinusoïdes et de bruit.

Le travail effectué en 1996 a porté essentiellement sur la mise en oeuvre de différentes méthodes d'analyse issues de l'ENST et de l'IRCAM et sur leur application au codage de la parole à bas débit. L'insuffisance des techniques usuelles en milieu bruité nous a poussé à en revoir les fondements théoriques en 1997. Notre intérêt s'est tout d'abord porté sur l'estimation de l'enveloppe spectrale. Une étude complète, théorique et pratique, a été effectuée, ce qui a donné naissance à plusieurs articles de conférences et un article de revue. La nouvelle méthode d'estimation développée repose sur le comportement statistique des observations sur lesquelles s'appuie la modélisation de l'enveloppe. Ces observations sont, dans le cas d'une trame voisée, les amplitudes estimées aux fréquences harmoniques et, dans le cas non voisé, les échantillons du périodogramme. Notre procédure tend à maximiser un critère de log-vraisemblance associé à l'ensemble des observations et produit ainsi une enveloppe qui interpole mieux les partiels et estime simultanément la densité spectrale du bruit dans les parties non voisées. Cette nouvelle méthode d'estimation spectrale peut s'appliquer à tout type de modèle de parole (pas uniquement sinusoïdal) dans les domaines du codage, du débruitage et de la synthèse. Les résultats obtenus dans le cadre du codage à débit réduit sont très intéressants puisque pour un même ordre de paramétrisation l'enveloppe obtenue par optimisation tend à mieux coder les partiels. En débruitage, les résultats ne sont pas aussi bons qu'escomptés et un traitement inter-trames doit être ajouté pour diminuer l'effet des partiels les plus bruités, partiels qui introduisent un " bruit musical ". Enfin l'effort de cette année va se porter sur la synthèse haute qualité et plus particulièrement sur la transformation de la voix.

Responsables: X. Rodet et Ph. Depalle.

Participants: M. Oudot (Thésarde Télécom-Paris).

Collaborations externes: E. Moulines, Télécom Paris, O. Boeffard, CNET-Lannion.

5. Synthèse par superposition/addition synchrone au pitch.

La méthode de synthèse généralement désignée par le terme PSOLA pour Pitch Synchronous Overlap Add est l'une des plus efficaces en synthèse de la parole. En 1997, nous avons étudié la méthode TD-PSOLA (Time Domain-PSOLA). Ses limitations quant aux possibilités de transformations du signal et de la qualité obtenue nous ont conduit rapidement à étudier la méthode FD-PSOLA (Frequency Domain-PSOLA). FD-PSOLA permet des manipulations plus élaborées du son, en particulier au niveau du spectre du signal, manipulations telles que filtrage, dilatation, interpolation. Cette méthode pose de nouveaux problèmes liés, entre autres, à la nécessité d'un marquage extrêmement précis du signal, d'une détection à la fois temporelle et fréquentielle des zones voisées et non-voisées, ainsi que d'une estimation précise du spectre de phase. De nouvelles méthodes fondées sur des analyses pitch-synchrones du signal ont été proposées. Ces méthodes permettent des améliorations sensibles de la synthèse du signal. En particulier l'estimation du spectre de phase devrait aboutir à la création d'un modèle de phase et à l'estimation automatique des paramètres de ce modèle sur des signaux de paroles et de musique. Ce modèle de phase devrait pouvoir être également appliqué en analyse/synthèse additive. La méthode PSOLA a ensuite été appliquée à la modification des sons instrumentaux. Ce travail devrait se poursuivre par l'application de PSOLA à une large gamme de sons d'instruments de musique ou autres.

Responsables: X. Rodet et Ph. Depalle.

Participant: G. Peeters (Thésard ATIAM)

II Outils de contrôle de la synthèse

1. Interface graphique et Contrôle par Diphones.

Le contrôle par Diphones Généralisés est un moyen puissant de construire une phrase musicale à partir de dictionnaires d'unités sonores, en les concaténant et les articulant. La version 0.9 de Diphone pour Apple Macintosh a été présentée au Forum en Octobre 1996. L'année 1997 a été consacrée au développement d'une nouvelle version (1.6) distribuée aux utilisateurs au Forum de Novembre 1997. C'est une évolution importante de ce logiciel sous de nombreux aspects. La structure du logiciel a été totalement remaniée. La gestion mémoire a été optimisée. Les différents composants du système sont désormais implantés sous forme de plug-ins. C'est le cas, en particulier, pour chaque modèle d'analyse-synthèse. Notamment, le modèle Chant (synthèse en Formes d'Onde Formantiques ou FOFs et synthèse par Filtres) est implanté sous forme d'un plug-in. Ceci permet d'importer des segments dans le modèle Chant, de construire des séquences de diphones Chant et d'en faire la synthèse. De même l'analyse additive est désormais disponible pour l'utilisateur sur Macintosh et est configurée au moyen d'une interface graphique. L'édition de Break Point Functions a été ajoutée dans cette version. L'interface utilisateur a été améliorée. Elle est désormais plus conforme aux applications Macintosh standard et offre de nouveaux modes d'accès tel qu'un inspecteur et une barre d'outils. Les préférences ont été largement améliorées. En particulier, les variables d'environnement peuvent être éditées, les préférences sont désormais dynamiques et permettent à chaque utilisateur, sur une même machine, de personnaliser son application. Différentes améliorations ont été apportées aux segments et séquences. La dilatation et le fenêtrage des segments offrent de nouvelles possibilités de construction de séquences. Dans les Composites Segments, les Break Point Functions des paramètres peuvent être remplacées par d'autres fonctions (substitution). L'éditeur de Break Point Functions est étendu aux fonctions multiples. Toute une sélection d'articulations peut être changée en une seule action. Enfin, la création d'un script de découpage (pour la fabrication d'un dictionnaire) peut être faite automatiquement à partir de fichiers marqueurs issus d'AudioSculpt. Ce nouveau logiciel Diphone constitue un outil puissant et stimulant pour la composition et la synthèse, que les compositeurs utilisent désormais en production à l'Ircam (Création de la pièce "M" de Philippe Leroux fin 1997).

Responsable: X. Rodet.

Participants: A. Lefevre, développeur, D. Virolle, stagiaire

Collaboration interne : Département Pédagogie

2. Outils de contrôle gestuel

La thèse de Marcelo Wanderley a commencé à la fin de l'année 1996. Son thème est l'étude des outils de contrôle gestuel de la synthèse sonore. Ce travail se compose de plusieurs parties. La première partie est l'étude, la modélisation et l'implantation de systèmes gestuels pour le contrôle de la synthèse sonore ainsi que l'évaluation des outils existants - contrôleurs, interfaces et techniques de contrôle. La seconde partie est l'étude théorique des gestes instrumentaux. Un groupe de discussion sur le geste musical (GDGM) a été formé avec B. Rovan et S. Dubnov. Le but principal de ce groupe est une recherche sur les fondements du contrôle expressif de la synthèse. La troisième partie est l'implantation d'un environnement général de synthèse temps-réel (ESCHER) avec contrôle gestuel. Ce travail a été mené en collaboration avec Butch Rovan et Norbert Schnell (Equipe Temps-Réel). La première version de ce système a été présentée à l'Ircam et diverses utilisations sont prévues: pour la modélisation du contrôle d'une clarinette acoustique avec un contrôleur MIDI standard; pour l'implantation de différentes stratégies de correspondance entre les paramètres de contrôle et les paramètres de synthèse; enfin pour l'implantation d'autres transformations sonores et de différents types de synthèse.

La dernière partie est l'étude des mouvements non-strictement liés à la production sonore primaire d'instruments acoustiques à vent. Par exemple, il s'agit d'évaluer les mouvements d'une clarinette en relation avec un microphone. On cherche à modéliser l'influence générale de ces mouvements dans le but de produire des synthèses sonores plus riches et plus expressives.

Responsables: X. Rodet et Ph. Depalle.

Participants: M. Wanderley, Thésard.

Collaborations internes : J. B. Rovan et N. Schnell (équipe temps-réel), O. Warusfel (équipe A. Salles), R. Caussé (Equipe A. Instrumentale), Equipe SOL.

Collaborations externes : chercheurs et compositeurs du groupe de discussion sur le geste musical.

III Analyse-Synthèse par Modèles Physiques

1. Retards Fractionnaires

Dans le cadre de la thèse de S. Tassart, le développement de la théorie des retards fractionnaires s'est poursuivi. Elle a conduit notamment à la participation à 3 conférences scientifiques internationales. La théorie a permis dans un premier temps de dégager un formalisme unitaire décrivant deux grandes classes d'approximateurs pour les retards fractionnaires : les filtres passe-tout et les filtres interpolateurs de Lagrange. La collaboration avec R. Msallam de l'équipe Acoustique Instrumentale a également débouché sur une implantation intéressante représentant le phénomène acoustique de propagation non-linéaire se déroulant par exemple au sein de la coulisse du trombone à forte amplitude de jeu. Le début de la rédaction du document de thèse a été l'occasion de proposer une base théorique à la théorie des retards fractionnaires permettant d'aborder de façon satisfaisante les problèmes des systèmes dynamiques discrets fractionnaires.

Responsable : Ph. Depalle.

Intervenants : S. Tassart (Thésard ATIAM).

Collaborations interne: Equipe acoustique, R. Msallam:

Collaborations externes: D. Matignon, Département Image et Son, Télécom Paris .

2. Oscillations non linéaires et modèles d'instruments.

Instruments artificiels de la classe trompette.

Le travail de thèse de C. Vergez sur les instruments de la classe trompette se poursuit et donne des résultats très intéressants. Les améliorations apportées au modèle physique temps-réel concernent d'abord la fermeture des lèvres. Le calcul du débit d'air entre les lèvres a été affiné afin de prendre en compte les effets de la viscosité dans la couche limite lorsque l'ouverture des lèvres devient "petite". De même, le modèle de choc viscoélastique simulant la fermeture des lèvres est appliqué avant la fermeture complète des lèvres pour tenir compte de la fermeture progressive des lèvres par les cotés. Nous avons également travaillé sur la modélisation de la réponse acoustique du résonateur en proposant des simplifications de la fonction de réflexion mesurée sur une trompette. Mais, ces simplifications, liées a la forme de l'instrument, influent sur la courbe d'impédance de l'instrument modélisé. Les conséquences sur la qualité de la simulation ont été étudiées et les inconvénients de la méthode ont été compensés grâce à l'utilisation de filtres récursifs d'ordre 2, en parallèle de la convolution avec la fonction de réflexion simplifiée. L'instrument artificiel ainsi obtenu allie une très haute qualité de synthèse sonore temps-réel et une grande flexibilité et expressivité. Son utilisation musicale à l'Ircam et à l'extérieur doit désormais être envisagée.

Responsables : X. Rodet.

Intervenants : C. Vergez, Thésard.

Collaboration interne : R. Caussé, Equipe Acoustique Instrumentale.

Collaborations externes : Laboratoire d'acoustique de l'Université du Maine.

Bouche Artificielle avec Lèvres en Latex

Afin d'améliorer le modèle physique de trompette décrit ci-dessus, une recherche a été entreprise, dans le cadre de la thèse de C. Vergez, pour déterminer la relation non-linéaire liant la pression dans la bouche, la pression dans l'embouchure, le débit dans l'embouchure et l'aire d'ouverture des lèvres. Pour cela, une bouche artificielle avec des lèvres en latex a été construite par un stagiaire de DEA ATIAM, Benoît Govignon, et en collaboration avec A. Terrier (Atelier Mécanique), R. Caussé et G. Bertrand (Acoustique Instrumentale). La bouche artificielle peut jouer d'une vraie trompette comme un trompettiste. Nous avons mis en oeuvre un protocole expérimental permettant de mesurer simultanément la pression dans la bouche, la pression dans l'embouchure, le débit dans l'embouchure ainsi que l'aire d'ouverture des lèvres. Les résultats montrent une parfaite similitude des signaux et des spectres produits par la bouche artificielle et par un trompettiste. Les mesures des paramètres de pression et d'aire sont très satisfaisants. Nous pouvons ainsi analyser les phénomènes aéro-acoustiques très complexes mis en jeu au niveau des lèvres et reporter ces résultats dans le modèle de trompette simulé pour améliorer la modélisation.

Responsables : X. Rodet.

Intervenants : C. Vergez, Thésard, et B. Govignon, stagiaire DEA ATIAM.

Collaboration interne : A. Terrier, Atelier, R. Caussé et G. Bertrand, Equipe Acoustique Instrumentale.

Collaborations externes : Laboratoire d'acoustique de l'Université du Maine.

IV. Développements

1. AudioSculpt.

Les développements du logiciel AudioSculpt ont consisté, pour l'essentiel, en des corrections de bogues et des améliorations apparues nécessaires dans les utilisations par les musiciens et compositeurs.

Responsable : Ph. Depalle.

Intervenants : S. Serafin.

Collaborations interne: Pédagogie:

2. Chant et SDIF

La bibliothèque Chant (FOFs et Filtres) a été débogguée, améliorée et documentée par D. Virolle. Cette bibliothèque est désormais installée en standard à l'Ircam. Un programme de synthèse Chant (chant) avec divers patchs a été écrit et est désormais installé en standard à l'Ircam. La bibliothèque Chant et le programme de synthèse Chant ont été portés sur Macintosh. Le programme de synthèse Chant dans ses versions Unix et Macintosh utilise le format SDIF (plate-forme indépendant) ce qui garantit une compatibilité externe autant qu'interne.

SDIF est un standard de format de fichiers de paramètres d'analyse et de synthèse (Exemples: FFT, additive, filtres, fondamental...) pour différents logiciels et différents centres de recherche (CNMAT-Berkeley, CCRMA-Stanford, IUA, ... plus de 13 Centres). Le standard SDIF a été élaboré en collaboration avec le CNMAT, Berkeley, par D. Virolle, R. Woehrmann et X. Rodet. La bibliothèque SDIF a été développé par D. Virolle. Cette bibliothèque est désormais documentée et installée en standard à l'Ircam.

Responsable: X. Rodet.

Participants: D. Virolle, stagiaire.

Collaboration interne : Equipe SOL, R. Woehrmann

Collaboration externe : CNMAT, Berkeley

3. Xspect

Le développement du logiciel de visualisation et d'analyse de signaux sonores Xspect a été poursuivi en 1997 avec un stagiaire élève de l'IUT de La Rochelle. De nombreuses améliorations ont été apportées. En particulier, la gestion des couleurs a été profondément remaniée, les fonctions d'écoute ont été rendues indépendantes du taux d'échantillonnage de la machine hôte, les analyses ont été rendues plus précises, etc... Enfin le chargement, la visualisation, la modification et la sauvegarde de Break Point Functions ont été ajoutées. Xspect est un outil de plus en plus indispensable pour les travaux de recherche sur les signaux sonores. Il a d'ailleurs été demandé et installé dans d'autres centres de recherche musicaux et industriels (Sociétés PSA et Renault).

Responsable: X. Rodet.

Participants: G. Lebrun, stagiaire.

Publications

P. Depalle, S. Tassart, Analytical Approximations of Fractional Delays: Lagrange Interpolators and Allpass Filters, Proceedings ICASSP'97, Munich, Mars 1997.

P. Depalle, S. Tassart, M.Wanderley, Instruments virtuels, les vertus du possible : Résonance, n. 12, pp. 5-8, sept. 97, IRCAM.

R. Msallam, S. Dequidt, S. Tassart, R. Caussé, Physical Model of the Trombone including nonlinear propagation effect, Proceedings ISMA'97, Edinburgh, England, August 97.

S. Tassart, R. Msallam, Ph. Depalle and S. Dequidt, A fractional delay application: time-varying propagation speed in waveguides, Proceedings ICMC97, Thessaloniki, Grèce, September 1997.

X. Rodet: Musical Sound Signals Analysis/Synthesis: Sinusoidal+Residual and Elementary Waveform Models, Proceedings of the IEEE Time-Frequency and Time-Scale Workshop (TFTS'97), University of Warwick, Coventry, UK, 27th-29th August 1997.

X. Rodet, A. Lefevre: The Diphone program: New features, new synthesis methods and experience of musical use, Proceedings ICMC97, Thessaloniki, Grèce, September 1997.

A. Lefevre, X. Rodet: Diphone, Proceedings. JIM97, Lyon, France, Juin 1997.

C. Vergez, X. Rodet: Comparison of Real Trumpet Playing, Latex Model of Lips and Computer Model, Proceedings ICMC97, Thessaloniki, Grèce, September 1997.

S. Dubnov, X. Rodet: Statistical Modeling of Sound Aperiodicities, Proceedings ICMC97, Thessaloniki, Grèce, September 1997.

C. Vergez, X. Rodet: Model of the Trumpet Functioning: Real-Time Simulation and Experiments with an Artificial Mouth Model, Proceedings ISMA'97, Edinburgh, England, August 97 .

S. Dubnov: Emotion - Is it measurable ?, Kansei-The Technology of Emotion Workshop, Genova, Italia, Oct. 3/4, 1997.

J. B. Rovan, M. Wanderley, S. Dubnov and P. Depalle, Instrumental Gestural Mapping Strategies as Expressivity Determinants in Computer Music Performance, Kansei-The Technology of Emotion Workshop, Genova, Italia, Oct. 3/4, 1997.

O. Cappé, M. Oudot and E. Moulines, Spectral Envelope Estimation using a Penalized Likelihood Criterion, IEEE ASSP Workshop on App. of Sig. Proc. to Audio and Acoust., Mohonk, Oct. 1997.

O. Cappé, M. Oudot and E. Moulines, Estimation robuste de l'enveloppe spectrale d'un signal harmonique bruité, Seizième colloque Gretsi sur le Traitement du signal et des Images, Grenoble, September 1997.

M. Oudot, O. Cappé and E. Moulines, Estimation of the spectral envelope of mixed spectrum signals using a penalized likelihood criterion, submited for publication in IEEE Trans. Speech and Audio Processing, June 1997.

M. Oudot, O. Cappé and E. Moulines, Spectral Envelope Estimation using a Penalized Likelihood Robust estimation of the spectral envelope for ''harmonics+noise'' models, IEEE Workshop on Speech coding, Pocono Manor, USA, September 1997.

Ph. Depalle and T. Hélie, Extraction of spectral peak parameters using a short-time Fourier transform modeling and no-sidelobe windows, Proc. IEEE ASSP Workshop on App. of Sig. Proc. to Audio and Acoust., Mohonk, New Paltz, U.S.A., Oct. 1997.

Rapports internes

Model of high level structuring and intelligent content-based retrieval in audio databases, October 1997 (S. Dubnov and X. Rodet).

Cumulant-based characterization of sinusoidal components' coupling, October 1997 (S. Dubnov and X. Rodet).

Documentation en ligne (HTML) du Logiciel Additive (X. Rodet).

Documentation en ligne (HTML) de la Librairie Chant (D. Virolle).

Documentation en ligne (HTML) du Logiciel AudioSculpt (S. Serafin).

Documentation en ligne (HTML) du Sound Description Interchange File format, SDIF (D. Virolle).

Documentation en ligne (HTML) de la Librairie SDIF (D. Virolle).

Documentation en ligne (HTML) de la Librairie Pm (G. Garcia et D. Schwarz).

Rapport de stage

B. Govignon:

Réalisation d'une bouche artificielle pour trompette avec des lèvres en latex. Elaboration d'un protocole de mesure sur la bouche artificielle, rapport de DEA ATIAM, Ircam, Juin 1997.

D. Virolle:

Conception d'un système de synthèse et d'un format de description d'objets sonores associé (Chant, SDIF), rapport de fin d'études, Ircam, Décembre 1997.

G. Lebrun:

Développement d'un logiciel d'analyse et de visualisation de signaux sonores (Xspect), rapport de fin d'études de l'IUT de La Rochelle, Ircam, Juin 1997.

Rapports intermédiaires de thèse

S. Rossignol:

Segmentation - Extraction du vibrato - Séparation de sources, Ircam, Août 97.

M. Oudot:

Etude du modèle sinusoides+bruit, application au codage et à la synthèse de la parole, Télécom-Paris, Juin 97.

G Peeters:

Analyse/synthèse pitch synchrone par superposition/addition avec modifications dans le domaine fréquentiel (FD-PSOLA), Ircam, Septembre 97.

M. Wanderley:

Les nouveaux gestes de la musique, Ircam, Avril 97.

Document de cours

S. Tassart, P. Depalle, Traitement du Signal audio appliqué à la Musique (synthèses des sons par modèle de signaux et par modèles physiques), Institut Supérieur d'Électronique du Nord, pp. 60.

Séminaires internes 1997

S .Tassart et G. Peeters:

Modules de retards fractionnaires variables au cours du temps

et applications à un modèle physique temps-réel.

R. Msallam, S. Dequidt, S. Tassart:

Prise en compte de non-linéarités de propagation dans les instruments à vent. Application au trombone.

C. Vergez:

Modèles de base d'instruments de type trompette, en temps réel.

Benoît Govignon, Christophe Vergez, Xavier Rodet, Alain Terrier:

Bouche artificielle pour trompette, Octobre 97.

Vincent Hayward:

Recherches sur les interfaces haptiques à l'Université McGill : Applications et perspectives, Septembre 97

R. Gribonval:

Algorithme de Matching Pursuit amélioré et applications.

Ph. Depalle et T. Hélie:

Estimation des paramètres additifs par modélisation du spectre à court-terme

X. Rodet et A. Lefèvre:

Le logiciel Diphone, Journées Forum de l'Ircam, Mars 1997.

A. Lefèvre et X. Rodet:

La nouvelle version de Diphone, Journées Forum de l'Ircam, Novembre 1997.

Contrats

Contrat avec le CNET-Lannion: Application de l'analyse-synthèse additive+résiduel à la synthèse et au codage.

Contrat avec le CCETT: Caractérisation des sons.

Contrat avec la société PSA: installation des logiciels Additive et Xspect et écriture de convertisseurs de formats de fichier

Contrat avec la société Renault: installation des logiciels Additive et Xspect.

Contrat avec le CNET-Lannion: Transformation d'une base de données de voix.

Conférences invitées

Ph. Depalle: " Farinelli", Faculté de musique de Metz, 28 Janvier 1997

Ph. Depalle and X. Rodet : L'analyse/synthèse, Journées Portes Ouvertes, IRCAM, Juin 1997

M. Oudot: Modèles " sinusoides et bruit " pour la parole, Séminaire Ondelettes et traitement statistique du signal, Ecole Polytechnique, Janvier 1997.

X. Rodet et S. Dubnov: Model of high level structuring and intelligent content-based retrieval in audio databases, Joint Franco Israeli Status Seminar on Information Superhighways, Israel, Décembre 1997.

X. Rodet: Models of musical instruments for sound synthesis, Technical University, Eindhoven, Avril 1997

Ph. Depalle: "Les nouveaux gestes de la musique", Colloque International Arts et Sciences, Groupe de Musique Electroacoustique de Marseille, Marseille, France, 4-5 Avril 1997.

X. Rodet: Synthèse musicale par modèles physiques et par modèles de signaux, Conférence à Hebrew University, Jérusalem, Décembre 1997.

Ph. Depalle: " Farinelli", Faculté de musique de Nancy, 24 Mars 1997.

X. Rodet: Analyse/Synthèse de signaux sonores en sinusoides et en formes d'ondes élementaires, Conférence au Colloquium de Mathématiques Appliquées Traitement mathématique du signal, Ecole Polytechnique, Avril 1997.

Ph. Depalle: "Analyse/synthèse des sons", Journée d'étude de la SFA sur l'analyse, la synthèse et le traitement des sons Marseille, France, 23 Mai 1997.

M. Oudot: Codage de la prole à partir du modèle " sinusoides et bruit ", Journées scientifiques ENST, Juin 1997.

X. Rodet: High level course in computer music: Acoustic and virual instruments, Centro Ricerche Musicali (CRM), Rome, November 1997

M. Wanderley et J. B. Rovan: Capteurs pour intruments de musique, Journées d'étude SFA-AES France et CNSM Paris, 20 Novembre 1997.

X. Rodet: Analyse et synthèse sonore de haute qualité, IPO, Eindhoven, Octobre 1997

J. B. Rovan et M. Wanderley: Conférence/Concert " Gestures in Music ", Théatre Carlo Felice, Gênes, Italie, 26 Novembre 1997.

Jurys de Thèses et de Concours

X. Rodet: Thèse de R. Kortekaas, IPO, Eindhoven, Avril 1997

X. Rodet: Thèse de P. Masri, University de Warwick, Avril 1997

Ph. Depalle : Membre du jury du deuxième concours international de logiciels musicaux, Festival Synthèse, Groupe de Musique Électroacoustique de Bourges, Bourges, France, 29-31 Mai 1997.

Brevets

Boîtier amovible adaptable sur un périphérique du type souris d'ordinateur (Ndeg. 96 14759), A. Terrier et X. Rodet.

Périphérique du type souris d'ordinateur munis de capteurs de pression fournissant d'autres dimensions continues supplémentaires (Ndeg. 95 04415), X. Rodet.

Collaborations

E. Bacry et S. Mallat, "Application de l'algorithme de Matching Pursuit Haute Résolution à l'analyse temps-fréquence des signaux sonores".

E. Moulines, Télécom-Paris, Département Signal, Paris, France, "Synthèse et codage par modèles additif".

J. Soumagne et L. Colette, Supélec-Metz, Département automatique, Metz, France, "Codage des signaux sonores".

N.Tishby et R. El-Yaniv, Hebrew University, "Caractérisation de la texture et des gestes musicaux dans des séquence de notes".

Participation de C. Vergez au projet Ircam-SOL:

réalisation d'exemples de transformations audio avec Super Phase Vocoder (transposition, dilatation et contraction temporelles, filtrage évolutif) et transfert d'enregistrements de CDROM vers disque dur.

M. Wright et A. Freed, CNMAT, Berkeley, "Le standard SDIF".

Liste des membres de l'équipe

Responsable :

Xavier Rodet

Co-responsable:

Philippe Depalle

Chargés de recherche et de développement :

Adrien Lefèvre,

Stefania Serafin

Chercheur en année sabbatique :

Vincent Hayward (McGill University - Montreal)

Chercheur en PostDoc:

Shlomo Dubnov (Hebrew University)

Thésards :

Rémi Gribonval (Ecole Normale Supérieure),

Marine Oudot (Télécom-Paris),

Stéphane Rossignol (CCETT),

Marcelo Wanderley (CNPq/SFERE, Brésil),

Stéphan Tassart (Université Paris VI),

Christophe Vergez (Université Paris VI),

Geoffroy Peeters (Université Paris VI).

Stagiaires:

Gauthier Lebrun (IUT de La Rochelle).

Diemo Schwarz (Université de Stuttgart).

Benoit Gauvignon (DEA ATIAM)

Dominique Virolle (Ecole Sup. d'Informatique-Electronique-        Automatique, Paris)

Communication

Emission pour la TV Grecque.

Emission pour la BBC.

Divers articles dans la presse.

PÉDAGOGIE

Administration du DEA ATIAM

L'organisation au quotidien du DEA ATIAM 97-98 (emploi du temps, organisation des travaux pratiques, gestion du matériel) est devenu pour S. Tassart une occupation importante pendant la fin de l'année 1997.

Cours DEA ATIAM

Dans le cadre des enseignements optionnels de fin d'année du DEA ATIAM 96-97, S. Tassart a donné un cours de 3 heures sur la synthèse par Guide d'Onde.

Dans le cadre des enseignements de remise à niveau, C. Vergez a donné un cours d'initiation au langage C (durée 6 heures).

X. Rodet: Modèles physiques et systèmes dynamiques pour la synthèse sonore.