PROJET

Analyse et synthèse des sons Responsable : Xavier Rodet L'équipe Analyse-Synthèse et une équipe de recherche et de développement sur le traitement du signal audio-numérique. L'analyse recouvre les activités visant à extraire tout type d'information musicale et acoustique du signal, concernant par exemple la hauteur (sous forme de fréquence fondamentale), le timbre, les instruments jouant un son, etc. La synthèse désigne la construction d'un signal afin d'obtenir certaines propriétés sonores et musicales souhaitées par les musiciens et compositeurs. Enfin une activité importante est la transformation du son en fonction de besoins compositionnels. Ces travaux sont d'abord effectués pour les musiciens et compositeurs, mais trouvent des applications dans d'autres domaines comme le cinéma, le multimédia, ou même des domaines industriels.L'année 2003 est marquée par le démarrage de projets tout à fait nouveaux comme le projet PHASE, Plateforme Haptique d'Application Sonore pour l'Éveil musical et la reconnaissance dans des enregistrements musicaux réels. Par ailleurs d'autres thèmes arrivent à maturité, comme le programme Align d'alignement de partitions avec l'audio et la thèse de D. Schwarz sur le contrôle de la synthèse par sélection d'unités. Enfin le traitement de la voix connait un renouveau et est l'objet d'une forte demande des compositeurs et créateurs en ce moment.

Modèles d'analyse et de synthèse du signal audio

Les modèles d'analyse et de synthèse du signal audio étudiés dans l'équipe reposent souvent sur une transformation dans le domaine fréquentiel : transformée de Fourier à court terme et à fenêtre glissante pour le vocodeur de phase, et somme de sinusoïdes variables dans le temps auquel s'ajoute un résiduel non sinusoïdal pour le modèle dit sinusoïdal additif. Cependant, pour mieux répondre à l'attente des utilisateurs musiciens, compositeurs et traiteurs de son en général, notre effort porte-t-il aussi sur de nouvelles façon d'envisager la synthèse, telle que la méthode dite par sélection d'unités. Dans cette méthode comme dans de nombreux autres travaux, il apparaît que la disponibilité de larges bases de données est une nécessité absolue d'amélioration des résultats et c'est pourquoi ces bases de données sont au coeur de nombre de nos travaux.. Ces méthode sont d'ailleurs appliquées pour la modification et le traitement de la voix qui sont l'objet d'une forte demande des compositeurs et créateurs en ce moment.

Amélioration de l'analyse additive

Quelques améliorations du programme Additive ont été effectuées, en particulier l'interface graphique du programme Additive, Gadditive (additive + GUI). Ceci a été fait dans le cadre d'un contrat avec la société PSA qui utilise ce logiciel. Quelques fonctionnalités et les Widgets correspondants ont notamment été ajoutés.

Responsable : A. Roebel.

Participants : J. Escribe, A. Roebel.

Contrôle de la synthèse par sélection d'unités

Dans les systèmes de synthèse de la parole à partir du texte, une nouvelle technique, nommée sélection d'unités, permet une amélioration de qualité considérable. Son application à la synthèse sonore et musicale de haute qualité est étudiée ici. La méthode utilise une large base de données hétérogènes de sons choisis (notes séparées ou phrases complètes) et de caractéristiques, classés et segmentés suivant des paramètres estimés sur le signal. Le segment qui ressemble le mieux, au sens d'un certain critère, au résultat désiré, est sélectionné par l'algorithme. Le segment sonore trouvé peut être transformé par des techniques temporelles ou fréquentielles de re-synthèse telles que PSOLA, re-synthèse additive, etc. Il est enchaîné avec les segments trouvés pour les autres parties du signal à construire, en appliquant des techniques d'interpolation pour former les transitions. En 2003, la base de sons de test a été constituée en analysant et segmentant environ deux heures de sons à l'aide des outils de segmentation par Dynamic Time Warping, décrit en [Soulez03a]. De nombreux outils de visualisation des contenus de la base de sons ont été développés. L'algorithme de sélection d'unités a été mis au point et validé. Finalement, la rédaction du rapport de thèse a été fini et envoyé aux rapporteurs. D. Schwarz a soutenu sa thèse en janvier 2004 [Schwarz04a]. Ce travail sur la synthèse fondée sur les données a été présenté aux conférences DAFx [Schwarz03a] et ICMC [Schwarz03b] et a rencontré un vif intérêt. Il est à noter que, dans ces deux conférence, d'autres présentations traitaient du même principe de (re)synthèse sonore, donc en rapport avec le travail à l'Ircam La couche logicielle fondamentale d'accès à la base de données PostGreSQL à partir de Matlab à été publiée sous licence libre open source "GNU Lesser Public License (LGPL)" et mis en accès à l'adresse :

http://gborg.postgresql.org/project/pgmatlab.

Responsable : X. Rodet.

Participants : D. Schwarz (thèse).

Collaborations internes : F. Soulez (stage), J. Escribe (chercheur-développeur).

Plugin PSOLA dans Diphone

Au cours d'un stage, D. Tardieu a porté le moteur de calcul de Diphone de Mac OS-9 vers Unix (Linux) en gardant naturellement une source unique. Cela permet de faire facilement des calculs en batch et a préparé le portage vers Mac OS-X. De plus, il a écrit un nouveau plugin pour Diphone implantant la méthode PSOLA. Enfin il a écrit un synthétiseur PSOLA en Matlab pour faire la synthèse, c'est-à-dire convertir les données PSOLA générées par Diphone (enregistrées dans le standard SDIF type 1DIP et 1REF) en signal sonore [Tardieu03a].

Responsable : X. Rodet.

Participants : D. Tardieu (stage).

Détection des transitoires

Un nouvel algorithme pour la détection des transitoires a été mis au point. Cet algorithme est fondé sur l'analyse des pics spectraux et l'estimation du centre gravité de l'énergie (CGE) du signal relié à chaque pic. Avec les méthodes dites de réassignement, le centre de gravité peut être estimé d'une manière efficace. Il a été montré que le CGE est étroitement lié au changement de l'amplitude pendant la trame. Parmi les motivations pour cet l'algorithme se trouvent l'intégration dans SuperVP et l'utilisation pour la détection des transitoires dans les signaux polyphoniques. Pour tenir compte des signaux polyphoniques, et éviter des détections fausses dans les régions bruitées, une modélisation probabiliste de la vraisemblance des CGE est utilisée. L'algorithme a été évalué avec une base de données de référence créée au cours d'un stage à l'Ircam par F. Jaillet. Les résultats montrent que le nouvel algorithme permet d'obtenir une détection plus fiable que celui de Jaillet. L'algorithme est utilisé comme base d'un nouvel algorithme de préservation des transitoires dans le vocodeur de phase.

Responsable : A. Roebel.

Traitement des transitoire dans le vocodeur de phase

Les transitoires posent problème pour les transformations des signaux avec le vocodeur de phase. Dans les transformations touchant aux relations de phase, les transitoires subissent des dégradations considérables ce qui a motivé le développement de l'algorithme de détection des transitoires décrit ci-dessus. Il y avait dans la littérature un algorithme consistant supprimer toutes les transformations dans le segment transitoire. Cet algorithme n'est valable que pour les signaux monophoniques et ne permet pas de distinguer entre les parties stationnaires et les parties transitoires simultanées. Une nouvelle méthode a été développée pour garder la qualité des transitoires sans avoir d'effet sur les composantes stationnaires. Les améliorations ainsi apportées dans le traitement des transitoires sont importantes. Avec l'algorithme développé les transitoires gardent toutes leurs caractéristiques perceptives même si une grande dilation/transposition est appliquée L'algorithme de détection et préservation des transitoires a été publié dans [Roebel03a] et [Roebel03b].

Responsable : A. Roebel.

Classification des pics spectraux

Le succès de l'idée de classification des pics spectraux en transitoire/non-transitoire développé ci-dessus nous a amené à étudier le problème de façon générale. En collaboration avec M. Zivanovic, chercheur en post-doc, la classification des pics a été généralisée au problème sinusoïdal/bruité. Une méthode fiable pour la classification des pics spectraux en sinusoïdal ou bruité améliorerait en effet l'estimation des modèles additifs. De même, une telle classification nous permettrait de traiter spécifiquement les différentes composantes dans les modèles spectraux (vocodeur de phase).Nous avons donc étudié différents descripteurs des pics spectraux, liés à la fréquence réassignée, au centre gravité du signal, à la durée du signal et à une largeur de bande normalisée du pic. En appliquant ces descripteurs aux pics appartenant à trois classes (sinusoïde avec AM/FM, bruits, lobe secondaire) nous avons déterminé les distributions des descripteurs pour ces classes et nous avons établi un arbre de décision qui permet de classer les pics dans les trois classes. Par rapport aux méthodes de classification existantes, notamment la méthode de corrélation avec le pic d'une sinusoïde stationnaire, l'arbre de décision établi donne des résultats beaucoup plus fiables pour la classification des pics représentant des sinusoïdes non stationnaires [Zivanovic03a]. La méthode de classification des pics sera utilisée dans le futur pour améliorer le "partial tracking" dans les modèles additifs non harmoniques.

Responsable : A. Roebel.

Participant : M. Zivanovic

Traitement pour le film Tirésia

Pour le film Tirésia, le réalisateur B. Bonello a eu besoin de transformer la voix d'une actrice en une voix d'homme. Plusieurs méthodes ont été comparées. Le meilleur résultat a été jugé celui obtenu avec le logiciel SuperVP. B. Bonello a trouvé ces transformations "au delà de ses espérances". La voix transformée est apparue dans le film en compétition à Cannes et sorti sur les écrans dans l'année.

Responsable : X. Rodet.

Participant : G. Denis, A. Roebel.

Transformation de la voix

Cette thèse, débutée au mois d'Octobre, a pour finalité de trouver une fonction de transformation qui permette de donner l'identité de la voix d'un locuteur 'cible' à celle d'un locuteur 'source'. Elle utilisera l'extraction, l'apprentissage et la modification de paramètres du signal vocal (fréquence fondamentale, formants, excitation, etc.) liés au locuteur. Une première étude de ce sujet a été réalisée dans le cadre du programme DEA-ATIAM par G. Denis [Denis03a]. Dans cette étude, un système simplifié a été developpé en utilisant la technique PSOLA et des résultats préliminaires obtenus. En particulier un algorithme d'alignement temporel de deux phrases a été développé. Il trouve des applications notamment pour l'indexation de corpus en synthèse de la parole et pourrait être utilisé dans des applications artistiques.

Avec ce point de départ, certaines idées ont été testées pour l'élaboration d'une direction de recherche. La proximité perceptive au locuteur cible et la généralisation souhaitée sont considérées comme les problématiques principales de la transformation, ainsi qu'une amélioration de l'alignement temporel comme premier pas du futur système.

Les résultats et propositions publiées dans la littérature scientifique n'apportent pas encore une qualité et une généralisation suffisantes. En revanche, les améliorations progressives et le potentiel d'applications en font un sujet de recherche très intéressant.

Responsable : X. Rodet.

Participants : G. Denis (stage de DEA ATIAM) et F. Villavicencio (thèse).

Synthèse de la voix à partir du texe.

La synthèse ou plus exactement le contrôle de la synthèse par sélection d'unités dans un corpus est particulièrement adapté au cas de la voix car cette méthode permet une amélioration de qualité considérable. Ce projet a pour but la reconstitution de la voix d'un locuteur disparu. Un modèle de la voix est construit par apprentissage sur une base de données d'enregistrements du locuteur ciblé. Tout texte pourra alors être lu par ce modèle comme si le locuteur l'avait prononcé.La méthode utilise une large base de données de parole segmentée suivant les constituants phonétiques et linguistiques. Au cours d'un stage, O.Karki a commencé à adapter le système Caterpillar de D.Schwarz (Cf. paragraphe 3.1.2. Contrôle de la synthèse par sélection d'unités) pour la parole. Une étude a été faite sur un enregistrement de Cocteau visant à re-créer sa voix. Les principaux outils de segmentation, indexation et constitution de la base de données ont été mis en place [Karki03a]. Cependant, l'enregistrement choisi présente de particularités (réverbération notamment) qui ne permettent pas d'obtenir une bonne qualité. Mais grâce aux outils désormais disponibles, la finition du système et l'application à de bons enregistrements seront faites en 2004.

Responsable : X. Rodet.

Participants : O.Karki (stage), F. Soulez (stage), D. Schwarz (thèse).

Nouveaux outils pour l'analyse musicale

Les travaux concernant l'analyse musicale menés dans l'équipe Analyse-Synthèse s'appuient sur les recherches orientées contenu menées dans les projets ECRIN, CUIDADO et maintenant SEMANTIC HIFI. Ainsi les résumés musicaux sont développés pourdiverses applications musicologiques ou grand public. Par ailleurs un travail important est fait sur l'alignement de partitions avec l'audio. Cette recherche a trouvé des applications, entre autres, en musicologie, pour l'étude de l'interprétation.

Estimation des fréquences fondamentales multiples

Les recherches actuelles sur la détection de fréquences fondamentales (F0) multiples sont issus des travaux mené pendant l'année 2002 sur la détection de fréquence fondamentale en contexte monophonique [Krauledat03a]. Les travaux ont commencé par un stage DEA [Yeh03a] et ont continué en thèse. L'approche est fondée sur un ensemble de critères qui visent à estimer la plausibilité d'un ensemble de pics observés sous conditions d'un ensemble de F0 candidats. Les critères sont étroitement liés à ceux utilisés dans l'algorithme monophonique, en prenant en compte la fiabilité des pics observés. Quatre critères ont été étudiés comme mesure de la plausibilité des F0 candidats : accord entre spectre observé et spectre attendu, "douceur" (smoothness) de l'enveloppe spectrale qui résulte du spectre observé et des hypothèses F0, concentration d'énergie d'une séquence harmonique et variance du centre de gravité des pics appartenant à un des candidats. La prise en compte de la fiabilité des régions du spectre observé a été étudiée. L'hypothèse est que les régions où plusieurs partiels sont superposés doivent être traitées de façon spéciale pendant l'évaluation. Comme chaque évaluation fait l'hypothèse d'un ensemble de F0, l'ensemble correct devrait permettre de mieux exclure les régions peu fiables et donc devrait recevoir le score le plus grand. En l'état actuel, l'algorithme ne prend en compte que les informations d'une seule trame. Il a été évalué sur une base de donnée d'échantillons de divers instruments artificiellement mixés. De plus quelques enregistrements polyphoniques simples ont été testés. Les résultats sont prometteurs et permettent d'estimer quatre fréquences fondamentales avec une erreur de moins de 10%. Un des plus grands problèmes est la variation naturelle des spectres instrumentaux avec parfois des résonances fortes qui engendrent des enveloppes spectrales avec des variations importantes.

Responsable : A. Roebel.

Participant : C. Yeh (stage de DEA ATIAM puis Thèse).

Outils d'étude d'oeuvres enregistrées avec partition

Cette recherche commencée pendant la thèse de D. Schwarz [Schwarz04a] puis continuée en stage [Soulez03a], [Durigon03a] a permis d'obtenir un contrat important avec la société MIST. Le but est d'obtenir fin 2004 un outil non seulement d'alignement de partitions avec l'audio, mais encore de génération d'une partition `enrichie' où tous les aspects de l'interprétation audio soient notés. Le programme d'alignement Align est d'ailleurs utilisé par l'équipe Formulation du Musical pour mesurer et comparer différentes interprétations d'une même oeuvre. Le programmme d'alignement Align issu de cette recherche a d'ailleurs trouvé des applications musicologiques dans l'équipe Formulation du Musical, pour l'étude de l'interprétation.

Dans le stage de F.Soulez, le programme d'alignement Align par Dynamic Time Warping (DTW) de D. Schwarz a été amélioré sur de nombreux points et une partie importante ré-écrit en C++ en utilisant la bibliothèque MatMTL. De plus de nombreux tests ont été entrepris et une évaluation de performance réalisée sur un ensemble de titres. Ce travail a été présenté à la conférence ISMIR [Soulez03a].

J. Escribe s'est occupé de la détection précise des attaques des notes dans le programme d'alignement de partitions. A partir de trames données par le programme, son algorithme permet d'obtenir le temps d'attaque de chaque note ou événement MIDI à l'intérieur d'un fichier audio.A cette fin, plusieurs méthodes ont été comparées : une s'appuyant sur la variation d'énergie dans des filtres, une autre utilisant la dérivée de l'énergie, la dernière proposant une modélisation de l'attaque par un modèle 1D de spline. Pour tester ces méthodes, S. Durigon et J. Escribe ont créé une base de données de fichiers MIDI avec l'audio associé, d'une quarantaine de morceaux (/net/suwukan/data/formes/BDalign). Les différents tests ont montré que la modélisation en spline était la plus performante. L'écart type entre l'estimation de l'attaque et la valeur de référence est alors de l'ordre de 23 ms. Cette valeur est déjà très intéressante car c'est un problème vraiment difficile. Mais pour une reproduction fidèle de l'audio à partir de la partition `enrichie', on s'attachera en 2004 à diminuer encore cet écart type.

Par ailleurs, un algorithme de contrôle de tempo (appelé Beat Control) a été écrit. Le but est de corriger les erreurs de trames données par le programme d'alignement. Enfin, l'ensemble du code a été débuggé et réarrangé pour les besoins du contrat avec MIST. Dans son stage S. Durigon a étudié la détection des percussions et son inclusion dans le programme d'alignement de partitions. L'algorithme utilise une corrélation avec les sons percussifs d'une base de donnée qui a été constituée à cette occasion. Il trouve ensuite de nouvelles références dans le signal audio lui-même. Ainsi, une distance locale est déterminée pour chaque son percussif avec chaque note de la partition. Cette distance est fournie à l'algorithme d'alignement (Dynamic Time Warping) qui la combine avec la distance calculée pour les sons harmoniques.

Responsable : X. Rodet.

Participant : J. Escribe, F. Soulez (stage), S. Durigon (stage).

Collaboration interne : D. Schwarz (équipe Applications Temps-Réel), N. Donin (Equipe Formulation du Musical)

Modèles d'instruments pour la transcription et la séparation d'enregistrements musicaux

Ce travail a pour but d'extraire dans un enregistrement musical polyphonique monocapteur ou multicapteur la partie jouée par chaque instrument, sous forme de partition ou sous forme sonore. E. Vincent a poursuivi son travail sur un modèle d'instrument basé sur la modélisation de Markov cachée (HMM) et l'analyse en sous-espaces indépendants (ISA). Les applications étudiées ont été la transcription et la séparation d'enregistrements mono et stéréo de 2 ou 3 instruments réalisés par mélange instantané artificiel, connaissant les instruments présents. L'utilisation d'enregistrements plus réalistes (par exemple des pistes de CD stéréo ou des enregistrements multipistes en salle) ainsi que la reconnaissance d'instruments sont actuellement à l'étude [Vincent03a], [Vincent03b].

L'Action Jeunes Chercheurs du GdR ISIS qui avait débuté en mars 2002 avec l'IRISA et l'IRCCyN s'est achevée en novembre 2003 [Gribonval03a]. Les résultats de l'Action (rapport final, routines MATLAB, base de données d'évaluation) sont disponibles sur :

http://www.ircam.fr/anasyn/ISIS/

Responsable : X. Rodet.

Participant : E. Vincent (thèse Paris VI)

Collaborations internes : A. Livshin (thèse), C. Yeh (thèse).

Collaborations externes : R. Gribonval (METISS, IRISA Rennes), C. Févotte (ADTS, IRcCYN Nantes).

Traitement par le contenu et multimédia

Depuis plusieurs années, les applications dites de traitement par le contenu connaissent un intérêt croissant, tant dans les recherches que dans les applications. C'est le cas dans le standard MPEG-7 auquel l'Ircam participe avec plusieurs de ses équipes. Les travaux de l'équipe partent de l'analyse du signal audio pour en extraire des informations de tous types, comme la structure d'une oeuvre, l'existence de plusieurs sources sonores, la nature des instruments et les détails de l'interprétation. Il faut noter que ces travaux permettent en particulier de développer des outils d'aide à l'analyse musicale. Enfin, dans les programmes multimédias, les travaux commencent à traiter ensemble les différentes modalités, le son comme l'image et le texte.

Descripteurs et applications pour le Traitement par le Contenu

Caractérisation des sons

L'étude de la caractérisation des sons afin d'en permettre la recherche par similarité et la classification automatique a été poursuivie en 2003 [Herrera03a]. Un ensemble final de descripteurs audio est constitué (69 familles de descripteurs donnant un total de 513 descripteurs). L'extraction automatique des descripteurs est scindée en deux modules distincts : 1) extraction de descripteurs instantanés, 2) modélisation temporelle des descripteurs instantanés (PeetersCUIDADO03). Le portage des modules en C/C++ a été effectué sous forme de librairie dynamique. De nouveaux algorithmes de classification ont été étudiés afin d'améliorer les performances globales du système. En particulier, un nouvel algorithme très performant permettant la sélection automatique des descripteurs pour une taxonomie de classe donnée a été proposée (Inertia Ratio Maximization with Feature Space Projection). Plusieurs nouveaux algorithmes de classification ont été développés (classification hiérarchique gaussienne ou hiérarchique KNN, arbre de décision) et testés. Les performances globales du système ont été testées sur une large base de donnée (4500 sons, 27 instruments). Les performances obtenues sont supérieures à l'état de l'art actuel [Peeters03c], [Peeters03b]. Les modules de classification (apprentissage/évaluation) ont été portés en C/C++ pour intégration dans la Sound Palette Online de CUIDADO.

Responsable: G. Peeters.

Participants : G. Peeters, J. Escribe, P. Tisserand, N. Sursock (stage).

Collaborations extérieures : S. Dubnov (Université de Jérusalem), UPF Barcelone.

Description des sons abstraits : morphologies

Une catégorie de sons reçoit une attention particulière, les sons abstraits, décrits par leurs profils dynamiques, mélodiques et itératifs. Cette étude a été faite en collaboration avec E. Deruty (équipe Design Sonore). L'étude a porté sur la description de ces profils directement à partir de l'analyse du signal, sur leur classification automatique en familles de profils et sur la recherche par similarité de profil [Peeters03].

Responsable: G. Peeters.

Participant : G. Peeters.

Collaborations internes : V. Rioux (Equipe PCM), E. Deruty (Equipe Design Sonore).

Résumés musicaux visuels et sonores : approche par séquence

L'estimation de la structure d'oeuvres musicales à partir du signal a été étudiée en 2003 suivant l'approche dite " par séquences ", c'est-à-dire par recherche de répétitions de successions d'événements au cours du temps (en 2002, une étude avait porté sur une représentation " par états "). L'approche par séquence est particulièrement appropriée pour la détection de mélodies ou de phrases musicales répétées d'un morceau [Peeters03a], [Peeters03d], [Peeters03e]. Pour cela, deux nouveaux algorithmes sont proposés : 1) pour la détection des diagonales (répétitions) de la matrice de similarité (filtrage structurant 2D) 2) pour la combinaison des diagonales (répétitions) afin de former les séquences-mères. Comme l'approche par état, l'approche par séquence donne lieu à une représentation visuelle (piano-roll) et une représentation sonore (résumé sonore).

Responsable: G. Peeters.

Participants : G. Peeters

Reconnaissance des instruments et indexation des enregistrements

Le travail de Geoffroy Peeters en 2002 sur la reconnaissance des instruments a été poursuivi pendant 2003. Différents algorithmes de classification ont été comparés [Livshin03b].

D'autres algorithmes ont été développés pour évaluer les propriétés des bases de données, en particulier pour détecter et enlever les échantillons trop excentriques par rapport à la distribution de leur classe. Un nouvel algorithme de sélection de descripteurs a été mis au point. Enfin une comparaison a été effectuée de différentes techniques d'évaluation des méthodes de classification [Livshin03b]. Dans la première partie de l'année, l'étude a porté sur la classification automatique des instruments dans les bases de données de notes musicales isolées (en particulier la base Studio En Ligne de l'Ircam). Un des principaux résultats est que les bases généralement disponibles ne couvrent qu'une très petite portion des enregistrements de notes possibles pour un instrument. Pour y remédier, il faut compiler de nombreuses bases d'origines aussi variées que possible [Livshin03a]. La première partie de l'année, a été consacrée à la reconnaissance dans des enregistrements musicaux réels, en se limitant au début à des enregistrements solos. Des résultats très intéressants ont été obtenus qui permettent d'aborder avec confiance le véritable problème, c'est-à-dire la reconnaissance des instruments (indexation) dans les enregistrements polyphoniques.

Responsable : X. Rodet.

Participants : G. Peeters, A. Livshin (thèse).

Collaborations internes : E. Vincent (thèse).

Collaboration multimodale pour l'indexation

Le but de cette thèse est de comprendre les mécanismes qui relient les informations contenues dans les différents médias d'un document multimédia. Dans le contexte d'une base de données multimédia, on cherche à caractériser ces relations de façon à permettre l'indexation et la recherche des contenus par la fusion d'informations multicritères fondées sur le son, le texte et l'image.

Nous avons créé avec le CEA un système de segmentation temps réel des documents multimédia. Ce système a été testé et il est en cours d'implantation en C++.
- Nous avons réalisé une étude approfondie des systèmes de segmentation sémantique et hiérarchique de l'audio. Ce qui a abouti a une classification et description intéressante du contenu audio.
- Nous avons appliqué cette étude à la mise en place d'un système de classification de journaux télévisés prenant en compte la multimodalité des documents. (Tests en cours)
- Nous avons commencé en collaboration avec le CEA un système multimédia de reconnaissance du locuteur pour des video-conférences.
- Nous réfléchissons en ce moment à un système de classification et de segmentation multimédia interagissant avec l'utilisateur.

Responsable : X. Rodet.

Participants : B. Delezoide (thèse).

Collaborations extérieures : C.Flhur (CEA), P.Hede (CEA).

PHASE, Plateforme Haptique d'Application Sonore pour l'Éveil musical

PHASE est un projet RIAM 2003-2004, auquel collaborent l'Ircam, le CEA, Haption et Ondim. Il s'agit d'un projet de recherche, à la fois scientifique et musicale, associé à une production, puisqu'une installation sera présentée au grand public au Centre Pompidou en septembre 2004. L'objectif du projet est de réaliser un système multimodal de génération sonore et musicale utilisant la capture du geste en entrée ainsi que des retours haptiques et visuels. Le terme haptique désigne le retour tactile et le retour en effort. Ces deux sensations sont importantes pour le contrôle le geste. La multiplicité des voies de recherche dans ce domaine relativement nouveau, associé à la multiplicité des intervenants et de leur culture (musiciens, pédagogues, ergonomes, plasticiens, informaticiens, automaticiens, mécaniciens, etc.) a nécessité une forte prise en compte du caractère exploratoire du projet pour organiser le travail. Deux aspects sont mêlés dans PHASE : la recherche de modalités d'interactions et la réalisation du système permettant ces interactions, dans un contexte expérimental dans un premier temps, puis de production par la suite. La date butoir de la présentation au grand public est aussi une contrainte importante. La recherche porte sur les modalités d'interaction permettant des manipulations sonores et musicales à partir du geste. Appelées métaphores, elles décrivent les liens entre le monde réel et le monde virtuel. L'Ircam s'occupe de la définition des métaphores, ce qui implique des travaux dans plusieurs domaines. Afin d'effectuer les recherches sur le geste et notamment l'extraction de paramètres caractéristiques, différents outils ont été développés sous la forme de modules intégrables : interface générique de matériel (tablette Wacom, souris, bras haptique), enregistrement et analyse en temps réel (MAX/MSP) ou hors temps (Matlab). Une grande partie du travail concerne la recherche de correspondances entre les différents paramètres de haut niveau des différentes modalités (mapping multimodal) : le geste, mais également les objets des environnements physique, musical, sonore et visuel ; le tout dans un objectif d'interaction dynamique. L'absence d'approche universelle nous a contraint à des réalisations dans différents contextes, avec un objectif de généralisation des interfaces et de leurs méthodes de construction. Concernant l'éveil musical, différents mécanismes de découverte et de reconnaissance sont mis en jeu, notamment par une forte corrélation entre le son produit et le geste effectué, avec le but de focaliser l'attention sur l'écoute. Plusieurs modules de manipulation en temps réel ont été réalisés : manipulation de structures musicales, navigation sonore, traitements et générations de sons. Parmi les différentes réalisations, on peut citer la métaphore de la tête de lecture permettant de rejouer une musique précédemment enregistrée dans l'espace de manipulation par une tête d'enregistrement. Les technologies utilisées n'étant pas encore matures, les développements applicatifs et les expérimentations sont particulièrement difficiles. Le système est développé de manière modulaire et évolutive pour permettre l'expérimentation lors même de sa construction. Les métaphores développées sont implantées dans différents moteurs temps réel standards (MAX/MSP pour l'audio, Vortex pour la physique, Virtools pour les comportements et les images). L'Ircam s'occupe également de la définition des protocoles de communication (utilisant le standard OSC sur UDP) ainsi que des réalisations dans le moteur sonore. Enfin l'Ircam conçoit et développe le scénario du jeu qui sera présenté au public dans l'exposition en Septembre 2004.

Responsable : X. Rodet.

Participants : J.P. Lambert, R. Cahen (compositeur), R. Kronenberg (assistant musical), F. Guédy (responsable de la pédagogie), C. Le Prado (compositeur, pour la spatialisation), T. Gaudy (stage), D. Hart (stage).

Collaborations internes : équipe Logiciel Libre et Ingénierie Logicielle, équipe Applications Temps Réel, équipe Acoustique des Salles, Département Production.

Collaborations extérieures : Ondim (PME spécialisée dans les interfaces multisensorielles, chargée dans le projet PHASE la partie visuelle, de la coordination, de l'architecture et de l'intégration), CEA-LIST (centre de recherche technologique, service robotique et systèmes interactifs, recherche sur l'interface haptique), Haption (PME réalisant et industrialisant des interfaces haptiques), CNAM-CEDRIC (centre de recherche en informatique), Atelier des Feuillantines.

Modèles physiques de production sonore et inversion de modèles

Les modèles physiques sont des modèles du fonctionnement des instruments avec toutes leurs composantes qui contribuent à l'oscillation et finalement à l'onde sonore transmise dans l'air environnant. Ces modèles sont considérés comme ayant un grand avenir mais pour cela il faut que leur contrôle soit facilité par des méthodes dites d'inversion ou d'estimation de paramètres, qui sont l'équivalent des méthodes d'analyse dans le cas des modèles de signaux. Parmi les instruments qui nécessitent encore le plus de recherches dans ce domaine avant qu'un modèle puisse être appliqué en création musicale, se trouvent la famille des hautbois, caractérisés par une anche double et un corps conique.

Etude des écoulements dans les instruments à anche double

Le travail de thèse de André Almeida porte sur la description physique du fonctionnement des instruments à anche double. En particulier, une explication est recherchée de la différence de fonctionnement de ces instruments par rapport aux instruments à anche simple. A la fin de ce travail, on espère pouvoir aboutir à un nouveau modèle physique pour les anches doubles pouvant être utilisé dans la synthèse sonore.A la fin de l'année de 2002, un modèle d'instrument à anche, utilisable en temps réel, avait été implémenté en "pd" et en "jMax". Les hypothèses théoriques d'existence d'une perte de charge importante dans l'anche ont été incluses dans la simulation de façon à tester son effet sur le son produit. En 2003, ce modèle à été perfectionné pour mieux s'adapter à l'étude des effets sur la simulation des résultats obtenus précédemment dans des expériences. Il y a été inclus un modèle de résonateur conique moins coûteux en mémoire et en temps de calcul que les modèles existants dans la littérature. Quelques perfectionnements ont aussi été réalisés sur le schéma d'intégration numérique, de façon à rendre la simulation plus performante. Néanmoins l'étude de stabilité et de précision n'est pas encore complète.

Fondée sur une expérience similaire pour la clarinette, une expérience de mesure de la caractéristique de l'anche double a été mise en oeuvre. Il s'agit de mesurer en régime statique simultanément la différence de pression entre la bouche et l'anche et le débit d'air qui s'écoule à l'intérieur. Celui-ci est déduit de la chute de pression due au passage de l'air par un diaphragme calibré. Simultanément, on a utilisé la méthode d'analyse d'images développée en 2002 pour mesurer la raideur de l'anche en l'absence d'écoulement, ce qui fournit un paramètre important pour le modèle numérique. Des conclusions importantes sur la déviation de l'anche réelle par rapport à ce modèle statique d'anche ont aussi été obtenues, en particulier sur les effets de visco-élasticité de l'anche [Almeida04a], [A lmeida04b], [Vergez02c].

Responsable : X. Rodet.

Participants : A. Almeida (thèse)

Collaboration interne : Equipe Acoustique Instrumentale (R. Causse), Atelier Mécanique (A. Terrier).

Collaborations extérieures : Laboratoire de Mécanique et Acoustique, CNRS - Marseille (C Vergez, Laboratoire d'Acoustique de l'Université du Maine (J. Gilbert et J. P. Dalmont) Laboratoire d'Acoustique Musicale, Paris (B. Fabre).

Inversion et estimation de paramètres
A partir d'un enregistrement d'un instrument, il s'agit d'estimer les paramètres de jeu d'un modèle, afin que la production du modèle soit la plus proche possible de l'enregistrement. Pour cela, une large base de données des différentes productions du modèle est constituée, pour servir à la technique dite d'apprentissage par table. La méthode a été appliquée à un modèle de trompette sur lequel des contraintes physiques ont été imposées pour résoudre le problème des solutions multiples. Ce travail de thèse a été poursuivi pendant l'année 2003 dans différentes directions :

Une nouvelle methode d'estimation qui tient compte ou couplage entre les parametres [Dhaes03a]
Etude de critères de similarité entre sons, tenant compte de leur type (transitoire, stable, ...).
Amélioration des descripteurs acoustiques [Dhaes03b].

Enfin un algorithme d'analyse sinusoidale très optimisé a été développé. Les méthodes qui estiment N sinusoides l'une après l'autre ont une complexité en O(N log(N)). Ceux qui estiment les amplitudes globalement sont en principes plus capables de résoudre les sinusoides de fréquences très proches mais ont une complexité qui croit comme le cube de N. Le nouvel algorithme utilise une fenêtre à bande étroite en fréquence, ce qui limite les calculs à cette région. Le calcul s'effectue donc sur une matrice bande-diagonale et la complexité est réduite en conséquence à O(N log(N)) [Dhaes03a], [Dhaes03b], [Dhaes04a].

Responsable : X. Rodet.

Participant : W.D'Haes (thèse).

Collaboration extérieure : D. Van Dyck (Université d'Anvers).

Développements Logiciel SuperVP

Le développement du logiciel SuperVP a été très poussé dans la ligne du développement du logiciel AudioSculpt. Les travaux ont été concentrés sur :

L'implémentation de l'algorithme de détection et préservation des transitoires,
La sortie des résultats de l'analyse en SDIF (spectre, marque transitoire, F0),
L'amélioration des traitements des fichiers multicanaux,
La sortie des résultats en temps réel sur la carte son,
Le développement d'un algorithme pour le débruitage,
Le traitement " sur place " (en mémoire disque),
l'amélioration des traitements dans le domaine temporel,
La ré-implémentation de la lecture des sons.

Responsable : A. Roebel.

Collaboration interne : N. Bogaards.

Collaboration extérieure : A. Lithaud (béta testeur).

Logiciel AudioSculpt

Un nouveau développement a commencé à la fin de l'année 2003 dans le but d'obtenir en fin 2004 une version considérée comme finalisée. Les principaux travaux en 2003 ont porté sur :

Mise du logiciel et de ses librairies sous CVS,
Mise à jour de l'environnement de développement,
Correction de l'affichage du son et sonagramme,
Correction de l'écoute des sons,
L'affichage des sons stéréos.

Responsable : X. Rodet.

Participant : N. Bogaards.

Collaboration interne : A. Roebel.

Collaboration extérieure : A. Lithaud (béta testeur).

Logiciel Diphone Studio

Le logiciel Diphone Studio a été porté sous Mac OS-X par N. Ellis. Par la même occasion, le plugin PSOLA développé par D. Tardieu dans le moteur de calcul, a été porté dans l'interface graphique et quelques bugs ont été corrigés. N. Ellis a aussi traduit de Matlab en en C++ l'algorithme de synthèse PSOLA de D. Tardieu [Tardieu03a].

Responsable : X. Rodet.

Participant : N. Ellis.

Collaborations internes : N. Bogaards, D. Tardieu (stage).

Autres Développements

Easdif : Premier mise à disposition de la bibliothèque sous licence libre sur le site Web de l'Ircam.

Psola Analyse: implémentation de l'algorithme développé pendant la thèse de G. Peeters fondé sur la bibliothèque MatMTL, première mise à disposition au Forum du printemps 2003.

MatMTL : ajout de fonctionnalités comme vecteur booléen, fonctions FFT et LPC compatibles avec Matlab, etc.

ReadSnd : nouvelle bibliothèque pour la lecture des fichiers son.

Maintenance : des logiciels Pm, Pm2, additive, xspect, etc.

Responsable : A. Roebel.

Participant : A. Roebel, J. Escribe.

Collaborations internes : D. Schwarz, P. Tisserand.

Librairies LibCUIDADOextraction et LibCUIDADOclassification

Responsable : G. Peeters.

Participant : G. Peeters, P. Tisserand, N. Sursock (stage).

Collaborations internes : D. Schwarz, P. Tisserand.

Publications et communications Articles parus dans des revues à comité de lecture

[Herrera03b] Herrera, P., Peeters, G., Dubnov, S., " Automatic Classification of Musical Instrument Sounds ", Journal of New Musical Research, Mars 2003, vol. 32, n° 1, pp. 3-21

Actes de congrès avec comité de lecture

[Dhaes03a] D'haes, W., Rodet, X., " A new estimation technique for Determining the Control Parameters of a Physical Model of a Trumpet ", 6 th International Conference on Digital Audio Effects (DAFx-03), 2003

[Dhaes03b] D'haes, W., Rodet, X., " Discrete Cepstrum Coefficients as Perceptual Features ", International Computer Music Conference (ICMC), Singapore, 2003

[Dhaes04a] D'haes, W., " A HIGHLY OPTIMIZED METHOD FOR COMPUTING AMPLITUDES OVER A WINDOWED SHORT TIME SIGNAL : FROM O ( K 2 N ) TO O ( N log( N )) ", IEEE Signal Processing Symposium (SPS), Hilvarenbeek, the Netherlands, april 15-16, 2004.

[Dhaes04b] D'haes, W., " A HIGHLY OPTIMIZED NONLINEAR LEAST SQUARES TECHNIQUE FOR SINUSOIDAL ANALYSIS : FROM O ( K 2 N ) TO O ( N log( N )) ", 116th Audio Engineering Society Convention (AES), Berlin Germany, may 8-11, 2004.

[Girin03a] Girin, L., Marchand, S., di Martino, J., Roebel, A., Peeters, G., " Comparing the order of a polynomial phase model for the synthesis of quasi harmonic audio signals ", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, 2003

[Gribonval03a] Gribonval, R., Benaroya, L., Vincent, E., Févotte, C., " Proposals for performance measurement in source separation ", 4th Symposium on Independent Component Analysis and Blind Source Separation (ICA 2003), Nara, 2003, pp. 763-768

[Livshin03a] Livshin, A., Rodex, X., " The Importance of Cross Database Evaluation in Sound Classification ", ISMIR 2003, Baltimore, 2003

[Livshin03b] Livshin, A., Peeters, G., Rodet, X., " Studies and Improvements in Automatic Classification of Musical Sound Samples ", ICMC 2003, Singapour, 2003

[Peeters03a] Peeters, G., Rodet, X., " Deriving Musical Structures from Signal Analysis for Audio Summary Generation: "Sequence" and "State" approach ", CMMR, Montpellier, 2003

[Peeters03b] Peeters, G., " Automatic Classification of Large Musical Instrument Databases Using Hierachical Classifiers with Inertia Ratio Maximization ", AES 115th Convention, New-York, 2003

[Peeters03c] Peeters, G., Rodet, X., " Hierarchical Gaussian Tree with Inertia Ratio Maximization for the Classification of Large Musical Instrument Databases ", DAFX, London, 2003

[Peeters03d] Peeters, G., Rodet, X., " Music Structure Discovering Using Dynamic Features for Audio Summary Generation: "Sequence" and "State" approach ", CBMI (Content Based Multimedia Indexing), vol. 1, Rennes, 2003, pp. 207-214

[Peeters03e] Peeters, G., Rodet, X., " Signal-based Music Structure Discovery for Audio Summary Generation ", ICMC (International Computer Music Conference), Singapore, 2003

[Roebel03a] Roebel, A., " A new approach to transient processing in the phase vocoder ", 6th International Conference on Digital Audio Effects (DAFx), London, 2003, pp. 344-349

[Roebel03b] Roebel, A., " Transient detection and preservation in the phase vocoder ", International Computer Music Conference (ICMC), Singapore, 2003, pp. 247-250

[Schwarz03a] Schwarz, D., " The Caterpillar System for Data-Driven Concatenative Sound Synthesis ", Digital Audio Effects (DAFx), London, 2003, pp. 135-140

[Schwarz03b] Schwarz, D., " New Developments in Data-Driven Concatenative Sound Synthesis ", International Computer Music Conference (ICMC), Singapore, 2003, pp. 443-446

[Soulez03a] Soulez, F., Rodet, X., Schwarz, D., " Improving Polyphonic and Poly-Instrumental Music to Score Alignment ", International Symposium on Music Information Retrieval (ISMIR), Baltimore, 2003

[Vincent03a] Vincent, E., Févotte, C., Gribonval, R., Rodet, X., Röbel, A., " A tentative typology of audio source separation tasks ", 4th Symposium on Independent Component Analysis and Blind Source Separation (ICA 2003), Nara, 2003, pp. 715-720

[Vincent03b] Vincent, E., Févotte, C., Gribonval, R., " Comment évaluer les algorithmes de séparation de sources audio ? ", 19th GRETSI Symposium on Signal and Image Processing (GRETSI 2003), special session on Applications in Source Separation, Paris, 2003

Travaux universitaires

[Denis03a] Denis, G., " Transformation de l'identité d'une voix ", Université Paris-6, 2003

[Durigon03a] Durigon, S., " Détection automatique du tempo et des évènements percussifs dans les signaux polyphoniques ", Ecole Française d'Electronique et d'Informatique, 2003

[Karki03a] Karki, O., " "Système Talkapillar" ", Ecole Française d'Electronique et d'Informatique, 2003

[Krauledat03a] Krauledat, M., " Fundamental Frequency Estimation ", université "Westfälische Wilhelmsuniversität Münster", 2003

[Schwarz04a] Schwarz Diemo, Data-Driven Concatenative Sound Synthesis. Thèse enInformatique. Paris : Université Paris 6 - Pierre et Marie Curie, 2004.

[Soulez03b] Soulez, F., " Alignement automatique de partitions ", Ecole Chimie, Physique, Electronique Lyon, 2003

[Sursock03a] Sursock, N., " Extraction de Descripteurs et Classification des Sons ", EFREI, 2003. [Ingénieur 3em année]

[Tardieu03a] Tardieu, D., " Synthèse par concaténation de segments PSOLA dans Diphone Studio ", EPFL, 2003. [Ingénieur]

[Yeh03a] Yeh, C., " Multiple fundamental frequency estimation ", Université Paris-6, 2003

Rapports de recherche

[Zivanovic03a] Zivanovic, M., Roebel, A., Rodet, X., " A NEW APPROACH TO SPECTRAL PEAK CLASSIFICATION ", IRCAM, 2003

Conférences invitées

X. Rodet : Conférence à la semaine du son, "Synthèse vocale", Janvier 2003

X. Rodet : Conférence au SATS, "Transformation de la Voix", Octobre 2003

X. Rodet : Conférence au journées Danse et nouvelles technologies, "Traitement de la Voix", Octobre 2003

Diffusion de connaissances

A. Almeida : Participation à l'article (Modélisation: Des instruments génétiquementmodifiés, Christophe Blanc) dans Sciences et Avenir, Septembre 2003

Colloques et séminaires

A. Almeida : Organization des Journées Jeunes Chercheurs en Acoustique Musicale, Audition et Signal Audio (JJCAAS) à l'Ecole Nationale Supérieure des Telecomunications à Paris.

A. Almeida : Co-organisation de JJCAAS'03 (Paris, octobre 2003)

Jurys de thèses

X. Rodet : Président du jury de thèse de J. Rozier, ENST (Décembre)

X. Rodet : Membre du jury de thèse de P. Hanna, LABRI, Bordeaux (Décembre)

Emissions radiophoniques et télévisées, entretiens journalistiques, animations

X. Rodet : Interview pour lejournal Le Point (Février)

X. Rodet : Interview avec Didier Péron, du journal Libération pour Tiresia et autres films (Octobre)