Responsable : Xavier Rodet
Léquipe Analyse-Synthèse étudie le signal audio-numérique, soit pour en extraire tout type dinformation, soit pour le construire afin dobtenir certaines propriétés sonores et musicales, soit pour le transformer en fonction de besoins compositionnels, sans oublier des applications dans dautres domaines comme le cinéma, le multimédia, la téléphonie ou même des domaines industriels. Lun des aspects qui connaît le plus grand développement est celui du traitement par le contenu qui cherche à trouver automatiquement des caractéristiques des uvres audio, telles que la hauteur, les instruments, les styles, etc.ne nouvelle direction de recherche souvre également dans lanalyse musicale, comme aide à la musicologie et à la composition, avec des travaux sur lanalyse de voix de chur, la détection de structures à partir de l'audio et lalignement dune partition avec le signal audio. Dans le domaine des modèles physiques, leffort porte sur linversion et sur de nouvelles familles dinstruments. Enfin les travaux de développement sont marqués par la nouvelle version dAudioSculpt désormais distribuée dans le Forum et sur Mac OS-X
Modèles d'analyse et de synthèse du signal audioLes méthodes danalyse-synthèse du signal audio passent par une représentation dans un modèle et en termes de paramètres parfois appelés descripteurs lorsque la tâche est de type caractérisation, reconnaissance ou navigation. Les modèles étudiés dans léquipe reposent en général sur une transformation dans le domaine fréquentiel : transformée de Fourier à court terme et à fenêtre glissante pour le vocodeur de phase, et somme de sinusoïdes variables dans le temps auquel sajoute un résiduel non sinusoïdal pour le modèle dit sinusoïdal additif. Mais, dans la réalisation effective de la synthèse, les programmes de contrôle sont au moins aussi importants. Dans ce domaine, les outils existants restent largement en deçà de lattente des utilisateurs musiciens, compositeurs et traiteurs de son en général. Ainsi notre effort porte-t-il aussi sur de nouvelles façon denvisager la synthèse, telle que la méthode dite par sélection dunités. Dans cette méthode comme dans de nombreux autres travaux, il apparaît que la disponibilité de larges bases de données est une nécessité absolue damélioration des résultats et cest pourquoi ces bases de données sont au cur de nombre de nos travaux.
Synthèse par modèle additif et vocodeur de phaseLe modèle sinusoïdal additif plus résiduel est utilisé sous plusieurs formes, développées par léquipe A-S, dans la recherche et dans la production musicale. En particulier, cette méthode est implantée dans les logiciels de Diphone Studio, et pour un modèle de synthèse dorgue. Lautre modèle danalyse du signal couramment utilisé par les musiciens est le vocodeur de phase, en particulier le logiciel Super VP mis au point depuis plusieurs années. Ces modèles sont en constante optimisation et améliorations, dautant quils sont mis en uvre dans les logiciels du Forum des utilisateurs de lIrcam.
L'analyse-synthèse par le modèle sinusoïdal additif plus résiduel est utilisé avec succès en recherche et en production musicale. Cependant certaines limitations en restreignent encore l'application. Premier cas, la présence extrêmement fréquente de plusieurs fréquences fondamentales rend nécessaire leur estimation, d'autant que cette estimation est utile dans de nombreux autres contextes. De même une bonne séparation des composantes sinusoïdales et non-sinusoïdales (résiduel) est tout aussi nécessaire. Pour les modèles de la parole, une implémentation de la méthode shape invariant a été étudiée en 2002 et plusieurs pistes doivent être poursuivies pour optimiser la qualité de lalgorithme.
Participants : A. Roebel, M. Zivanovic (Post-Doc), étudiant (stage)
Collaborations extérieures : A. Carlosena (Université Publique de Navarre, Espagne)
Le modèle vocodeur de phase utilisé dans loutil Super VP de léquipe reflète létat de lart avec une seule exception qui est le traitement des transitoires. Ce sujet avait été proposé déjà pour 2002 mais na pas été commencé faute de temps. Par ailleurs un problème fondamental reste le traitement de la parole car le modèle shape invariant est difficile à implémenter en vocodeur de phase.
Participants : A. Roebel
En 2002, un modèle d'orgue a été développé en modèle sinusoïdal additif plus résiduel dans un contrat avec le Palais des Beaux Arts de Bruxelles. Si un financement est trouvé, ce projet très intéressant sera poursuivi en 2003 dans deux directions principales :
Participants : V. Rioux
Collaborations extérieures : J. Verdin (PBA de Bruxelles)
La synthèse par sélection d'unités consiste à choisir dans une large base de données les unités sonores les plus appropriées pour construire, par concaténation et modification, la phrase musicale à produire. La thèse de D. Schwarz doit se terminer sur ce sujet en 2003. Une application en voix parlée est aussi envisagée dans le cadre d'un projet de reconstitution de la voix d'un locuteur disparu.
Participants : D. Schwarz (thèse), F. Soulez (stage)
Le projet PHASE (Plate-Forme Haptique d'Aide à la Synthèse et à l'Eveil musical) a été labellisé par le réseau RIAM. Cette plate-forme interactive de synthèse musicale comprend un contrôle haptique, un aide graphique et un système de synthèse musicale de haute qualité dans un environnement tel que jMax (collaboration avec les équipes Applications Temps-Réel et Logiciels Libres). Il est destiné à l'éveil musical de l'utilisateur par la focalisation sur l'écoute, le jeu d'un instrument élaboré et la navigation dans des scénarios musicaux interactifs.
Participants : X. Rodet, un chercheur, un compositeur, un spécialiste jeux vidéos, un pédagogue
Collaborations extérieures :
R. Gelin (Société CEA) F. LOUVEAU (Société Haption), P. Mobuchon (Société Ondim)
Traitement de la voix
Le traitement de la voix est étudié dans léquipe Analyse-Synthèse depuis de nombreuses années et de nombreuses demandes se font jour pour la publicité ou le cinéma par exemple. En voix parlée, lexpérience accumulée avec en particulier le film Vatel sera poursuivi vers la synthèse complète ou la transformation (post-processing). En voix chanté, une nouvelle direction est ouverte vers lanalyse et la synthèse de churs qui ont été relativement peu étudiés dans le passé.
Ce projet a pour but la reconstitution de la voix d'un locuteur disparu. Un modèle de la voix sera construit par apprentissage sur une base de données d'enregistrements du locuteur ciblé. Tout texte pourra alors être lu par ce modèle comme si le locuteur l'avait prononcé.
Participants : X. Rodet, G. Peeters, A. Roebel, D. Schwarz, F. Soulez, deux chercheurs, deux étudiants (stage)
Les travaux d'analyse de voix de churs que nous avons menés en 2002 avec L. Fagnan ont fourni des résultats très intéressants sur la pédagogie et les paramètres physiques du chant choral. Cette recherche sera poursuivie en 2003 si L. Fagnan peut revenir à l'Ircam pour approfondir les sujets suivants :
Participants : X. Rodet, L. Fagnan (thèse)
Collaborations extérieures : L. Fagnan (Université dAlberta, Edmonton, Canada)
Depuis plusieurs années, les applications dites de traitement par le contenu connaissent un intérêt croissant, tant dans les recherches que dans les applications. Cest le cas dans le standard MPEG-7 auquel lIrcam participe avec plusieurs de ses équipes. Les travaux de léquipe partent de lanalyse du signal audio pour en extraire des informations de tous types, comme la structure dune uvre, lexistence de plusieurs sources sonores, la nature des instruments et les détails de linterprétation. Il faut noter que ces travaux permettent en particulier de développer des outils daide à lanalyse musicale. Enfin, dans les programmes multimédias, les travaux commencent à traiter ensemble les différentes modalités, le son comme limage et le texte.
Dans le projet CUIDADO, l'équipe A-S est chargée plus particulièrement de la mise au point de descripteurs du signal audio et d'applications mettant en uvre ces descripteurs pour la classification de sons et de musique, la recherche d'extraits sonores et la constitution de résumés sonores et iconiques. Les principaux objectifs pour 2003 sont :
Participants : Peeters, Souren (thèse)
Collaborations extérieures : X. Amatriain (UPF), S. Dubnov (Université de Jérusalem), F. Pachet (Sony France)
L'objectif de cette thèse est de détecter des structures musicales dans un enregistrement audio par l'analyse de l'évolution temporelle des propriétés du signal. Parmi les applications, on peut citer un accès facilité au contenu d'une uvre musicale, la construction de résumés sonores ou l'aide à l'analyse musicologique. L'une des voies de recherche consiste à prolonger des résultats de la théorie structurelle de l'information (structural information theory) dans le domaine de la recherche audio. L'évolution des propriétés peut-être représentée sous formes de succession d'états et sous forme de répétition de séquences.
Participants : G. Peeters, K. Souren (thèse)
L'alignement dune partition et de l'audio consiste à déterminer les temps exacts de début et de fin des notes d'une partition dans l'enregistrement audio de cette partition. Cela ouvre la voie à de nombreuses applications telles que la détermination automatique de l'interprétation (musicologie), la constitution de bases de données pour la reconnaissance ou la séparation de sources (Cf. ces projets). Deux techniques sont en développement, le Dynamic Time Warping (DTW) et les Modèles de Markov Cachés (Hidden Markov Models ou HMM).
Participants : D. Schwarz (thèse), F Soulez (stage)
Collaborations extérieures : N. Orio (Université de Padoue)
Séparation de sourcesCe travail a pour but d'extraire dans un enregistrement mono ou stéréo, mélangeant plusieurs instruments, la partie jouée par chaque instrument sous forme de partition ou sous forme sonore. Différentes techniques de traitement statistique du signal sont à l'étude.
Participants : A. Röbel, E. Vincent (thèse), étudiant (stage)
Collaborations extérieures : C. Févotte (IRCCyN Nantes), R. Gribonval (INRIA Rennes)
Ce problème consiste à reconnaître dans un enregistrement musical mono ou stéréo le type de formation instrumentale et si possible le nom exact des instruments jouant les différentes voix. C'est un travail de thèse qui commence en fin d'année 2001.
- Etude de critères ne nécessitant pas la séparation des instruments.
Participants : G. Petters, A. Livshin (thèse), E. Vincent (thèse)
Collaborations extérieures : S. Dubnov (Université de Jérusalem), R. Gribonval (INRIA-Rennes)
Le but de cette thèse est de comprendre les mécanismes qui relient les informations contenues dans les différents médias d'un document multimédia. Dans le contexte d'une base de données multimédia, on cherchera à caractériser ces relations de façon à permettre l'indexation et la recherche des contenus par la fusion d'informations multicritères fondées sur le son, le texte et l'image.
- Elaboration de descripteurs audio, signatures du signal.
- Création d'une base de donnée multimédia.
- Etude des relations entre médias (vidéo, audio...) d'un document.
- Création d'un système de classification prenant en compte la multimodalité des documents.
Participants : B. Delezoide (thèse)
Collaborations extérieures : M. Pic (CEA)
Modèles physiques de production sonoreLes modèles physiques sont des modèles du fonctionnement des instruments avec toutes leurs composantes qui contribuent à loscillation et finalement à londe sonore transmise dans lair environnant. Ces modèles sont considérés comme ayant un grand avenir mais pour cela il faut que leur contrôle soit facilité par des méthodes dites dinversion ou destimation de paramètres, qui sont léquivalent des méthodes danalyse dans le cas des modèles de signaux. Parmi les instruments qui nécessitent encore le plus de recherches dans ce domaine avant quun modèle puisse être appliqué en création musicale, se trouvent la famille des hautbois, caractérisés par une anche double et un corps conique, et la voix humaine en particulier chantée.
Inversion et estimation de paramètresL'une des voies de succès des modèles physiques d'instruments dans les applications est la mise au point de méthodes de contrôle de haut niveau musical. Pour cela, il faut une méthode d'analyse, c'est-à-dire trouver les paramètres de contrôle et leurs évolutions qui permettent de reproduire des enregistrements d'interprètes professionnels. Deux techniques sont à l'étude dans l'équipe.
Le but de cette recherche est la continuation du travail de thèse de T. Hélie sur l'inversion de systèmes dynamiques modèles physiques d'instruments de musique. Ce travail sera mené dans le cade d'un bourse post-doctorale en collaboration avec le laboratoire LTS de l'Ecole Polytechnique Fédérale de Lausanne (EPFL), et avec le Laboratoire de Mécanique et dAcoustique de Marseille (LMA), CNRS. Les principales directions de recherches sont :
A partir d'un enregistrement d'un instrument, il s'agit d'estimer les paramètres de jeu d'un modèle, afin que la production du modèle soit la plus proche possible de lenregistrement. Pour cela, une large base de données des différentes productions du modèle est constituée, pour servir à la technique dite d'apprentissage par table. La méthode a été appliquée à un modèle de trompette sur lequel des contraintes physiques ont été imposées pour résoudre le problème des solutions mutliples. Ce travail de thèse sera poursuivi pendant l'année 2003 dans différentes directions :
Participants : T. Hélie (Post-Doc), W. D'Haes (thèse)
Collaborations extérieures : M. Hasler (Lausanne), R. Kronand-Martinet (LAM), D. Van Dyck (Université d'Anvers)
Les modèles classiques d'instrument à anche ne donnent pas de bons résultats quand appliqués aux anches doubles. Nous cherchons à expliquer la spécificité des anches doubles en introduisant de nouvelles hypothèses sur l'écoulement, en particulier des pertes de charge engendrées par la géométrie de l'anche double. Un premier modèle mathématique a été mis en uvre, permettant de réaliser des simulations numériques. Ce travail, en collaboration avec léquipe Acoustique des Instruments, sera poursuivi sur les points suivants :
Participants : A. Almeida (thèse)
Collaborations extérieures : P. Gougat (LIMSI), C. Vergez (LAM), T. Hélie (EPFL Lausanne)
Le sujet de cette recherche est le développement d'un modèle de production de la parole pouvant être utilisé dans l'analyse et la synthèse articulatoire. L'accent sera mis sur les basses fréquences de l'onde de pression et la dynamique du flot d'air. La recherche sera concentrée sur le chuchotement, et donc seulement les sources acoustiques fricatives et plosives seront explorées.
Participants : J. Niekraz (thèse)
Collaborations extérieures : S. King (université d'Edinburgh), C. Vergez (LMA), T. Hélie (Polytechnique de Lausanne)
Les méthodes danalyse-synthèse élaborées dans léquipe sont peu à peu portées dans des logiciels mis à la disposition des utilisateurs, en interne puis dans le Forum de lIrcam. Lun de ces outils est le vocodeur de phase Super VP, développé simultanément pour Unix et Macintosh. Lautre outil principal, dont Super VP est le moteur de traitement, est une interface graphique interactive pour la plate-forme Macintosh et nommé AudioSculpt. Le développement de la version 2 dAudioSculpt est poursuivi en particulier sur le nouveau système OS-X dApple.
Le logiciel Super VP est un vocodeur de phase très utilisé par les chercheurs et les musiciens. Dans le cadre du projet Mobistation une bibliothèque dynamique de Super VP a été créée, qui, pour le moment, ne supporte pas les sons stéréos. Cette bibliothèque peut être utilisée pour créer des plugins temps-réel de vocodeur de phase. Par ailleurs, un problème pour lutilisation de plusieurs filtres simultanés dans AudioSculpt est quil existe différentes façons de superposer des filtres traitant les mêmes régions temps/fréquence.
Participants : A. Roebel, M. LoCascio
Collaborations extérieures : A. Lithaud (Béta testeur)
Le développement de la nouvelle version (AudioSculpt 2) sera poursuivi en 2002 pour y implanter toutes les fonctionnalités qui étaient ébauchées dans la version 1 et profiter des nouvelles possibilités, en particulier en termes de séquencement, de la version 2 :
Participants : M. LoCascio, A. Roebel
Collaborations extérieures : A. Lithaud (Béta testeur)
Le travail sur l'estimation de fréquence fondamentale mené par A. Roebel et B. Prudham en 2002 a permis d'obtenir un programme d'estimation en MATLAB très performant et bien formalisé. Durant l'année prochaine, ce programme sera optimisé et porté en temps-réel dans jMax en collaboration avec léquipe Applications Temps-Réel. Enfin une version adaptée au cas polyphonique sera mise en chantier avec un stagiaire.
Participants : A. Roebel, un stagiaire