PROJET

Analyse et synthèse des sons

Responsable : Xavier Rodet

L’équipe Analyse-Synthèse étudie le signal audio-numérique, soit pour en extraire tout type d’information, soit pour le construire afin d’obtenir certaines propriétés sonores et musicales, soit pour le transformer en fonction de besoins compositionnels, sans oublier des applications dans d’autres domaines comme le cinéma, le multimédia, la téléphonie ou même des domaines industriels. L’un des aspects qui connaît le plus grand développement est celui du traitement par le contenu qui cherche à trouver automatiquement des caractéristiques des œuvres audio, telles que la hauteur, les instruments, les styles, etc.ne nouvelle direction de recherche s’ouvre également dans l’analyse musicale, comme aide à la musicologie et à la composition, avec des travaux sur l’analyse de voix de chœur, la détection de structures à partir de l'audio et l’alignement d’une partition avec le signal audio. Dans le domaine des modèles physiques, l’effort porte sur l’inversion et sur de nouvelles familles d’instruments. Enfin les travaux de développement sont marqués par la nouvelle version d’AudioSculpt désormais distribuée dans le Forum et sur Mac OS-X

Modèles d'analyse et de synthèse du signal audio

Les méthodes d’analyse-synthèse du signal audio passent par une représentation dans un modèle et en termes de paramètres parfois appelés descripteurs lorsque la tâche est de type caractérisation, reconnaissance ou navigation. Les modèles étudiés dans l’équipe reposent en général sur une transformation dans le domaine fréquentiel : transformée de Fourier à court terme et à fenêtre glissante pour le vocodeur de phase, et somme de sinusoïdes variables dans le temps auquel s’ajoute un résiduel non sinusoïdal pour le modèle dit sinusoïdal additif. Mais, dans la réalisation effective de la synthèse, les programmes de contrôle sont au moins aussi importants. Dans ce domaine, les outils existants restent largement en deçà de l’attente des utilisateurs musiciens, compositeurs et traiteurs de son en général. Ainsi notre effort porte-t-il aussi sur de nouvelles façon d’envisager la synthèse, telle que la méthode dite par sélection d’unités. Dans cette méthode comme dans de nombreux autres travaux, il apparaît que la disponibilité de larges bases de données est une nécessité absolue d’amélioration des résultats et c’est pourquoi ces bases de données sont au cœur de nombre de nos travaux.

Synthèse par modèle additif et vocodeur de phase

Le modèle sinusoïdal additif plus résiduel est utilisé sous plusieurs formes, développées par l’équipe A-S, dans la recherche et dans la production musicale. En particulier, cette méthode est implantée dans les logiciels de Diphone Studio, et pour un modèle de synthèse d’orgue. L’autre modèle d’analyse du signal couramment utilisé par les musiciens est le vocodeur de phase, en particulier le logiciel Super VP mis au point depuis plusieurs années. Ces modèles sont en constante optimisation et améliorations, d’autant qu’ils sont mis en œuvre dans les logiciels du Forum des utilisateurs de l’Ircam.

Modèle additif

L'analyse-synthèse par le modèle sinusoïdal additif plus résiduel est utilisé avec succès en recherche et en production musicale. Cependant certaines limitations en restreignent encore l'application. Premier cas, la présence extrêmement fréquente de plusieurs fréquences fondamentales rend nécessaire leur estimation, d'autant que cette estimation est utile dans de nombreux autres contextes. De même une bonne séparation des composantes sinusoïdales et non-sinusoïdales (résiduel) est tout aussi nécessaire. Pour les modèles de la parole, une implémentation de la méthode shape invariant a été étudiée en 2002 et plusieurs pistes doivent être poursuivies pour optimiser la qualité de l’algorithme.

Estimation de plusieurs fréquences fondamentales simultanées, suite du travail d'estimation fait en 2002 dans l'équipe.

Séparation des composantes sinusoïdales et non-sinusoïdales : comparaison et coopération de plusieurs techniques d'estimation.

Shape invariant : amélioration de la représentation des transitoires et des régions temps/fréquence non sinusoïdales.

Participants : A. Roebel, M. Zivanovic (Post-Doc), étudiant (stage)

Collaborations extérieures : A. Carlosena (Université Publique de Navarre, Espagne)

Vocodeur de phase

Le modèle vocodeur de phase utilisé dans l’outil Super VP de l’équipe reflète l’état de l’art avec une seule exception qui est le traitement des transitoires. Ce sujet avait été proposé déjà pour 2002 mais n’a pas été commencé faute de temps. Par ailleurs un problème fondamental reste le traitement de la parole car le modèle shape invariant est difficile à implémenter en vocodeur de phase.

Etude de différentes possibilités pour conserver les transitoires lors de transformations de signaux avec le vocodeur de phase.

Etude des schémas d’implémentation du modèle shape invariant dans le vocodeur de phase.

Participants : A. Roebel

Modèle d'un orgue

En 2002, un modèle d'orgue a été développé en modèle sinusoïdal additif plus résiduel dans un contrat avec le Palais des Beaux Arts de Bruxelles. Si un financement est trouvé, ce projet très intéressant sera poursuivi en 2003 dans deux directions principales :

Amélioration des composantes aléatoires et transitoires.

Synthèse plus efficace par l'algorithme dit "FFT-1" (collaboration avec l’équipe Applications Temps-Réel).

Participants : V. Rioux

Collaborations extérieures : J. Verdin (PBA de Bruxelles)

Contrôle de la synthèse par sélection d'unités

La synthèse par sélection d'unités consiste à choisir dans une large base de données les unités sonores les plus appropriées pour construire, par concaténation et modification, la phrase musicale à produire. La thèse de D. Schwarz doit se terminer sur ce sujet en 2003. Une application en voix parlée est aussi envisagée dans le cadre d'un projet de reconstitution de la voix d'un locuteur disparu.

Constitution d'une large base de données par alignement de partitions (Cf. le projet Alignement de partition ci-dessous).

Amélioration du système de gestion et de sélection.

Applications musicales.

Application à la voix parlée.

Participants : D. Schwarz (thèse), F. Soulez (stage)

Plate-Forme de synthèse avec contrôle haptique et graphique

Le projet PHASE (Plate-Forme Haptique d'Aide à la Synthèse et à l'Eveil musical) a été labellisé par le réseau RIAM. Cette plate-forme interactive de synthèse musicale comprend un contrôle haptique, un aide graphique et un système de synthèse musicale de haute qualité dans un environnement tel que jMax (collaboration avec les équipes Applications Temps-Réel et Logiciels Libres). Il est destiné à l'éveil musical de l'utilisateur par la focalisation sur l'écoute, le jeu d'un instrument élaboré et la navigation dans des scénarios musicaux interactifs.

Développement d'un système de synthèse.

Ecriture de scénarios par des compositeurs.

Etude du contrôle haptique.

Etude des moyens graphiques d'aide à la navigation.

Participants : X. Rodet, un chercheur, un compositeur, un spécialiste jeux vidéos, un pédagogue

Collaborations extérieures :

R. Gelin (Société CEA) F. LOUVEAU (Société Haption), P. Mobuchon (Société Ondim)

Traitement de la voix

Le traitement de la voix est étudié dans l’équipe Analyse-Synthèse depuis de nombreuses années et de nombreuses demandes se font jour pour la publicité ou le cinéma par exemple. En voix parlée, l’expérience accumulée avec en particulier le film Vatel sera poursuivi vers la synthèse complète ou la transformation (post-processing). En voix chanté, une nouvelle direction est ouverte vers l’analyse et la synthèse de chœurs qui ont été relativement peu étudiés dans le passé.

Reconstitution d'une voix parlée

Ce projet a pour but la reconstitution de la voix d'un locuteur disparu. Un modèle de la voix sera construit par apprentissage sur une base de données d'enregistrements du locuteur ciblé. Tout texte pourra alors être lu par ce modèle comme si le locuteur l'avait prononcé.

Amélioration du modèle de synthèse PSOLA et de la sélection d'unités (Cf. paragraphe synthèse par sélection d'unités).

Création et indexation d'une grande base de données de voix parlée.

Ecriture des programmes d'apprentissage.

Développement des programmes de synthèse.

Participants : X. Rodet, G. Peeters, A. Roebel, D. Schwarz, F. Soulez, deux chercheurs, deux étudiants (stage)

Analyse de voix de chœurs

Les travaux d'analyse de voix de chœurs que nous avons menés en 2002 avec L. Fagnan ont fourni des résultats très intéressants sur la pédagogie et les paramètres physiques du chant choral. Cette recherche sera poursuivie en 2003 si L. Fagnan peut revenir à l'Ircam pour approfondir les sujets suivants :

Estimation de la hauteur (fréquence fondamentale), notamment en présence de vibrato, dans le cas d'enregistrements de chœurs.

Etude du timbre des chanteurs dans le chant choral en liaison avec sa pédagogie.

Participants : X. Rodet, L. Fagnan (thèse)

Collaborations extérieures : L. Fagnan (Université d’Alberta, Edmonton, Canada)

Traitement par le contenu et multimédia

Depuis plusieurs années, les applications dites de traitement par le contenu connaissent un intérêt croissant, tant dans les recherches que dans les applications. C’est le cas dans le standard MPEG-7 auquel l’Ircam participe avec plusieurs de ses équipes. Les travaux de l’équipe partent de l’analyse du signal audio pour en extraire des informations de tous types, comme la structure d’une œuvre, l’existence de plusieurs sources sonores, la nature des instruments et les détails de l’interprétation. Il faut noter que ces travaux permettent en particulier de développer des outils d’aide à l’analyse musicale. Enfin, dans les programmes multimédias, les travaux commencent à traiter ensemble les différentes modalités, le son comme l’image et le texte.

Descripteurs et applications pour le projet CUIDADO

Dans le projet CUIDADO, l'équipe A-S est chargée plus particulièrement de la mise au point de descripteurs du signal audio et d'applications mettant en œuvre ces descripteurs pour la classification de sons et de musique, la recherche d'extraits sonores et la constitution de résumés sonores et iconiques. Les principaux objectifs pour 2003 sont :

Classification des sons de type hiérarchique et de type arbre de décision.

Classification de phrases musicales : descriptions dynamiques de segments sonores reposant sur les représentations du signal audio comme une succession d'états (HMM).

Représentation structurée d’œuvres musicales (approche simultanée sous formes d'état et de répétition de séquences).

Interaction avec le groupe ISO MPEG pour la validation et la normalisation dans MPEG-7 des descripteurs structurels.

Adaptation de la technique WMMS pour les bandes audio réduites (micro/HP).

Participants : Peeters, Souren (thèse)

Collaborations extérieures : X. Amatriain (UPF), S. Dubnov (Université de Jérusalem), F. Pachet (Sony France)

Détection de structures à partir de l'audio

L'objectif de cette thèse est de détecter des structures musicales dans un enregistrement audio par l'analyse de l'évolution temporelle des propriétés du signal. Parmi les applications, on peut citer un accès facilité au contenu d'une œuvre musicale, la construction de résumés sonores ou l'aide à l'analyse musicologique. L'une des voies de recherche consiste à prolonger des résultats de la théorie structurelle de l'information (structural information theory) dans le domaine de la recherche audio. L'évolution des propriétés peut-être représentée sous formes de succession d'états et sous forme de répétition de séquences.

Calcul de descripteurs audio adaptés au type de structure recherchée.

Segmentation de l'audio.

Classification des segments.

Analyse structurelle des objets.

Construction d'un signal "résumé" à la fois signifiant et de bonne qualité.

Participants : G. Peeters, K. Souren (thèse)

Alignement d’une partition avec le signal audio

L'alignement d’une partition et de l'audio consiste à déterminer les temps exacts de début et de fin des notes d'une partition dans l'enregistrement audio de cette partition. Cela ouvre la voie à de nombreuses applications telles que la détermination automatique de l'interprétation (musicologie), la constitution de bases de données pour la reconnaissance ou la séparation de sources (Cf. ces projets). Deux techniques sont en développement, le Dynamic Time Warping (DTW) et les Modèles de Markov Cachés (Hidden Markov Models ou HMM).

Consolidation de la méthode par DTW.

Ajout des percussions dans le modèle acoustique.

Utilisation de la DTW pour initialiser les HMM.

Comparaison avec la méthode HMM.

Participants : D. Schwarz (thèse), F Soulez (stage)

Collaborations extérieures : N. Orio (Université de Padoue)

Séparation de sources

Ce travail a pour but d'extraire dans un enregistrement mono ou stéréo, mélangeant plusieurs instruments, la partie jouée par chaque instrument sous forme de partition ou sous forme sonore. Différentes techniques de traitement statistique du signal sont à l'étude.

Modélisation par modèle de Markov caché (HMM) et réseau dynamique bayésien (DBN).

Création d'une base de données de référence.

Application à la modification de scène sonore.

Participants : A. Röbel, E. Vincent (thèse), étudiant (stage)

Collaborations extérieures : C. Févotte (IRCCyN Nantes), R. Gribonval (INRIA Rennes)

Reconnaissance des instruments

Ce problème consiste à reconnaître dans un enregistrement musical mono ou stéréo le type de formation instrumentale et si possible le nom exact des instruments jouant les différentes voix. C'est un travail de thèse qui commence en fin d'année 2001.

Modélisation par modèle de Markov caché (HMM) et réseau dynamique bayésien (DBN).

- Etude de critères ne nécessitant pas la séparation des instruments.

Participants : G. Petters, A. Livshin (thèse), E. Vincent (thèse)

Collaborations extérieures : S. Dubnov (Université de Jérusalem), R. Gribonval (INRIA-Rennes)

Collaboration mutimodale pour l'indexation

Le but de cette thèse est de comprendre les mécanismes qui relient les informations contenues dans les différents médias d'un document multimédia. Dans le contexte d'une base de données multimédia, on cherchera à caractériser ces relations de façon à permettre l'indexation et la recherche des contenus par la fusion d'informations multicritères fondées sur le son, le texte et l'image.

- Elaboration de descripteurs audio, signatures du signal.

- Création d'une base de donnée multimédia.

- Etude des relations entre médias (vidéo, audio...) d'un document.

- Création d'un système de classification prenant en compte la multimodalité des documents.

Participants : B. Delezoide (thèse)

Collaborations extérieures : M. Pic (CEA)

Modèles physiques de production sonore

Les modèles physiques sont des modèles du fonctionnement des instruments avec toutes leurs composantes qui contribuent à l’oscillation et finalement à l’onde sonore transmise dans l’air environnant. Ces modèles sont considérés comme ayant un grand avenir mais pour cela il faut que leur contrôle soit facilité par des méthodes dites d’inversion ou d’estimation de paramètres, qui sont l’équivalent des méthodes d’analyse dans le cas des modèles de signaux. Parmi les instruments qui nécessitent encore le plus de recherches dans ce domaine avant qu’un modèle puisse être appliqué en création musicale, se trouvent la famille des hautbois, caractérisés par une anche double et un corps conique, et la voix humaine en particulier chantée.

Inversion et estimation de paramètres

L'une des voies de succès des modèles physiques d'instruments dans les applications est la mise au point de méthodes de contrôle de haut niveau musical. Pour cela, il faut une méthode d'analyse, c'est-à-dire trouver les paramètres de contrôle et leurs évolutions qui permettent de reproduire des enregistrements d'interprètes professionnels. Deux techniques sont à l'étude dans l'équipe.

Inversion de modèles physiques

Le but de cette recherche est la continuation du travail de thèse de T. Hélie sur l'inversion de systèmes dynamiques modèles physiques d'instruments de musique. Ce travail sera mené dans le cade d'un bourse post-doctorale en collaboration avec le laboratoire LTS de l'Ecole Polytechnique Fédérale de Lausanne (EPFL), et avec le Laboratoire de Mécanique et d’Acoustique de Marseille (LMA), CNRS. Les principales directions de recherches sont :

Emploi des modèles acoustiques paramétriques précédemment étudiés.

Recherche de représentants paramétriques bien adaptés aux trajectoires gestuelles.

Modélisation des incertitudes de mesure et de modèle.

Etude pour de nouveaux traitements des singularités locales (par exemple, lors de la fermeture d'une anche).

Problèmes de synchronisation de l'inverseur et robustesse.

Estimation par apprentissage des paramètres de jeu d'un modèle

A partir d'un enregistrement d'un instrument, il s'agit d'estimer les paramètres de jeu d'un modèle, afin que la production du modèle soit la plus proche possible de l’enregistrement. Pour cela, une large base de données des différentes productions du modèle est constituée, pour servir à la technique dite d'apprentissage par table. La méthode a été appliquée à un modèle de trompette sur lequel des contraintes physiques ont été imposées pour résoudre le problème des solutions mutliples. Ce travail de thèse sera poursuivi pendant l'année 2003 dans différentes directions :

Etude de critères de similarité entre sons, tenant compte de leur type (transitoire, stable, ...).

Amélioration des descripteurs acoustiques.

Développement d’une méthode d’apprentissage par tables adaptée aux transitions.

Test d’autres algoritmes d'apprentissage, notamment l'optimisation itérative par descente de gradient qui permet de tenir compte des valeurs exactes des paramètres.

Travail sur la robustesse de l’estimation.

Participants : T. Hélie (Post-Doc), W. D'Haes (thèse)

Collaborations extérieures : M. Hasler (Lausanne), R. Kronand-Martinet (LAM), D. Van Dyck (Université d'Anvers)

Modèle de hautbois

Les modèles classiques d'instrument à anche ne donnent pas de bons résultats quand appliqués aux anches doubles. Nous cherchons à expliquer la spécificité des anches doubles en introduisant de nouvelles hypothèses sur l'écoulement, en particulier des pertes de charge engendrées par la géométrie de l'anche double. Un premier modèle mathématique a été mis en œuvre, permettant de réaliser des simulations numériques. Ce travail, en collaboration avec l’équipe Acoustique des Instruments, sera poursuivi sur les points suivants :

Réalisation de mesures extensives du déplacement de l'anche, de vitesse de l'écoulement et de pression, pour valider le modèle mathématique et extraire des paramètres physiques.

Comparaison avec d'autres instruments à anche.

Poursuite des contacts avec des laboratoires extérieurs à l'IRCAM (tels que le LIMSI-CNRS) pour réaliser des mesures de champ de vitesse dans une anche transparente fabriquée à l'IRCAM par Alain Terrier.

Développement du modèle de résonateur à profil arbitraire et prise en compte des mesures.

Implémentation en temps-réel.

Participants : A. Almeida (thèse)

Collaborations extérieures : P. Gougat (LIMSI), C. Vergez (LAM), T. Hélie (EPFL Lausanne)

Génération du bruit dans les consonnes

Le sujet de cette recherche est le développement d'un modèle de production de la parole pouvant être utilisé dans l'analyse et la synthèse articulatoire. L'accent sera mis sur les basses fréquences de l'onde de pression et la dynamique du flot d'air. La recherche sera concentrée sur le chuchotement, et donc seulement les sources acoustiques fricatives et plosives seront explorées.

Etude des données articulatoires enregistrées à l'université d'Edinburgh en 2002.

Optimisation sur un l'ensemble de données enregistrées.

Mise en œuvre d'un modèle et d'un logiciel.

Participants : J. Niekraz (thèse)

Collaborations extérieures : S. King (université d'Edinburgh), C. Vergez (LMA), T. Hélie (Polytechnique de Lausanne)

Développements

Les méthodes d’analyse-synthèse élaborées dans l’équipe sont peu à peu portées dans des logiciels mis à la disposition des utilisateurs, en interne puis dans le Forum de l’Ircam. L’un de ces outils est le vocodeur de phase Super VP, développé simultanément pour Unix et Macintosh. L’autre outil principal, dont Super VP est le moteur de traitement, est une interface graphique interactive pour la plate-forme Macintosh et nommé AudioSculpt. Le développement de la version 2 d’AudioSculpt est poursuivi en particulier sur le nouveau système OS-X d’Apple.

Super VP

Le logiciel Super VP est un vocodeur de phase très utilisé par les chercheurs et les musiciens. Dans le cadre du projet Mobistation une bibliothèque dynamique de Super VP a été créée, qui, pour le moment, ne supporte pas les sons stéréos. Cette bibliothèque peut être utilisée pour créer des plugins temps-réel de vocodeur de phase. Par ailleurs, un problème pour l’utilisation de plusieurs filtres simultanés dans AudioSculpt est qu’il existe différentes façons de superposer des filtres traitant les mêmes régions temps/fréquence.

Extension de la bibliothèque pour le cas stéréo et développement des plugins jMax/Max/MacIntosh (collaboration avec l’équipe Applications Temps-Réel).

Support pour le format SDIF pour les entrés et sorties des FFT afin d'assurer une meilleure standardisation et une meilleure communication avec d'autres logiciels.

Réorganisation des modules de filtrage pour que différents modes de superposition des filtres puissent être choisis.

Réorganisation du mode phase synchrone qui est implémenté de manière simple mais inefficace,

Participants : A. Roebel, M. LoCascio

Collaborations extérieures : A. Lithaud (Béta testeur)

AudioSculpt

Le développement de la nouvelle version (AudioSculpt 2) sera poursuivi en 2002 pour y implanter toutes les fonctionnalités qui étaient ébauchées dans la version 1 et profiter des nouvelles possibilités, en particulier en termes de séquencement, de la version 2 :

Développement de la synthèse croisée dynamique et de son interface.

Drivers Stéréo.

Pointeur et crayon harmoniques.

Marqueurs éditables.

Autres analyses : segmentation, formants, F0 et enveloppes spectrales.

Preview temps-réel.

Participants : M. LoCascio, A. Roebel

Collaborations extérieures : A. Lithaud (Béta testeur)

Estimation de fréquence fondamentale en temp-réel

Le travail sur l'estimation de fréquence fondamentale mené par A. Roebel et B. Prudham en 2002 a permis d'obtenir un programme d'estimation en MATLAB très performant et bien formalisé. Durant l'année prochaine, ce programme sera optimisé et porté en temps-réel dans jMax en collaboration avec l’équipe Applications Temps-Réel. Enfin une version adaptée au cas polyphonique sera mise en chantier avec un stagiaire.

Participants : A. Roebel, un stagiaire