MODELE RA 2005

ANALYSE ET SYNTH»SE DES SONS

RAPPORT DπACTIVIT… 2004

Responsable : X. Rodet

Parmi les stratÈgies de recherche et de dÈveloppement de l'Èquipe, lπune des premiËres est l'amÈlioration des mÈthodes permettant le traitement, l'analyse et la synthËse des sons, par exemple le vocodeur de phase et le modËle additif. Nos recherches portent donc sur ces mÈthodes, en particulier la distinction des divers types de composantes spectrales pour affiner les traitements tels que transposition ou allongement. Cependant d'autres techniques sont ÈtudiÈes, comme la sÈparation de sources qui a ÈtÈ lπobjet de la thËse remarquable que E. Vincent a soutenue en 2004. En rÈponse ‡ de nombreuses demandes des musiciens (en particulier les compositeurs du groupe de recherche ´ Voix ª), ou venues du spectacle vivant, le traitement de la voix est lπobjet de plusieurs travaux, transformation de lπidentitÈ et synthËse dπun locuteur notamment.

Nos travaux sur le geste musical et le contrÙle expressif de la synthËse initiÈs en 1999, par M. Wanderley et dans une collaboration avec le Cnmat de l'UniversitÈ de Berkeley, ont trouvÈ aujourdπhui un aboutissement trËs intÈressant : lπinstallation Phase, interactive et multimodale, prÈsentÈe au grand public au Centre G. Pompidou pendant trois mois, visitÈe par 20000 personnes environ, a connu un succËs extraordinaire auprËs des non-spÈcialistes et des musiciens. De plus la librairie Phase-Lib issue de ce projet peut ainsi Ítre distribuÈe dans le Forum de lπIrcam.

Le traitement par le contenu est une voie de recherche poursuivie dans le projet EuropÈen SemanticHIFI notamment. Cette voie comprend entre autres la caractÈrisation, l'indexation et la reconnaissance des structures et des sons musicaux. Dans ce cadre un nouveau projet, MusicDiscover, soutenu par une ACI du ministËre de lπindustrie, est commencÈ en collaboration avec dπautres centres de recherche. De plus, les travaux effectuÈs avec les compositeurs dans le groupe de recherche ´ Orchestration ª ont conduit ‡ de nouvelles explorations du timbre.

La compÈtence de lπÈquipe dans le domaine des modËles physiques a ÈtÈ renforcÈe par lπattribution dπun poste de chercheur CNRS ‡ T. HÈlie qui avait prÈparÈ sa thËse avec nous. Les travaux de lπÈquipe dans ce domaine continuent Ègalement de se dÈvelopper dans le projet RIAM Windset menÈ en collaboration avec un industriel et qui donnera des modËles directement utilisables par les compositeurs, par exemple dans le groupe de recherche ´ ModËles Physiques ª.

Le dÈveloppement logiciel dans lπÈquipe a ÈtÈ marquÈ par des contrats passÈs avec des industriels pour lπacquisition de certains de nos programmes, en particulier par la sociÈtÈ amÈricaine MakeMusic. De nombreux autres dÈveloppements logiciels ont ÈtÈ menÈs en 2004, en interne ou avec des industriels. Le standard SDIF par exemple est de plus en plus rÈpandu dans les logiciels du Forum. Enfin, la nouvelle version du logiciel AudioSculpt a largement dÈpassÈ les fonctionnalitÈs de la prÈcÈdente et connaÓt un grand succËs. De plus, des extensions trËs intÈressantes sont en cours dπimplÈmentation.

1. modËles d'analyse et de synthËse du signal audio

Deux des mÈthodes les plus utilisÈes dÈveloppÈes par lπÈquipe sont le vocodeur de phase et le modËle additif. Plusieurs voies sont explorÈes pour amÈliorer ces mÈthodes : la conception et la prise en compte dπun vÈritable modËle de phase (le modËle dit ´ shape-invariant ª), la distinction des divers types de composantes spectrales pour affiner les traitements tels que transposition ou allongement et la prÈservation de lπenveloppe spectrale. Enfin lπanalyse de la hauteur, ou frÈquence fondamentale, est toujours de la plus grande importance dans les applications musicales.

1.1. Le modËle ´ shape-invariant ª dans le vocodeur de phase et la synthËse additive

Le vocodeur de phase est le moteur de calcul principal pour les analyses et transformations des sons dans SuperVP et AudioSculpt. Pour la plupart des signaux, la qualitÈ sonore des signaux transformÈs atteint un haut niveau. Pour la parole, par contre, les signaux transformÈs souffrent d'un artefact bien connu qui est perÁu comme une perte de clartÈ significative, souvent nommÈe ´ phasiness ª. En synthËse additive, une amÈlioration considÈrable peut Ítre obtenue en utilisant le modËle dit ´ shape invariantª. Ce modËle a ÈtÈ le sujet d'un stage ATIAM pendant lequel l'algorithme a ÈtÈ ÈtudiÈ de faÁon thÈorique, quelques amÈliorations ont ÈtÈ proposÈes et une faÁon cohÈrente de traiter le bruit a ÈtÈ dÈveloppÈe [Champion04a]. En vocodeur de phase Ègalement, une nouvelle mÈthode, fondÈe sur la procÈdure dite ´ shape invariantª, a ÈtÈ conÁue. On obtient ainsi en vocodeur de phase une qualitÈ du signal transformÈ qui est proche de la qualitÈ obtenue avec l'algorithme PSOLA. ComparÈ avec le traitement ´ shape invariantª dans le modËle additif, le nouvel algorithme a l'avantage qu'il n'y a pas besoin dπestimer la frÈquence fondamentale du signal traitÈ. Pour le moment l'algorithme a ÈtÈ implÈmentÈ en Matlab [Champion04a]. L'implÈmentation actuelle nÈcessite encore du travail pour amÈliorer le traitement dans les rÈgions non-voisÈes du signal.

Participants : A. Roebel, G. Champion (stage ATIAM).

1.2. Suivi des partiels non-harmoniques

Un nouveau module d'analyse en partiels non-harmoniques a ÈtÈ conÁu dans AudioSculpt. Pour cette analyse, il existait dans l'Èquipe le logiciel HMM. Mais l'utilisation de ce logiciel a montrÈ deux problËmes majeurs:

∑ L'analyse est trop lente,

∑ Les rÈsultats de l'analyse dÈpendent de paramËtres qui sont difficiles ‡ rÈgler.

Pour rendre l'analyse en partiels non-harmoniques plus accessible pour les utilisateurs d'AudioSculpt, un nouvel algorithme a ÈtÈ conÁu. Le but de ce travail Ètait de garder les idÈes les plus importants de l'algorithme HMM tout en simplifiant le calcul et le choix des paramËtres pour l'utilisateur. Comme HMM, le nouvel algorithme est fondÈ sur un modËle probabiliste des variations de frÈquence et d'amplitude d'un partiel. Par contre, la dÈfinition du voisinage des pics ‡ prendre en compte pour le choix optimal des connexions, et le traitement de l'histoire d'un trajet, ont ÈtÈ simplifiÈs. Le nouvel algorithme a ÈtÈ ÈtudiÈ et a donnÈ des rÈsultats proches de ceux de HMM. Le temps de calcul est beaucoup plus faible, de telle sorte quπune analyse en temps rÈel pour un nombre de partiels de lπordre de 20 ou 30 est possible. L'algorithme a ensuite ÈtÈ intÈgrÈ dans la bibliothËque et le programme Pm2 (voir le paragraphe DÈveloppements)

Participants : M. Zivanovic (PostDoc), A. Roebel.

1.3. Classification des pics spectraux

La classification de la nature des pics spectraux est importante pour plusieurs applications. Un algorithme permettant cette classification a ÈtÈ ÈtudiÈ au cours de l'annÈe 2003. Les applications actuelles sont le traitement ´ shape invariant ª dans le vocodeur de phase et l'analyse de frÈquences fondamentales multiples. Pour amÈliorer l'utilisation de l'algorithme, une meilleure gestion des paramËtres a ÈtÈ conÁue. Au cours de l'annÈe 2004, une nouvelle mÈthode d'adaptation du seuil pour le descripteur NBD [Roebel04a, Zivanovic04a] a ÈtÈ ÈlaborÈe. L'utilisateur n'a plus ‡ donner que le taux d'erreur de classification des pics bruitÈs comme sinusoÔdaux et le seuil est adaptÈ automatiquement. Par contre, pour un rÈsultat encore meilleur, le seuil pour le descripteur DD doit aussi Ítre rÈglÈ, ce qui pose un problËme difficile parce que les frontiËres de dÈcision deviennent 2-dimensionnelles.

Participants : M. Zivanovic (PostDoc), A. Roebel.

1.4. PrÈservation de l'enveloppe

Suite ‡ des demandes d'utilisateur d'AudioSculpt, le problËme de la prÈservation de l'enveloppe spectrale a ÈtÈ ÈtudiÈ de nouveau. Le problËme se pose lors de la transposition des sons. Le but de cette opÈration est le changement de la hauteur tonale sans changement du timbre du son. Dans la technique de base du vocodeur de phase (SuperVP), une transposition change aussi l'enveloppe spectrale et donc le timbre. La technique accessible dans SuperVP pour la prÈservation de l'enveloppe nÈcessitait une transformation en plusieurs Ètapes: aplatissement de lπenveloppe par filtrage LPC, transposition, rÈ-application de lπenveloppe par filtrage LPC inverse. L'Ètude du problËme montre que la nÈcessitÈ de faire la re-synthËse avant dπappliquer la transposition entre les deux filtrages complique la mÈthode et rends le rÈsultat sous-optimal. Pour Èviter cette difficultÈ, une nouvelle mÈthode a ÈtÈ mise en place, qui permet de corriger l'enveloppe spectrale avant la transposition en appliquant un seul filtre. Ce filtre dÈforme l'enveloppe de faÁon telle que, aprËs transposition, lπenveloppe transposÈe est la mÍme que celle du signal original. Si l'enveloppe estimÈe est correcte, la mÈthode permet de prÈserver l'enveloppe d'un faÁon simple et efficace. Les rÈsultats sont prometteurs mÍme si la mÈthode actuellement utilisÈe pour l'estimation de l'enveloppe doit Ítre amÈliorÈe. Ce dernier problËme sera traitÈ pendant l'annÈe 2005.

Participants : A. Roebel.

1.5. Estimation des frÈquences fondamentales (F0) multiples

L'algorithme d'estimation de frÈquence fondamentale (F0) dÈveloppÈ pendant les annÈes prÈcÈdentes est fondÈ sur le principe du ´ spectral matching ª et sur des informations a priori sur les spectres des sources sonores naturelles. En 2003 nous avons montrÈ que l'algorithme donne des rÈsultats Èquivalents ‡ ceux de l'algorithme YIN pour le cas de la parole (F0 unique). Pendant l'annÈe 2004, nous avons ÈtudiÈ des critËres efficaces pour l'Èvaluation des hypothËses dans le cas de l'estimation de F0 multiples. Nous avons aussi ÈtudiÈ les possibilitÈs d'adapter la pondÈration des diffÈrentes rÈgions du spectre observÈ afin d'utiliser au mieux l'information disponible. Dans ce cadre, la classification des pics spectraux a trouvÈ une nouvelle application. L'algorithme d'estimation de F0 multiples actuellement dÈveloppÈ utilise encore l'hypothËse que le nombre des sources sonores est connu. Il Èvalue un certain nombre de combinaisons hypothÈtiques de F0 candidats. Pour un nombre d'instruments limitÈ, pas plus de 5, les rÈsultats de l'algorithme sont prometteurs. Une base de donnÈes a ÈtÈ crÈÈe, suivant la description de la thËse de A. Klapuri, pour pouvoir comparer nos rÈsultats avec les siens. Comme la sÈlection des sons utilisÈs pour lπÈvaluation est alÈatoire, la comparaison avec les chiffres de A. Klapuri doit Ítre interprÈtÈe avec prÈcaution. Mais nous avons constatÈ que notre algorithme se compare plutÙt favorablement avec le sien. Notons enfin que cette recherche est Ègalement incluse dans le projet MusicDiscover et utilisÈe par A. Livshin pour la reconnaissance des instruments en contexte polyphonique.

Participants : C. Yeh (ThËse), A. Roebel

Collaborations internes : A. De CheveignÈ (Èquipe Perception et cognition musicales).

1.6. Estimation automatique de paramËtres pour la synthËse sonore

A partir d'un enregistrement d'un instrument, il s'agit d'estimer les paramËtres de jeu d'un modËle, afin que la production du modËle soit la plus proche possible de l'enregistrement. Pour cela, une large base de donnÈes des diffÈrentes productions du modËle est constituÈe, pour servir ‡ la technique dite d'apprentissage par table. La mÈthode a ÈtÈ appliquÈe ‡ un modËle de trompette sur lequel des contraintes physiques ont ÈtÈ imposÈes pour rÈsoudre le problËme des solutions multiples [Dhaes04b], [Dhaes04a]. Ce travail de thËse a ÈtÈ terminÈ en 2004 et la thËse soutenue le 15 Juin [Dhaes04c].

Participants : W. DπHaes (thËse)

Collaborations extÈrieures : D. Van Dyck (UniversitÈ d'Anvers)

1.7. ModËles d'instruments pour la transcription et la sÈparation d'enregistrements musicaux

Ce travail a pour but d'extraire dans un enregistrement musical polyphonique (monocanal ou multicanal) la partie jouÈe par chaque instrument [Vincent04a]. Dans le cadre de sa thËse, E. Vincent a proposÈ un modËle probabiliste d'instrument par rÈseau bayÈsien hiÈrarchique permettant de prendre en compte conjointement de nombreuses caractÈristiques des sources: harmonicitÈ, enveloppe spectrale, durÈe des notes et direction spatiale[Vincent04b]. Ce travail a ÈtÈ appliquÈ ‡ quatre t‚ches prÈcises: identification des instruments, transcription des notes jouÈes par chacun, sÈparation de sources et re-mixage [Vincent04d]. Des rÈsultats particuliËrement innovants ont ÈtÈ obtenus pour l'identification d'instruments dans des duos synthÈtiques et pour la sÈparation de mÈlanges synthÈtiques trËs rÈverbÈrants ou contenant des instruments de mÍme tessiture. Par ailleurs, la collaboration suivie avec R. Gribonval et C. FÈvotte a permis de dÈfinir de meilleures mesures de performance pour la sÈparation de sources.

E. Vincent a soutenu cette thËse le 2 dÈcembre 2004 [Vincent04c]. La thËse a reÁu un excellent accueil et les rÈsultats sont tout ‡ faits remarquables.

Participants : E. Vincent (thËse)

Collaborations internes : A. Livshin (thËse), C. Yeh (thËse)

Collaborations extÈrieures : R. Gribonval (METISS, IRISA Rennes), C. FÈvotte (Signal Processing Lab, Cambridge University)

2. Traitement de la voix

RÈcemment, de nombreuses demandes concernant le traitement de la voix sont apparues. Elles proviennent des musiciens, du thÈ‚tre, du film et du multimÈdia. Deux directions de recherche sont donc commencÈes, lπune sur la transformation de lπidentitÈ dπune voix et lπautre sur la synthËse dπun locuteur.

2.1. Reconstitution d'une voix parlÈe

Ce projet, dÈbutÈ en 2003, est menÈ par des stagiaires. Il a pour but la reconstitution de la voix d'un locuteur ‡ partir d'enregistrements. Le systËme Talkapillar permet de crÈer une voix par une sÈlection intelligente de fragments sonores dans une base de donnÈes, en fonction du texte que l'on souhaite faire prononcer. Lπun des buts est de pouvoir prÈserver l'identitÈ vocale dπun locuteur. L'introduction d'un modËle prosodique nous a dÈj‡ permis d'aller dans ce sens. Un nouveau texte pourrait alors Ítre lu par ce modËle comme si le locuteur l'avait prononcÈ.

Le systËme de synthËse de la parole par concatÈnation d'unitÈs ´ Talkapillar ª [LeBeux04a], [Beller04a], a bÈnÈficiÈ des amÈliorations suivantes :

∑ DÈveloppement dπun modËle de prosodie par sÈlection de groupes prosodiques.

∑ Portage du logiciel d'analyse du texte ´ Euler ª sous Linux.

∑ AmÈlioration de la procÈdure d'alignement d'une voix parlÈe avec le texte.

∑ Diminution des temps nÈcessaires ‡ la crÈation de la voix d'un locuteur et ‡ sa synthËse, gr‚ce ‡ une meilleure configuration et ‡ lπutilisation dπun serveur de base de donnÈes PostgreSQL.

∑ Automatisation des Ètapes de crÈation d'une voix.

∑ ImplÈmentation d'un premier programme ´ Text To Speech ª.

∑ AmÈlioration de la robustesse du systËme, dÈveloppement d'outils d'analyse des rÈsultats.

Participants : X. Rodet, T. Hueber (stage), H. Cousin (stage), S. Lebeux (stage), G. Beller (stage)

Collaboration interne : D. Schwarz (Èquipe Applications Temps-RÈel).

2.2. Transformation de lπidentitÈ dπune voix : apprentissage, prosodie et perception

Cette thËse, dÈbutÈe au mois d'octobre 2003, a pour objectif de pouvoir donner l'identitÈ de la voix d'un locuteur 'cible' ‡ la voix dπun locuteur 'source'. Il sπagit donc de trouver une telle fonction de transformation ‡ l'aide de l'extraction, l'apprentissage et la modification de paramËtres du signal de la voix (frÈquence fondamentale, enveloppe spectrale, source d'excitation) spÈcifiques dπun locuteur.

Dans la bibliographie actuelle ‡ ce sujet, on trouve deux problËmes principaux pour les rÈsultats obtenus:

∑ La qualitÈ moyenne du signal de synthËse, pour certaines transformations, nπest pas perÁue comme celle dπune ´ voix naturelle ª

∑ Les performances dÈpendent de la similaritÈ des locuteurs source et cible.

Le travail pendant l'annÈe 2004 fut de plusieurs natures. Dans un premier temps, nous avons cherchÈ ‡ Èvaluer la performance de la fonction de conversion de paramËtres 'source-cible', et ce pour diffÈrents contextes phonÈtiques. Puis nous avons entrepris une Èvaluation des paramËtres liÈs ‡ l'identitÈ d'un locuteur et qui peuvent Ítre utilisÈs dans un systËme d'analyse/synthËse de bonne qualitÈ. Finalement, un premier systËme de transformation de voix a ÈtÈ dÈveloppÈ. Celui-ci est fondÈ sur une adaptation de l'application de synthËse PSOLA crÈÈe par G. Peters. Des transformations fondÈes sur des paramËtres de conversion fixes dans le temps sont en cours d'Èvaluation.

Participants : X. Rodet, F. Villavicencio (thËse), G. Peeters.

3. contrÙle MULTIMODAL de LA synthËse : haptique et graphique

Le projet PHASE (Plateforme Haptique d'Aide ‡ la SynthËse et ‡ l'…veil musical) est un projet d'Ètude du contrÙle interactif et multimodal de la synthËse musicale [Lambert04a]. Ce projet est soutenu par le rÈseau RIAM et menÈ par quatre institutions : lπIrcam a effectuÈ la recherche concernant les manipulations sonores et musicales et a dÈfini les mÈtaphores dπinteraction, le CEA-List a effectuÈ la recherche haptique, la sociÈtÈ Haption a rÈalisÈ lπinterface haptique et la sociÈtÈ Ondim sπest occupÈ de lπintÈgration et de la rÈalisation visuelle. Le projet est aussi destinÈ ‡ l'Èveil musical de l'utilisateur par la focalisation sur l'Ècoute, le jeu d'un instrument ÈlaborÈ et la navigation dans des scÈnarios musicaux interactifs. Trois modalitÈs sont ÈtudiÈes dans un dispositif fondÈ sur un contrÙle haptique, une visualisation graphique 3D et un systËme de synthËse musicale de haute qualitÈ (dans l'environnement Max) et spatialisÈ. Il est essentiel que ces modalitÈs paraissent cohÈrentes pour lπutilisateur. La cohÈrence entre les diffÈrentes modalitÈs est garantie par une mÈtaphore qui fait le lien logique entre celles-ci, et donc entre le monde rÈel o˘ se trouve la main, et le monde virtuel musical. De nombreuses mÈtaphores ont ÈtÈ expÈrimentÈes en 2003 et 2004. Les principaux travaux effectuÈs en 2004 sont :

∑ Travail sur les modalitÈs d'interaction (collaboration avec F. Bevilacqua et N. Schnell, Èquipe Applications Temps-RÈel) avec des paramËtres gestuels de haut niveau ;

∑ Travail sur les manipulations sonores (adaptation temps rÈel d'algorithmes de l'Èquipe Analyse/synthËse) avec des paramËtres sonores de haut niveau (descripteurs) ;

∑ Manipulation des structures musicales (travaux du compositeur R. Cahen et de J.P. Lambert) ;

∑ Mise en jeu et contrÙle de la spatialisation (collaboration avec l'Èquipe Acoustique des salles et C. Le Prado) ;

∑ Choix et tests de correspondances entre les diffÈrents paramËtres de haut niveau (mapping multimodal).

Le second semestre 2004 a ÈtÈ consacrÈ ‡ la construction et ‡ lπÈvaluation dπun dÈmonstrateur des rÈsultats des recherches du projet sous la forme dπune installation interactive offrant au grand public un jeu musical. Durant les trois derniers mois, ce dÈmonstrateur a ÈtÈ prÈsentÈ et utilisÈ par un trËs large public dans la galerie des enfants du centre Pompidou, ‡ lπoccasion de lπexposition ´Ecouteª [Lambert04b]. ¿ la diffÈrence dπun jeu vidÈo, le but nπÈtait pas dπanimer des pixels sur un Ècran mais bien de jouer avec de la musique et ainsi susciter un Èveil musical. Le dÈmonstrateur a accueilli de lπordre de 20000 visiteurs et le systËme a pu Ítre essayÈ par plus de 3000 personnes qui sont reparties avec le rÈsultat de leur prestation gravÈ sur un CD Audio.

Le succËs auprËs du public, spÈcialisÈ ou non, a ÈtÈ exceptionnel. Les participants ont manifestÈ un trËs grand enthousiasme pour cette installation, son aspect Èducatif et ludique et sa facilitÈ de prise en main. De nombreuses institutions ont demandÈ ‡ accueillir le dÈmonstrateur durant lπannÈe 2005 et plusieurs prÈsentations sont dÈj‡ programmÈes. La rÈalisation d'une installation interactive pour le grand public sous la forme d'un jeu musical intÈgrant diffÈrentes mÈtaphores, et le succËs quπelle a rencontrÈ auprËs dπun public trËs variÈ, allant dπenfants ‡ des compositeurs, montre la validitÈ d'un tel dispositif et ouvre la voie ‡ de nombreuses manipulations musicales gestuelles originales [Mobuchon04a].

Parmi les rÈsultats du projet Phase, on peut aussi noter la librairie Phase-Lib pour MAX, composÈe par R. Cahen avec des patchs dÈveloppÈs dans le cadre du projet.

Enfin un disque DVD consacrÈ au projet Phase et au dÈmonstrateur a ÈtÈ rÈalisÈ par D. Hart avec le soutien de rÈseau RIAM. Il contient un film dπune durÈe dπune demi-heure qui prÈsente le systËme, son exploitation par le public et des explications dÈtaillÈes par les diffÈrents intervenants.

Participants : X. Rodet, J.-P. Lambert, R. Cahen, F. Guedy, R. Kronenberg, T. Gaudy (stage), N. Obin (stage).

Collaboration interne : Èquipe Applications temps rÈel

Collaborations extÈrieures : C. Andriot (Laboratoire CEA-List), F. Gosselin (sociÈtÈ Haption), P. Mobuchon (sociÈtÈ Ondim), D. Hart.

4. Alignement dπune partition avec le signal audio

L'alignement dπune partition et de l'audio consiste ‡ dÈterminer les temps exacts de dÈbut et de fin des notes d'une partition dans l'enregistrement audio de cette partition. Cela ouvre la voie ‡ de nombreuses applications telles que la dÈtermination automatique de l'interprÈtation (musicologie), la constitution de bases de donnÈes pour la reconnaissance ou la sÈparation de sources (Cf. ces projets). Ce travail, commencÈ en 2003, sπest poursuivi en 2004 dans le cadre d'un contrat industriel avec la sociÈtÈ MIST. Les objectifs ont ÈtÈ les suivants [Rodet04a]:

∑ AmÈlioration de la prÈcision de la dÈtection des dÈbuts de notes,

∑ Ajout des percussions dans le modËle acoustique,

∑ DÈtection des fins de notes,

∑ Estimation des paramËtres de hauteur et de dynamique,

∑ Estimation du timbre pour un ´ sampler ª utilisant des filtres passe-haut et passe-bas et une base de donnÈe des instruments de la norme ´ General Midi ª,

∑ Sortie des rÈsultats en fichiers MIDI ´ enrichi ª respectant la norme GM,

∑ Optimisation de lπalgorithme de Dynamic Time Warping,

∑ Documentation complËte du projet.

Une version complËte du logiciel dπalignement a ÈtÈ achevÈe fin 2004 et livrÈe ‡ la sociÈtÈ MIST. Elle a Ègalement ÈtÈ utilisÈe dans lπÈquipe Formulation du Musical pour des Ètudes sur lπinterprÈtation.

Participants : J. Escribe, P. Bernat-y-vicens (stage) et X. Rodet

Collaborations internes : D. Schwarz (Èquipe Applications temps rÈel), N. Donin (Èquipe Formulation du Musical)

Collaborations extÈrieures : MIST (SociÈtÈ).

5. Traitement par le contenu

Lπexpression ´ traitement par le contenu ª met lπaccent sur la recherche dπinformation concernant le contenu musical de fichiers audio. Cela couvre des Ètudes sur la reconnaissance et la classification des sons, particuliËrement en vue d'indexation, des Ètudes sur la navigation dans des bases de donnÈes sonores, par exemple pour les crÈateurs et ´ designers ª sonores et l'utilisation de descripteurs du son, depuis les bas niveaux jusqu'aux niveaux ÈlevÈs de structuration de lπaudio. Le traitement par le contenu est une voie de recherche poursuivie dans le projet europÈen SemanticHIFI notamment. Par ailleurs un nouveau projet, MusicDiscover, sur le traitement de bases de donnÈes audio est commencÈ en collaboration avec dπautres centres de recherches.

5.1. Descripteurs et structures pour le projet SemanticHIFI

5.1.1.1.1. DÈtection de structures ‡ partir de l'audio

Lπextraction de la structure dπun morceau sπintËgre dans les recherches du projet SemanticHIFI. Cette mÈthode repose sur la dÈtection de rÈpÈtitions dans un signal audio au travers dπobservations du signal au cours du temps. Jusquπ‡ prÈsent ces observations Ètaient essentiellement fondÈes sur la description du timbre du morceau. En 2004, ces observations ont ÈtÈ Ètendues ‡ la reprÈsentation des caractÈristiques harmoniques (reprÈsentÈes sous forme de chroma) ; ce type dπobservation sπavËre particuliËrement utile dans le cas de la musique classique et contemporaine (analyse de scËnes de lπopÈra K pour lπarticle de M. Ramstrum); o˘ ces caractÈristiques prÈvalent souvent sur le timbre. LπintÈgration de ces travaux dans un ´ lecteur ª flash de structure dÈveloppÈ par lπÈquipe HypermÈdia de lπIrcam est rendu possible au travers dπune communication par fichier xml. La dÈtection de structures par algorithme de clustering hiÈrarchique aglomÈratif a Ègalement ÈtÈ ÈtudiÈe et sera poursuivie en 2005. La dÈtection du rythme du morceau (voir ci-aprËs) a ÈtÈ intÈgrÈe dans la gÈnÈration du rÈsumÈ audio du morceau (reconstruction beat-synchrone) [Brevet Peeters 2004].

Participants : G. Peeters

Collaborations internes : Equipe HypermÈdia.

5.2. Extraction dπinformation rythmique

LπÈtude du rythme sπintËgre dans le cadre de lπextraction des caractÈristiques de haut niveau du projet SHF. Cette Ètude commence par lπÈtablissement dπun algorithme permettant lπextraction du tempo et le marquage des battues utilisable tant dans un cas de musique percussive que de musique classique. ExceptÈ le stage de [Durigon03a], ce sujet est relativement nouveau dans lπÈquipe. Deux approches ont ÈtÈ ÈtudiÈes en 2004. La premiËre [Goyeau04a] repose sur la dÈtection des ´ onsets ª du signal audio, effectuÈe par dÈtection de lπaugmentation dπÈnergie simultanÈment dans plusieurs bandes de frÈquence. Un histogramme des distances entre onsets est ensuite crÈÈ. Finalement la pÈriodicitÈ maximale de cet histogramme est estimÈe ; celle-ci indique la pulsation expliquant au mieux les diffÈrentes pÈriodicitÈs des onsets. Une deuxiËme approche souvent utilisÈe analyse directement la variation dπÈnergie du signal au cours du temps dans diffÈrentes bandes de frÈquence. Une analyse frÈquentielle permet ensuite de dÈterminer la pulsation commune entre les diffÈrentes bandes de frÈquence. La premiËre approche permet une description dÈtaillÈe du rythme, mais sπavËre peu robuste dans un contexte de musique constituÈe. La deuxiËme approche prÈsente les avantages inverses. Nous avons ÈtudiÈ une approche combinant les avantages des deux mÈthodes : dans un premier temps une fonction temporelle ´ continue ª reprÈsentant la vraisemblance dπun onset ‡ chaque instant est calculÈe, cette fonction est sensible aux onsets de type percussifs mais Ègalement aux enchaÓnements de hauteur sans variation dπÈnergie. La pÈriodicitÈ de cette fonction est ÈtudiÈe au cours du temps par un algorithme de type Viterbi. Cet algorithme permet la prise en compte dπoctaviations car la pulsation prÈpondÈrante ne correspond pas nÈcessairement au tempo. Finalement, le marquage de chaque temps est effectuÈ par une modification de lπalgorithme de marquage PSOLA dÈveloppÈ par G. Peeters. Lπalgorithme a ÈtÈ ÈvaluÈ sur plusieurs bases de donnÈes musicales dont les bases de rÈfÈrence ISMIR2004. LπÈtude de lπestimation du caractËre binaire/ternaire, ainsi que de la mÈtrique, qui est effectuÈe au travers du spectre de raies se poursuivra en 2005.

Participants : G. Peeters, J.-B. Goyeau (stage).

5.3. Reconnaissance Automatique des instruments

Pour ce qui concerne les Èchantillons sonores ou notes isolÈes, lπamÈlioration de lπalgorithme de classification automatique des sons ÈtudiÈ dans le cadre du projet CUIDADO, par modËle gaussien hiÈrarchique, a ÈtÈ Ètendu au modËle de mÈlange de gaussiennes hiÈrarchique (gaussian mixture). Le module dπextraction automatique des descripteurs [Peeters 04a] a ÈtÈ intÈgrÈ dans la Sound Palette On Line de låIrcam.

Par ailleurs, dans la thËse de A. Livshin, il sπagit de fournir lπindexation automatique de musique en termes des instruments, cπest-‡-dire, ‡ chaque instant dπun morceau, de dÈterminer les instruments en train de jouer. Les applications sont nombreuses :

∑ Recherches en fonction dπun instrument ou dπarrangements spÈcifiques dans les musiques disponibles sur Internet ou archivÈes dans une base de donnÈes.

∑ Recherches par similitude en fonction des instruments.

∑ ContrÙle des diffÈrents instruments dans les enregistrements, permettant de fournir des fonctions telles que changer le volume de certains instruments dans le mÈlange, modifier la spatialisation, etc.

∑ Exploration et Èdition dπune oeuvre enregistrÈe (pour les studios d'enregistrement par exemple) en permettant dπaller directement ‡ diverses parties instrumentales.

∑ Outil supplÈmentaire pour d'autres recherches, telles que lπalignement, la transcription automatique, etc.

En 2004, le travail de recherche sπest portÈ sur lπidentification des instruments dans des exÈcutions solos [Livshin04a] et duos [Livshin04b]. Des rÈsultats dÈj‡ utilisables ont ÈtÈ obtenus. Par exemple, il est possible de reconnaÓtre un certain nombre dπinstruments en temps rÈel avec un taux de rÈussite suffisant pour de nombreuses applications. Ce travail a ÈtÈ menÈ en collaboration avec le projet de dÈtection de frÈquences fondamentales multiples (Cf. ce paragraphe). Enfin cette recherche est Ègalement une part importante du projet MusicDiscover.

Participants : G. Peeters, A. Livshin (thËse), C. Yeh (thËse)

Collaborations internes : P. Tisserand, S. Winsberg.

5.4. Transformation par descripteurs de haut niveau

Ce travail sπinscrit dans le cadre des Ètudes de synthËse de haut niveau du projet SemanticHIFI et fait Ègalement suite aux rÈunions du groupe ´ Orchestration ª mise en place lors de lπannÈe 2004. Lπobjectif est dπÈtudier les algorithmes permettant la manipulation dπun signal sonore par descripteurs de haut niveau, dans le cas prÈsent les descripteurs considÈrÈs sont perceptifs [Tardieu04a]. Des Ètudes perceptives (expÈriences de McAdams et al., descripteurs de Krimphoff, Misdariis, Peeters) mettent en Èvidence la prÈpondÈrance des deux premiers moments spectraux dans la perception du timbre dπun son. Lπobjectif est de permettre la modification du son ‡ travers ces moments. De maniËre ‡ rendre le systËme inversible, les moments dπordre 3 et 4 du spectre sont alors imposÈs. Le spectre du signal est modÈlisÈ sous forme dπune enveloppe spectrale reprÈsentÈe par un ensemble de splines et un ´ rÈsiduel ª. Les paramËtres des splines sont alors fonction des quatre premiers moments.

Participants : D. Tardieu (stage ATIAM), G. Peeters, X. Rodet

Collaborations internes : Èquipe PCM, groupes de travail Orchestration

5.5. Outils de traitement pour le projet Orchestration

Le groupe de travail Orchestration a suscitÈ la mise au point de bases de donnÈes pour la recherche et production musicale ‡ lπIrcam. Ces donnÈes sont soit issues de la base Studio On Line, soit dπenregistrements effectuÈs par la production et quπil faut traiter. Dans ce cadre, lπÈquipe a dÈveloppÈ des algorithmes et programmes facilitant la constitution de ces bases de donnÈes, normalisation des sons pour le traitement de Studio On Line et dÈcoupage dπun enregistrement en Èchantillons :

∑ Programme de normalisation en ´ loudness ª des canaux gauche-droit afin de rÈÈquilibrer lπimage stÈrÈophonique.

∑ Programme de normalisation en loudness de tous les sons prÈsent dans un rÈpertoire donnÈ afin de permettre la crÈation de multi-Èchantillons homogËnes.

∑ Programme de dÈcoupage dπun enregistrement continu en tous sons sÈparÈs par des silences. Ces sons pourront prochainement Ítre classÈs automatiquement en sons musicaux, parole et mÈlange des deux.

Participants : G. Peeters, X. Rodet, N. Obin (stage)

Collaborations internes : groupe de travail Orchestration, E. Poletti.

5.6. Identification audio

Ce projet rÈpond ‡ une demande trËs ponctuelle dπidentification dπextraits audio (audio identification, fingerprint). Lπalgorithme dπidentification audio de lπIrcam initialement dÈveloppÈ par L. Worms en 1999 et amÈliorÈ dans le cadre du projet CUIDADO, a ÈtÈ revu de maniËre ‡ permettre la reconnaissance audio ‡ travers un canal de transmission dÈgradÈ (combinaison dπune Èmission par haut-parleur et rÈception par microphone de tÈlÈphone).

Participants : G. Peeters.

5.7. Projet MusicDiscover

Ce projet, qui a dÈbutÈ ‡ la fin de 2004, est une collaboration avec le LTCI/ENST (Paris) et le LIRIS (INSA de Lyon) (http://recherche.ircam.fr/equipes/analyse-synthese/musicdiscover/). Il fait lπobjet dπun financement ACI-Masse de donnÈes. L'accroissement des capacitÈs de stockage et des dÈbits de transmission sur les rÈseaux ont favorisÈ la mise ‡ disposition et la circulation d'un nombre considÈrable d'enregistrements musicaux. Cette masse de donnÈes pose des problËmes nouveaux d'accessibilitÈ pratique, de traitement et de protection des droits de propriÈtÈ. Il devient ainsi indispensable d'avoir accËs au contenu (comme c'est le cas par exemple pour le texte), cπest-‡-dire ‡ une description sÈmantique structurÈe et aussi complËte que possible des enregistrements: mÈlodie, genre/style, rythme, instrumentation, structure musicale, harmonie, etc. L'enjeu principal de ce projet est ainsi de dÈvelopper et d'Èvaluer des moyens rÈellement orientÈs vers le contenu et adaptÈs ‡ l'utilisateur. Ces moyens incluent les techniques et outils d'analyse, d'indexation, de reprÈsentation et de recherche d'informations qui permettront de construire et d'utiliser cette description sÈmantique structurÈe.

Participants : X. Rodet, G. Peeters, J. Escribe, D. Tardieu, A. Livshin, C. Yeh et B. Delezoide

Collaborations internes : J. BarthÈlÈmy (Service en ligne)

Collaborations extÈrieures : GaÎl Richard (LTCI CNRS-Get/TÈlÈcom Paris), L. Chen (LIRIS CNRS).

5.8. Collaboration multimodale pour l'indexation

AprËs avoir testÈ et implÈmentÈ plusieurs systËmes de segmentation temporelle et de classification des objets mono mÈdium en 2003, nous avons poursuivi en 2004 sur lπÈtude de systËmes Èquivalents de traitement des objets multimÈdias. Plusieurs algorithmes, permettant la prise en compte des informations contenues dans les diffÈrents mÈdias des documents, ont ÈtÈ dÈveloppÈs. Ceux-ci sπappliquent au cinÈma, o˘ sont prÈsents trois mÈdias : image, son et texte (sous-titre), mais peuvent aussi Ítre utilisÈs pour de nombreuses t‚ches comme la vidÈo surveillance ou la recherche de vidÈo dans de grandes bases de donnÈes.

Un algorithme de segmentation hiÈrarchique de film a ÈtÈ dÈveloppÈ [Delezoide04a]. Il dÈcoupe temporellement un film, et fournit une reprÈsentation structurelle de celui-ci en quatre niveaux de granularitÈ : plan, groupe de plans, scËne, groupe de scËnes. Cette reprÈsentation est ensuite intÈgrÈe dans un arbre hiÈrarchique, ce qui permet un traitement simplifiÈ de la structure du film par des algorithmes, par exemple de classification. Cette segmentation prend en compte les informations issues du son et de lπimage, et surtout les relations qui lient ces mÈdias ‡ diffÈrents niveaux de granularitÈ temporelle.

AprËs avoir dÈcoupÈ le film en structures significatives, nous voulons dÈcrire le contenu de chacun des ÈlÈments des structures. Pour cela, plusieurs algorithmes de classification ont ÈtÈ dÈveloppÈs :

∑ Classification dπambiance. ¿ partir dπun plan du film, lπalgorithme dÈtermine ´ le lieu dans lequel on se trouve ª. Une ontologie hiÈrarchique des ´ lieux ª a ÈtÈ construite comprenant les concepts : intÈrieur/extÈrieur, ville/campagne, etc. Un outil de classification fondÈ sur les Support Vector Machine (SVM) permet de dÈterminer de faÁon hiÈrarchique lπappartenance dπun plan (image et son) aux classes de lπontologie [Delezoide04b]. Un rÈseau bayÈsien opËre la fusion des donnÈes des diffÈrents mÈdias, mais aussi des donnÈes de bas niveaux (descripteurs) et de niveau moyen (prÈsence dπun immeuble). Ainsi une description du type ´ extÈrieur/ville/place ª est construite et permet la localisation du plan.

∑ Identification des personnages. A partir de lπimage dπun comÈdien et de lπenregistrement de sa voix, nous voulons dÈterminer son nom. Ici, un algorithme de reconnaissance des visages, dÈveloppÈ au CEA et un algorithme de reconnaissance de la voix, dÈveloppÈ ‡ lπIrcam sont associÈs par lπintermÈdiaire dπun rÈseau bayÈsien pour dÈterminer le nom du comÈdien prÈsent ‡ lπimage.

Nous prÈvoyons de rassembler les algorithmes ÈtudiÈs pendant ces deux derniËres annÈes afin de construire un systËme de description textuelle globale des films. Ce systËme permettra de classer et de rechercher un film ou un segment de film dans une base de donnÈe ‡ lπaide de texte.

Participants : B. Delezoide (thËse).

Collaborations extÈrieures : C.Flhur (CEA), P.Hede (CEA).

[Delezoide04a] Delezoide, B., ´ Hierarchical film segmentation using audio and visual similarity≤.

[Delezoide04b] Delezoide, B., ≥Indoor-outdoor classification using image and audio features≤.

6. ModËles physiques de production sonore

Par opposition aux modËles de signaux essentiellement utilisÈs dans les paragraphes prÈcÈdents, les modËles physiques mettent lπaccent sur le processus physique de crÈation du son dans les instruments acoustiques. LπarrivÈe dπun chercheur CNRS, T. HÈlie, qui avait prÈparÈ sa thËse avec nous, a renforcÈ la compÈtence de lπÈquipe dans ce domaine. Dπautre part le projet RIAM Windset a commencÈ en 2004 en collaboration avec un industriel et donnera des modËles directement utilisables par les compositeurs.

6.1. ModÈlisation physique et simulation numÈrique

T. HÈlie est arrivÈ dans lπÈquipe en octobre 2004. Ses travaux sont concentrÈs sur trois thËmes autour de la simulation numÈrique: les tubes ÈvasÈs avec pertes visco-thermiques (avec D. Matignon, ENST), un algorithme de rÈsolution rapide de propagation non linÈaire ‡ amortissement proportionnel (avec C. Vergez, LMA-CNRS) et l'utilisation des SÈries de Volterra pour la rÈsolution d'Èquations aux dÈrivÈes partielles faiblement non linÈaires avec contrÙle frontiËre en 2D (avec B. Laroche, SupÈlec/INRA). Cette derniËre Ètude a pour but de permettre ‡ terme la simulation d'instruments de musique y compris pour des nuances fortissimo.

Participants : T. HÈlie (CR2 CNRS)

Collaborations internes : C. Vergez (Èquipe Acoustique Instrumentale- CR2, CNRS LMA)

Collaborations extÈrieures : B. Laroche (MdC- L2S SupÈlec/INRA), D. Matignon (MdC-ENST).

6.2. ModËle de l'anche double et du hautbois

L'objectif de ce travail de thËse est de caractÈriser le comportement de l'anche double comme excitateur d'instruments ‡ vent et de proposer un modËle de synthËse sonore. Les mesures des caractÈristiques statiques dÈbit/pression se sont avÈrÈes plus difficiles que prÈvu pour les anches doubles. En particulier, la mÈthode utilisÈe par S. Ollivier dans sa thËse pour la mesure de la mÍme courbe pour les becs de Clarinette ne semble pas pouvoir sπappliquer directement au cas des anches doubles. On a envisagÈ de nouvelles pistes, en particulier la mesure de plusieurs caractÈristiques pour chaque ouverture de l'anche. Les principaux travaux effectuÈs sont :

∑ Mesures par fil chaud. Des mesures de vitesse d'Ècoulement par fil chaud ont ÈtÈ rÈalisÈes, notamment en collaboration avec B. Fabre (LAM, Paris), expert dans ce domaine. Elles nous ont servi ‡ dÈterminer les fonctions caractÈristiques de dÈbit, mais aussi ‡ obtenir une sÈrie d'informations importantes sur l'Ècoulement dans la partie finale de l'anche. Les techniques mises en ¶uvre ont aussi permis dπÈtendre ces mesures au cas dynamique.

∑ Mesures de paramËtres physiques de l'anche double. En plus des mesures relevant purement de la MÈcanique des Fluides, on a aussi essayÈ de faire une caractÈrisation simplifiÈe de l'anche du point de vue MÈcanique et du couplage Fluide/Structure. Ces travaux ont fait lπobjet de deux stages en 2004 :

o RÈponse mÈcanique de l'anche (stage C. Vern). Une mÈthode a ÈtÈ dÈveloppÈe pour mesurer la rÈponse mÈcanique de l'anche double, avec une excitation acoustique et une mesure de vibration par vibromËtre laser.

o Mesures statiques de l'anche (stage M. Coulon) : raideur (mÈthode mixte mesure de pression et traitement d'image) et viscoÈlasticitÈ de l'anche (par traitement d'image), et dÈveloppement d'interfaces de traitement d'image.

∑ Pendant son stage, M. Coulon a amÈliorÈ les programmes Matlab de traitement d'image (utilisÈs pour de nombreuses expÈriences rÈalisÈes par A. Almeida) et les a intÈgrÈes dans une interface graphique, permettant entre autres de faire des analyses d'image en temps rÈel.

∑ DÈveloppement du modËle d'Ècoulement et de couplage fluide-structure. Face ‡ toutes les donnÈes dÈj‡ rÈunies, plusieurs modËles peuvent Ítre proposÈs pour dÈcrire le couplage fluide-structure dans l'anche double. Ce modËle sera testÈ dans notre moteur de synthËse d'instrument ‡ anche.

Participants : A.. Almeida (thËse)

Collaborations internes : M. Coulon, C. Vern, R. CaussÈ, G. Bertrand (Èquipe Acoustique Instrumentale), A.. Terrier (Atelier mÈcanique)

Collaborations extÈrieures : C. Vergez (LMA), B. Fabre (LAM Paris 6), A. Hirschberg (TUE, Pays-Bas).

6.3. Projet Windset : MultimodËle physique pour applications musicales

Ce projet est menÈ en collaboration avec la sociÈtÈ ARTURIA et soutenu par le rÈseau RIAM. Le but est de concevoir et de dÈvelopper des modËles physiques dπinstruments ‡ vent, en particulier trompette, trombone, saxophone, clarinette et fl˚te. Ces modËles sont implantÈs dπune part dans MAX, dπautre part en ´ plugin ª VST sur PC pour Ítre utilisÈs par les musiciens clients dπARTURIA notamment. Ces travaux sont menÈs en collaboration entre les Èquipes Analyse-SynthËse (X. Rodet et A. Almeida), Acoustique des Instruments (R. CaussÈ et A. Almeida), Logiciels Libres et IngÈnierie des Logiciels (P. Tisserand) et Applications Temps-RÈel (N. Schnell), et avec C. Vergez. Trompette et trombone sont dÈrivÈs du modËle conÁu et dÈveloppÈ par C. Vergez durant sa thËse ‡ lπIrcam. Les dÈveloppements sont assurÈs en particulier par P. Tisserand. C. Vergez et A. Almeida sont chargÈs de concevoir et dÈvelopper des modËles physiques de trompette, clarinette et saxophone et de les rendre jouables ‡ partir d'un contrÙleur Midi de type clavier. Pour l'annÈe de 2004, les principaux rÈsultats sont une version prÈliminaire de trompette, de clarinette (sans ´ mapping ª) et une version alpha de saxophone avec un ´ mapping ªsimple nÈcessitant encore des amÈliorations.

Participants : X. Rodet, A. Almeida, P. Tisserand (IngÈnierie des Logiciels)

Collaborations internes : R. CaussÈ (Èquipe Acoustique des Instruments), N. Schnell (Applications Temps-RÈel)

Collaborations extÈrieures : C. Vergez (LMA).

7. DÈveloppements

La nouvelle version du logiciel AudioSculpt a largement dÈpassÈ les fonctionnalitÈs de la prÈcÈdente et connaÓt un grand succËs. Le dÈveloppement logiciel dans lπÈquipe a aussi ÈtÈ marquÈ par les contrats passÈs avec des industriels pour lπacquisition de certains de nos programmes, en particulier la sociÈtÈ amÈricaine MakeMusic. Concernant le dÈveloppement des bibliothËques et logiciels de l'Èquipe, on peut citer les rÈalisations suivantes en 2004:

∑ DÈveloppement des logiciels du Forum avec lπobjectif de mettre toutes les analyses connues dans AudioSculpt-1.2beta ‡ la disposition des utilisateurs d'AudioSculpt-2.

∑ DÈveloppements financÈs par des moyens externes (Mist, MakeMusic)

∑ Maintenance des logiciels et bibliothËques internes,

∑ Augmentation de l'efficacitÈ.

7.1. SuperVP

Le dÈveloppement du logiciel SuperVP a ÈtÈ poursuivi en Ètroite relation avec celui du logiciel AudioSculpt. Les objectifs principaux atteints en 2004 sont:

∑ Augmentation de l'efficacitÈ et de la portabilitÈ du code.

∑ Tous les modes d'analyse et transformation de la version de SuperVP dans AudioSculpt-1.2bÈta ont ÈtÈ implÈmentÈs : analyse pics, ´ mask ª, ´ spectral flow markers ª, synthËse croisÈe gÈnÈralisÈe.

∑ Pour tous les traitements et analyses, le nombre de canaux n'est contraint que par la puissance de calcul et le mÈmoire accessible. La dÈtection et prÈservation des transitoires dans les fichiers multi-canaux a ÈtÈ amÈliorÈe, la synchronisation des transitoires dans les diffÈrents canaux est respectÈe.

∑ GÈnÈralisation du support des fichiers au format SDIF (F0 et marques en particulier). La re-synthËse ‡ partir d'un fichier SDIF est Ègalement possible.

∑ Pour faciliter le portage de SuperVP et augmenter l'efficacitÈ, la bibliothËque UDI a ÈtÈ complËtement remplacÈe par la bibliothËque MatMTL. Cela a nÈcessitÈ une rÈ-implÈmentation du ´ cepstre discret ª et de la ´ dÈtection des pics ª en MatMTL.

∑ La mÈthode de synchronisation des phases, originalement fondÈe sur la publication de Dolson et Laroche, a ÈtÈ remplacÈe par un nouvel algorithme.

∑ Une bibliothËque dynamique a ÈtÈ dÈveloppÈe, qui sera utilisÈe pour la dilatation et la transposition en temps rÈel.

Participants : A. Roebel.

7.2. BibliothËque Pm2

L'objectif d'implÈmentation, dans AudioSculpt-2, de tous les modes d'analyse connus dans AudioSculpt-1.2bÈta a entraÓnÈ un dÈveloppement important pour permettre les analyses de partiels en mode harmonique et non-harmonique, et l'analyse en ´ chord sequence ª. Comme le logiciel SuperVP contient un grand nombre de modules et, comme le logiciel Pm2 offrait l'analyse de partiels en mode harmonique, il a ÈtÈ dÈcidÈ d'intÈgrer lπanalyse de partiels non-harmoniques dans Pm2. Les travaux rÈalisÈs comprennent:

∑ LπimplÈmentation du nouvel algorithme de suivi de partiels non-harmoniques (voir: modËles d'analyse et de synthËse du signal audio).

∑ La dÈfinition d'un format de stockage des analyses et lπimplÈmentation de deux modes d'analyse ´ chord sequence ª.

Participants : A. Roebel.

7.3. FrÈquence fondamentale F0

Suite ‡ des demandes extÈrieures (sociÈtÈ MakeMusic), de nouveaux algorithmes d'analyse F0 ont ÈtÈ implÈmentÈs pour rÈduire significativement le temps de calcul. Deux approches ont ÈtÈ utilisÈes :

∑ Le temps de calcul de l'algorithme actuel a ÈtÈ rÈduit dπun facteur d'ordre 3.

∑ En se basant sur les nouveaux algorithmes ÈtudiÈs pendant deux stages des annÈes 2002 et 2003, un nouvel algorithme a ÈtÈ intÈgrÈ en plus de lπactuel. Ce nouvel algorithme rÈduit le temps de calcul encore dπun facteur 3. Par contre il semble que les rÈsultats sont lÈgËrement moins bons. ¿ l'heure actuelle, la nouvelle implÈmentation n'utilise pas encore toutes les procÈdures crÈÈes lors des stages et une amÈlioration des rÈsultats semble possible.

Participants : A. Roebel.

7.4. Easdif/SDIF

Les bibliothËques Easdif et SDIF ont ÈtÈ amÈliorÈes sur plusieurs points [Wright04a]. Les amÈliorations concernent la possibilitÈ d'utiliser Easdif/SDIF dans des applications multi-threads, l'efficacitÈ de la lecture et de l'Ècriture et la crÈation d'une nouvelle API pour la lecture des fichiers SDIF en accËs alÈatoire (random access) stockant automatiquement les positions et types des trames dÈj‡ lues.

Participants : N. Bogaards, A. Roebel

Collaborations internes : P. Tisserand (Èquipe Logiciels Libres et IngÈnierie du Logiciel), D. Schwarz (Èquipe Applications Applications Temps-RÈel)

7.5. BibliothËque MatMTL

Le but de la bibliothËque MatMTL est de faciliter la crÈation de logiciels de calcul vectoriel en permettant de traduire aisÈment les fichiers sources ´ .m ª de Matlab en C++, avec, en mÍme temps, une forte diminution du co˚t de calcul. Pendant l'annÈe 2004, la compatibilitÈ de la bibliothËque avec Matlab a ÈtÈ amÈliorÈe avec l'implÈmentation des nouveaux conteneurs du type ´ bool ª et l'implÈmentation de plusieurs fonctions qui manquaient : extension des fonctions FFT et FFT inverse, LPC, histc, wrapPhase, median, etc.

Participants : A. Roebel.

7.6. AudioSculpt

La nouvelle version du logiciel AudioSculpt [Bogaards04a] connaÓt un grand succËs. Durant lπannÈe 2004 le dÈveloppement a permis de dÈpasser largement les fonctionnalitÈs de la version prÈcÈdente 1.2bÈta. En mÍme temps, ce logiciel est modernisÈ, accÈlÈrÈ et pourvu de nombreuses fonctionnalitÈs nouvelles et remarquables. Les buts principaux poursuivis ont ÈtÈ la stabilisation du logiciel, lπamÈlioration de lπergonomie de lπinterface et lπintÈgration des derniers algorithmes des ´ kernels ª SuperVP et Pm2. Parmi les nombreux changements, on peut citer:

∑ Adoption du format SDIF pour toutes les analyses,

∑ Ajout des analyses en partiels, chord seq, frÈquence fondamentale et dπautres,

∑ Import et export graphique des sonagrammes,

∑ AmÈliorations de lπinterface graphique, activation des pistes, fichiers multicanaux,

∑ Analyse des sons trËs longs,

∑ Mode temps rÈel.

Participants : N. Bogaards, N. Ellis, A. Roebel

Collaboration extÈrieure : A. Lithaud (Compositeur).

7.7. Maintenance

La maintenance des autres bibliothËques et logiciels de l'Èquipe, notamment Additive, Xspect, Pm, a ÈtÈ continuÈe. Elle concerne la rÈsolution de problËmes liÈs aux Èvolutions des compilateurs et des systËmes opÈrationnels, et la rÈsolution des bogues.

Participants : A. Roebel.

8. Publications et communications

Articles parus dans des revues ‡ comitÈ de lecture

[Susini04b] Susini, P., McAdams, S., Winsberg, S., Perry, Y., Vieillard, S., Rodet, X., ´ Characterizing the sound quality of air-conditioning noise ª, ACUSTICA united with acta acustica, Ao˚t 2004

Actes de congrËs avec comitÈ de lecture

[Almeida 04a] Almeida, A. et Vergez C. et CaussÈ, R. et Rodet X., ´ Physical model of an oboe: comparison with experiments ª, International Symposium on Musical Acoustics Nara : Avril 2004, pp. 155-164.

[Almeida 04b] Almeida, A. et Vergez C. et CaussÈ, R., ´ Experimental Investigations on Double Reed Quasi-Static Behavior ª, International Congress on acoustics. Kyoto/Japan : Avril 2004, pp. 155-164.

[Bogaards04a] Bogaards, N., Roebel, A., Rodet, X., ´ Sound Analysis and Processing with AudioSculpt 2 ª, International Computer Music Conference (ICMC), Miami, 2004

[Dhaes04a] D'haes, W., ´ A highly optimized method for computing amplitudes over a windowed short time signal : from O ( K 2 N ) to O ( N log( N )) ª, IEEE Signal Processing Symposium (SPS), Hilvarenbeek, 2004

[Dhaes04b] D'haes, W., ´ A highly optimized method for computing amplitudes over a windowed short time signal : from O ( K 2 N ) to O ( N log( N )) ª, 116th Audio Engineering Society Convention (AES), 2004

[Lambert04a] Lambert, J.P., ´ PHASE Project ª, Les journÈes du design sonore, 2004

[Livshin04b] Livshin, A., Rodet, X., ´ Musical instrument identification in continuous recordings ª, Digital Audio Effects 2004, Naples, Italy, 2004

[Peeters04b] Peeters, G., ´ What is MPEG-7, How to get into MPEG-7 ? ª, AES International COnference, London, 2004

[Rodet04a] Rodet, X., Escribe, J., Durigon, S., ´ Improving score to audio alignment: Percussion alignment and Precise Onset Estimation ª, ICMC, 2004

[Roebel04a] Roebel, A., Zivanovic, M., Rodet, X., ´ Signal decomposition by means of classification of spectral peaks ª, International Computer Music Conference (ICMC), Miami, 2004, pp. 446-449

[Vincent04a] Vincent, E., Rodet, X., ´ Underdetermined source separation with structured source priors ª, 5th Int. Symp. on ICA and BSS (ICA'04), Granada, 2004

[Vincent04b] Vincent, E., Rodet, X., ´ Music transcription with ISA and HMM ª, 5th Int. Symp. on ICA and BSS (ICA'04), Granada, 2004

[Vincent04d] Vincent, E., Rodet, X., ´ Instrument identification in solo and ensemble music using Independent Subspace Analysis ª, ISMIR, 2004

[Wright04a] Wright, M., Dannenberg, R., Pope, S., Rodet, X., Serra, X., Wessel, D., ´ Panel: Standards from the Computer Music Community : 1,2 , 3 4 , 5 , 6 , 1 ª, ICMC, 2004

[Yeh04a] Yeh, C., Roebel, A., ´ A new score function for joint evaluation of multiple F0 hypothesis ª, International Conf. on Digital Audio Effects (DAFx), Naples, 2004, pp. 234-239

[Yeh04b] Yeh, C., Roebel, A., ´ Physical principles driven joint evaluation of multiple F0 hypotheses ª, ISCA Tutorial and Research Workshop on Statistical and Perceptual Audio Processing, Jeju, 2004

[Zivanovic04a] Zivanovic, M., Roebel, A., Rodet, X., ´ A new approach to spectral peak classification ª, Proc. of the 12th European Signal Processing Conference (EUSIPCO), Vienna, 2004, pp. 1277-1280

Travaux universitaires

[Beller04a] Beller, G., ´ SynthËse concatÈnative de la parole par sÈlection d'unitÈs ª, Ircam - UniversitÈ Paris 8, 2004

[Champion04a] Champion, G., ´ Application du modele additif shape invariant pour la transformation de la voix ª, Universite Paris 6, 2004

[Dhaes04c] D'haes, W., ´ Automatic Estimation of Control Parameters for Musical Synthesis ª, UniversitÈ d'Anvers, 2004

[Goyeau04a] Goyeau, J.B., ´ Descripteurs et algorithmes de caractÈrisation de l'aspect rythmique du son et de la musique ª, UniversitÈ Parix VI, 2004.[DEA ATIAM]

[LeBeux04a] Le Beux, S., ´ SynthËse de la parole ‡ partir du texte ª, CPE Lyon, 2004

[Schwarz04a] Schwarz, D., ´ Data-Driven Concatenative Sound Synthesis ª, UniversitÈ Paris 6 - Pierre et Marie Curie, 2004

[Tardieu04b] Tardieu, D., ´ SynthËse et transformation sonore par descripteurs de haut-niveau ª, UniversitÈ Aix Marseille II, 2004. [DEA ATIAM]

[Vincent04c] Vincent, E., ´ ModËles d'instruments pour la sÈparation de sources et la transcription d'enregistrements musicaux. ª, IRCAM - UniversitÈ Paris-6, 2004

Brevet

Brevet ´ rÈsumÈ sonore ª Ircam/France TÈlÈcom, Geoffroy Peeters

Rapports de recherche

[Lambert04b] Lambert, J.P., ´ Projet PHASE Jouer de la musique avec un bras haptique ª, 2004

[Mobuchon04a] Mobuchon, P., Gosselin, F., Andriot, C., Lambert, J.P., GuÈdy, F., Perret, J., Rodet, X., ´ PHASE: Plate forme Haptique d_'application Sonore pour l'Èveil musical. Bilan de fin de projet : pascal MOBUCHON (ONDIM) Florian GOSSELIN (CEA) Claude ANDRIOT (CEA) Jean-Philippe LAMBERT (IRCAM) Fabrice GUEDY (IRCAM) JÈrÙme PERRET (HAPTION) Consortium PHASE ª, 2004

[Peeters04a] Peeters, G., ´ A large set of audio features for sound description (similarity and classification) ª, 2004

ConfÈrences invitÈes

X. Rodet, ´ La voix et la personnalitÈ des voix ‡ la radio ª, Semaine du Son, Paris, Janvier 2004.

X. Rodet, ´ SynthËse vocale et d'effet de choeur : Ètat de l'art ª, JournÈe d'Ètude "Voix et Nouvelles Technologies" , Festival RÈsonances, Ircam, 21 Octobre 2004.

X. Rodet, ´ Re-crÈation dπune voix de Castrat pour le film Farinelli ªforum l'Europe des voix, 17 janvier 2004, CitÈ de la musique, Paris.

Diffusion de connaissances

Organisation de la session ´ MPEG7 workshop ª , 25th International AES Conference - 17th-18th June 2004 - London, UK.

Colloques et sÈminaires

G. Peeters : Cours ´ Formation numÈrisation ª, Mai 2004

G. Peeters : SÈminaire Ircam ´ descripteurs et classification des sons ª , Janvier 2004

G. Peeters : SÈminaire ENST ´ descripteurs et classification des sons ª , Novembre 2004

G. Peeters : ConfÈrence RÈsonance, ´Navigation dans un morceau ª, confÈrence SHF, octobre 2004

G. Peeters : ConfÈrence RÈsonance, ´Outils dπaide ‡ lπÈcouteª, JournÈe Education Nationale, octobre 2004

A. Roebel : Transient detection and preservation in the phase vocoder

rencontre LMA/IRCAM

A. Almeida : Instruments ‡ anche double, PrÈsentation ‡ la JournÈe LMA /IRCAM, Marseille LMA, Janvier 2004

Emissions radiophoniques et tÈlÈvisÈes, entretiens journalistiques, animations

G. Peeters : Entretiens pour Article Les Inrockuptibles, ´ La musique sans chaine ª, avril 2004.

G. Peeters : Entretiens pour Article 01Net, ´ Lπircam recherche la chaine HIFI du futur ª. http://www.01net.com/article/254550.html, octobre 2004.

G. Peeters : Entretiens pour Article TÈlÈrama-Sortir ´ Cinq bonnes raisons dπaller ‡ lπIrcam ª, supplÈment Paris, dÈcembre 2004

X. Rodet : Interview pour la Radio Suisse, 24 May 2004

X. Rodet : Interview avec G. Beck pour la Deutschlandfunk Radio de Cologne, 26 May 2004

X. Rodet : Interview pour l'Express, 14 Octobre 2004

X. Rodet : Interview avec : P. Istria de ´ Ca m'intÈresse , 9 dÈcembre 200