ANALYSE ET SYNTH�SE DES SONS
RAPPORT D�ACTIVIT� 2004
Responsable : X. Rodet
Parmi les strat�gies de recherche et de d�veloppement de l'�quipe, l�une des premi�res est l'am�lioration des m�thodes permettant le traitement, l'analyse et la synth�se des sons, par exemple le vocodeur de phase et le mod�le additif. Nos recherches portent donc sur ces m�thodes, en particulier la distinction des divers types de composantes spectrales pour affiner les traitements tels que transposition ou allongement. Cependant d'autres techniques sont �tudi�es, comme la s�paration de sources qui a �t� l�objet de la th�se remarquable que E. Vincent a soutenue en 2004. En r�ponse � de nombreuses demandes des musiciens (en particulier les compositeurs du groupe de recherche � Voix �), ou venues du spectacle vivant, le traitement de la voix est l�objet de plusieurs travaux, transformation de l�identit� et synth�se d�un locuteur notamment.
Nos travaux sur le geste musical et le contr�le expressif de la synth�se initi�s en 1999, par M. Wanderley et dans une collaboration avec le Cnmat de l'Universit� de Berkeley, ont trouv� aujourd�hui un aboutissement tr�s int�ressant : l�installation Phase, interactive et multimodale, pr�sent�e au grand public au Centre G. Pompidou pendant trois mois, visit�e par 20000 personnes environ, a connu un succ�s extraordinaire aupr�s des non-sp�cialistes et des musiciens. De plus la librairie Phase-Lib issue de ce projet peut ainsi �tre distribu�e dans le Forum de l�Ircam.
Le traitement par le contenu est une voie de recherche poursuivie dans le projet Europ�en SemanticHIFI notamment. Cette voie comprend entre autres la caract�risation, l'indexation et la reconnaissance des structures et des sons musicaux. Dans ce cadre un nouveau projet, MusicDiscover, soutenu par une ACI du minist�re de l�industrie, est commenc� en collaboration avec d�autres centres de recherche. De plus, les travaux effectu�s avec les compositeurs dans le groupe de recherche � Orchestration � ont conduit � de nouvelles explorations du timbre.
La comp�tence de l��quipe dans le domaine des mod�les physiques a �t� renforc�e par l�attribution d�un poste de chercheur CNRS � T. H�lie qui avait pr�par� sa th�se avec nous. Les travaux de l��quipe dans ce domaine continuent �galement de se d�velopper dans le projet RIAM Windset men� en collaboration avec un industriel et qui donnera des mod�les directement utilisables par les compositeurs, par exemple dans le groupe de recherche � Mod�les Physiques �.
Le d�veloppement logiciel dans l��quipe a �t� marqu� par des contrats pass�s avec des industriels pour l�acquisition de certains de nos programmes, en particulier par la soci�t� am�ricaine MakeMusic. De nombreux autres d�veloppements logiciels ont �t� men�s en 2004, en interne ou avec des industriels. Le standard SDIF par exemple est de plus en plus r�pandu dans les logiciels du Forum. Enfin, la nouvelle version du logiciel AudioSculpt a largement d�pass� les fonctionnalit�s de la pr�c�dente et conna�t un grand succ�s. De plus, des extensions tr�s int�ressantes sont en cours d�impl�mentation.
Deux des m�thodes les plus utilis�es d�velopp�es par l��quipe sont le vocodeur de phase et le mod�le additif. Plusieurs voies sont explor�es pour am�liorer ces m�thodes : la conception et la prise en compte d�un v�ritable mod�le de phase (le mod�le dit � shape-invariant �), la distinction des divers types de composantes spectrales pour affiner les traitements tels que transposition ou allongement et la pr�servation de l�enveloppe spectrale. Enfin l�analyse de la hauteur, ou fr�quence fondamentale, est toujours de la plus grande importance dans les applications musicales.
Le vocodeur de phase est le moteur de calcul principal pour les analyses et transformations des sons dans SuperVP et AudioSculpt. Pour la plupart des signaux, la qualit� sonore des signaux transform�s atteint un haut niveau. Pour la parole, par contre, les signaux transform�s souffrent d'un artefact bien connu qui est per�u comme une perte de clart� significative, souvent nomm�e � phasiness �. En synth�se additive, une am�lioration consid�rable peut �tre obtenue en utilisant le mod�le dit � shape invariant�. Ce mod�le a �t� le sujet d'un stage ATIAM pendant lequel l'algorithme a �t� �tudi� de fa�on th�orique, quelques am�liorations ont �t� propos�es et une fa�on coh�rente de traiter le bruit a �t� d�velopp�e [Champion04a]. En vocodeur de phase �galement, une nouvelle m�thode, fond�e sur la proc�dure dite � shape invariant�, a �t� con�ue. On obtient ainsi en vocodeur de phase une qualit� du signal transform� qui est proche de la qualit� obtenue avec l'algorithme PSOLA. Compar� avec le traitement � shape invariant� dans le mod�le additif, le nouvel algorithme a l'avantage qu'il n'y a pas besoin d�estimer la fr�quence fondamentale du signal trait�. Pour le moment l'algorithme a �t� impl�ment� en Matlab [Champion04a]. L'impl�mentation actuelle n�cessite encore du travail pour am�liorer le traitement dans les r�gions non-vois�es du signal.
Participants : A. Roebel, G. Champion (stage ATIAM).
Un nouveau module d'analyse en partiels non-harmoniques a �t� con�u dans AudioSculpt. Pour cette analyse, il existait dans l'�quipe le logiciel HMM. Mais l'utilisation de ce logiciel a montr� deux probl�mes majeurs:
� L'analyse est trop lente,
� Les r�sultats de l'analyse d�pendent de param�tres qui sont difficiles � r�gler.
Pour rendre l'analyse en partiels non-harmoniques plus accessible pour les utilisateurs d'AudioSculpt, un nouvel algorithme a �t� con�u. Le but de ce travail �tait de garder les id�es les plus importants de l'algorithme HMM tout en simplifiant le calcul et le choix des param�tres pour l'utilisateur. Comme HMM, le nouvel algorithme est fond� sur un mod�le probabiliste des variations de fr�quence et d'amplitude d'un partiel. Par contre, la d�finition du voisinage des pics � prendre en compte pour le choix optimal des connexions, et le traitement de l'histoire d'un trajet, ont �t� simplifi�s. Le nouvel algorithme a �t� �tudi� et a donn� des r�sultats proches de ceux de HMM. Le temps de calcul est beaucoup plus faible, de telle sorte qu�une analyse en temps r�el pour un nombre de partiels de l�ordre de 20 ou 30 est possible. L'algorithme a ensuite �t� int�gr� dans la biblioth�que et le programme Pm2 (voir le paragraphe D�veloppements)
Participants : M. Zivanovic (PostDoc), A. Roebel.
La classification de la nature des pics spectraux est importante pour plusieurs applications. Un algorithme permettant cette classification a �t� �tudi� au cours de l'ann�e 2003. Les applications actuelles sont le traitement � shape invariant � dans le vocodeur de phase et l'analyse de fr�quences fondamentales multiples. Pour am�liorer l'utilisation de l'algorithme, une meilleure gestion des param�tres a �t� con�ue. Au cours de l'ann�e 2004, une nouvelle m�thode d'adaptation du seuil pour le descripteur NBD [Roebel04a, Zivanovic04a] a �t� �labor�e. L'utilisateur n'a plus � donner que le taux d'erreur de classification des pics bruit�s comme sinuso�daux et le seuil est adapt� automatiquement. Par contre, pour un r�sultat encore meilleur, le seuil pour le descripteur DD doit aussi �tre r�gl�, ce qui pose un probl�me difficile parce que les fronti�res de d�cision deviennent 2-dimensionnelles.
Participants : M. Zivanovic (PostDoc), A. Roebel.
Suite � des demandes d'utilisateur d'AudioSculpt, le probl�me de la pr�servation de l'enveloppe spectrale a �t� �tudi� de nouveau. Le probl�me se pose lors de la transposition des sons. Le but de cette op�ration est le changement de la hauteur tonale sans changement du timbre du son. Dans la technique de base du vocodeur de phase (SuperVP), une transposition change aussi l'enveloppe spectrale et donc le timbre. La technique accessible dans SuperVP pour la pr�servation de l'enveloppe n�cessitait une transformation en plusieurs �tapes: aplatissement de l�enveloppe par filtrage LPC, transposition, r�-application de l�enveloppe par filtrage LPC inverse. L'�tude du probl�me montre que la n�cessit� de faire la re-synth�se avant d�appliquer la transposition entre les deux filtrages complique la m�thode et rends le r�sultat sous-optimal. Pour �viter cette difficult�, une nouvelle m�thode a �t� mise en place, qui permet de corriger l'enveloppe spectrale avant la transposition en appliquant un seul filtre. Ce filtre d�forme l'enveloppe de fa�on telle que, apr�s transposition, l�enveloppe transpos�e est la m�me que celle du signal original. Si l'enveloppe estim�e est correcte, la m�thode permet de pr�server l'enveloppe d'un fa�on simple et efficace. Les r�sultats sont prometteurs m�me si la m�thode actuellement utilis�e pour l'estimation de l'enveloppe doit �tre am�lior�e. Ce dernier probl�me sera trait� pendant l'ann�e 2005.
Participants : A. Roebel.
L'algorithme d'estimation de fr�quence fondamentale (F0) d�velopp� pendant les ann�es pr�c�dentes est fond� sur le principe du � spectral matching � et sur des informations a priori sur les spectres des sources sonores naturelles. En 2003 nous avons montr� que l'algorithme donne des r�sultats �quivalents � ceux de l'algorithme YIN pour le cas de la parole (F0 unique). Pendant l'ann�e 2004, nous avons �tudi� des crit�res efficaces pour l'�valuation des hypoth�ses dans le cas de l'estimation de F0 multiples. Nous avons aussi �tudi� les possibilit�s d'adapter la pond�ration des diff�rentes r�gions du spectre observ� afin d'utiliser au mieux l'information disponible. Dans ce cadre, la classification des pics spectraux a trouv� une nouvelle application. L'algorithme d'estimation de F0 multiples actuellement d�velopp� utilise encore l'hypoth�se que le nombre des sources sonores est connu. Il �value un certain nombre de combinaisons hypoth�tiques de F0 candidats. Pour un nombre d'instruments limit�, pas plus de 5, les r�sultats de l'algorithme sont prometteurs. Une base de donn�es a �t� cr��e, suivant la description de la th�se de A. Klapuri, pour pouvoir comparer nos r�sultats avec les siens. Comme la s�lection des sons utilis�s pour l��valuation est al�atoire, la comparaison avec les chiffres de A. Klapuri doit �tre interpr�t�e avec pr�caution. Mais nous avons constat� que notre algorithme se compare plut�t favorablement avec le sien. Notons enfin que cette recherche est �galement incluse dans le projet MusicDiscover et utilis�e par A. Livshin pour la reconnaissance des instruments en contexte polyphonique.
Participants : C. Yeh (Th�se), A. Roebel
Collaborations internes : A. De Cheveign� (�quipe Perception et cognition musicales).
A partir d'un enregistrement d'un instrument, il s'agit
d'estimer les param�tres de jeu d'un mod�le, afin que la production du mod�le
soit la plus proche possible de l'enregistrement. Pour cela, une large base de
donn�es des diff�rentes productions du mod�le est constitu�e, pour servir � la
technique dite d'apprentissage par table. La m�thode a �t� appliqu�e � un
mod�le de trompette sur lequel des contraintes physiques ont �t� impos�es pour
r�soudre le probl�me des solutions multiples [Dhaes04b], [Dhaes04a]. Ce travail
de th�se a �t� termin� en 2004 et la th�se soutenue le 15 Juin [Dhaes04c].
Participants : W. D�Haes (th�se)
Collaborations ext�rieures : D. Van Dyck (Universit� d'Anvers)
Ce travail a pour but d'extraire dans un enregistrement musical polyphonique (monocanal ou multicanal) la partie jou�e par chaque instrument [Vincent04a]. Dans le cadre de sa th�se, E. Vincent a propos� un mod�le probabiliste d'instrument par r�seau bay�sien hi�rarchique permettant de prendre en compte conjointement de nombreuses caract�ristiques des sources: harmonicit�, enveloppe spectrale, dur�e des notes et direction spatiale[Vincent04b]. Ce travail a �t� appliqu� � quatre t�ches pr�cises: identification des instruments, transcription des notes jou�es par chacun, s�paration de sources et re-mixage [Vincent04d]. Des r�sultats particuli�rement innovants ont �t� obtenus pour l'identification d'instruments dans des duos synth�tiques et pour la s�paration de m�langes synth�tiques tr�s r�verb�rants ou contenant des instruments de m�me tessiture. Par ailleurs, la collaboration suivie avec R. Gribonval et C. F�votte a permis de d�finir de meilleures mesures de performance pour la s�paration de sources.
E. Vincent a soutenu cette th�se le 2 d�cembre 2004 [Vincent04c]. La th�se a re�u un excellent accueil et les r�sultats sont tout � faits remarquables.
Participants : E. Vincent (th�se)
Collaborations internes : A. Livshin (th�se), C. Yeh (th�se)
Collaborations ext�rieures : R. Gribonval (METISS, IRISA Rennes), C. F�votte (Signal Processing Lab, Cambridge University)
R�cemment, de nombreuses demandes concernant le traitement de la voix sont apparues. Elles proviennent des musiciens, du th��tre, du film et du multim�dia. Deux directions de recherche sont donc commenc�es, l�une sur la transformation de l�identit� d�une voix et l�autre sur la synth�se d�un locuteur.
Ce projet, d�but� en 2003, est men� par des stagiaires. Il a pour but la reconstitution de la voix d'un locuteur � partir d'enregistrements. Le syst�me Talkapillar permet de cr�er une voix par une s�lection intelligente de fragments sonores dans une base de donn�es, en fonction du texte que l'on souhaite faire prononcer. L�un des buts est de pouvoir pr�server l'identit� vocale d�un locuteur. L'introduction d'un mod�le prosodique nous a d�j� permis d'aller dans ce sens. Un nouveau texte pourrait alors �tre lu par ce mod�le comme si le locuteur l'avait prononc�.
Le syst�me de synth�se de la parole par concat�nation d'unit�s � Talkapillar � [LeBeux04a], [Beller04a], a b�n�fici� des am�liorations suivantes :
� D�veloppement d�un mod�le de prosodie par s�lection de groupes prosodiques.
� Portage du logiciel d'analyse du texte � Euler � sous Linux.
� Am�lioration de la proc�dure d'alignement d'une voix parl�e avec le texte.
� Diminution des temps n�cessaires � la cr�ation de la voix d'un locuteur et � sa synth�se, gr�ce � une meilleure configuration et � l�utilisation d�un serveur de base de donn�es PostgreSQL.
� Automatisation des �tapes de cr�ation d'une voix.
� Impl�mentation d'un premier programme � Text To Speech �.
� Am�lioration de la robustesse du syst�me, d�veloppement d'outils d'analyse des r�sultats.
Participants : X. Rodet, T. Hueber (stage), H. Cousin (stage), S. Lebeux (stage), G. Beller (stage)
Collaboration interne : D. Schwarz (�quipe Applications Temps-R�el).
Cette th�se, d�but�e au mois d'octobre 2003, a pour objectif de pouvoir donner l'identit� de la voix d'un locuteur 'cible' � la voix d�un locuteur 'source'. Il s�agit donc de trouver une telle fonction de transformation � l'aide de l'extraction, l'apprentissage et la modification de param�tres du signal de la voix (fr�quence fondamentale, enveloppe spectrale, source d'excitation) sp�cifiques d�un locuteur.
Dans la bibliographie actuelle � ce sujet, on trouve deux probl�mes principaux pour les r�sultats obtenus:
� La qualit� moyenne du signal de synth�se, pour certaines transformations, n�est pas per�ue comme celle d�une � voix naturelle �
� Les performances d�pendent de la similarit� des locuteurs source et cible.
Le travail pendant l'ann�e 2004 fut de plusieurs natures. Dans un premier temps, nous avons cherch� � �valuer la performance de la fonction de conversion de param�tres 'source-cible', et ce pour diff�rents contextes phon�tiques. Puis nous avons entrepris une �valuation des param�tres li�s � l'identit� d'un locuteur et qui peuvent �tre utilis�s dans un syst�me d'analyse/synth�se de bonne qualit�. Finalement, un premier syst�me de transformation de voix a �t� d�velopp�. Celui-ci est fond� sur une adaptation de l'application de synth�se PSOLA cr��e par G. Peters. Des transformations fond�es sur des param�tres de conversion fixes dans le temps sont en cours d'�valuation.
Participants : X. Rodet, F. Villavicencio (th�se), G. Peeters.
Le projet PHASE (Plateforme Haptique d'Aide � la Synth�se et � l'�veil musical) est un projet d'�tude du contr�le interactif et multimodal de la synth�se musicale [Lambert04a]. Ce projet est soutenu par le r�seau RIAM et men� par quatre institutions : l�Ircam a effectu� la recherche concernant les manipulations sonores et musicales et a d�fini les m�taphores d�interaction, le CEA-List a effectu� la recherche haptique, la soci�t� Haption a r�alis� l�interface haptique et la soci�t� Ondim s�est occup� de l�int�gration et de la r�alisation visuelle. Le projet est aussi destin� � l'�veil musical de l'utilisateur par la focalisation sur l'�coute, le jeu d'un instrument �labor� et la navigation dans des sc�narios musicaux interactifs. Trois modalit�s sont �tudi�es dans un dispositif fond� sur un contr�le haptique, une visualisation graphique 3D et un syst�me de synth�se musicale de haute qualit� (dans l'environnement Max) et spatialis�. Il est essentiel que ces modalit�s paraissent coh�rentes pour l�utilisateur. La coh�rence entre les diff�rentes modalit�s est garantie par une m�taphore qui fait le lien logique entre celles-ci, et donc entre le monde r�el o� se trouve la main, et le monde virtuel musical. De nombreuses m�taphores ont �t� exp�riment�es en 2003 et 2004. Les principaux travaux effectu�s en 2004 sont :
� Travail sur les modalit�s d'interaction (collaboration avec F. Bevilacqua et N. Schnell, �quipe Applications Temps-R�el) avec des param�tres gestuels de haut niveau ;
� Travail sur les manipulations sonores (adaptation temps r�el d'algorithmes de l'�quipe Analyse/synth�se) avec des param�tres sonores de haut niveau (descripteurs) ;
� Manipulation des structures musicales (travaux du compositeur R. Cahen et de J.P. Lambert) ;
� Mise en jeu et contr�le de la spatialisation (collaboration avec l'�quipe Acoustique des salles et C. Le Prado) ;
� Choix et tests de correspondances entre les diff�rents param�tres de haut niveau (mapping multimodal).
Le second semestre 2004 a �t� consacr� � la construction et � l��valuation d�un d�monstrateur des r�sultats des recherches du projet sous la forme d�une installation interactive offrant au grand public un jeu musical. Durant les trois derniers mois, ce d�monstrateur a �t� pr�sent� et utilis� par un tr�s large public dans la galerie des enfants du centre Pompidou, � l�occasion de l�exposition �Ecoute� [Lambert04b]. � la diff�rence d�un jeu vid�o, le but n��tait pas d�animer des pixels sur un �cran mais bien de jouer avec de la musique et ainsi susciter un �veil musical. Le d�monstrateur a accueilli de l�ordre de 20000 visiteurs et le syst�me a pu �tre essay� par plus de 3000 personnes qui sont reparties avec le r�sultat de leur prestation grav� sur un CD Audio.
Le succ�s aupr�s du public, sp�cialis� ou non, a �t� exceptionnel. Les participants ont manifest� un tr�s grand enthousiasme pour cette installation, son aspect �ducatif et ludique et sa facilit� de prise en main. De nombreuses institutions ont demand� � accueillir le d�monstrateur durant l�ann�e 2005 et plusieurs pr�sentations sont d�j� programm�es. La r�alisation d'une installation interactive pour le grand public sous la forme d'un jeu musical int�grant diff�rentes m�taphores, et le succ�s qu�elle a rencontr� aupr�s d�un public tr�s vari�, allant d�enfants � des compositeurs, montre la validit� d'un tel dispositif et ouvre la voie � de nombreuses manipulations musicales gestuelles originales [Mobuchon04a].
Parmi les r�sultats du projet Phase, on peut aussi noter la librairie Phase-Lib pour MAX, compos�e par R. Cahen avec des patchs d�velopp�s dans le cadre du projet.
Enfin un disque DVD consacr� au projet Phase et au d�monstrateur a �t� r�alis� par D. Hart avec le soutien de r�seau RIAM. Il contient un film d�une dur�e d�une demi-heure qui pr�sente le syst�me, son exploitation par le public et des explications d�taill�es par les diff�rents intervenants.
Participants : X. Rodet, J.-P. Lambert, R. Cahen, F. Guedy, R. Kronenberg, T. Gaudy (stage), N. Obin (stage).
Collaboration interne : �quipe Applications temps r�el
Collaborations ext�rieures : C. Andriot (Laboratoire CEA-List), F. Gosselin (soci�t� Haption), P. Mobuchon (soci�t� Ondim), D. Hart.
L'alignement d�une partition et de l'audio consiste � d�terminer les temps exacts de d�but et de fin des notes d'une partition dans l'enregistrement audio de cette partition. Cela ouvre la voie � de nombreuses applications telles que la d�termination automatique de l'interpr�tation (musicologie), la constitution de bases de donn�es pour la reconnaissance ou la s�paration de sources (Cf. ces projets). Ce travail, commenc� en 2003, s�est poursuivi en 2004 dans le cadre d'un contrat industriel avec la soci�t� MIST. Les objectifs ont �t� les suivants [Rodet04a]:
� Am�lioration de la pr�cision de la d�tection des d�buts de notes,
� Ajout des percussions dans le mod�le acoustique,
� D�tection des fins de notes,
� Estimation des param�tres de hauteur et de dynamique,
� Estimation du timbre pour un � sampler � utilisant des filtres passe-haut et passe-bas et une base de donn�e des instruments de la norme � General Midi �,
� Sortie des r�sultats en fichiers MIDI � enrichi � respectant la norme GM,
� Optimisation de l�algorithme de Dynamic Time Warping,
� Documentation compl�te du projet.
Une version compl�te du logiciel d�alignement a �t� achev�e fin 2004 et livr�e � la soci�t� MIST. Elle a �galement �t� utilis�e dans l��quipe Formulation du Musical pour des �tudes sur l�interpr�tation.
Participants : J. Escribe, P. Bernat-y-vicens (stage) et X. Rodet
Collaborations internes : D. Schwarz (�quipe Applications temps r�el), N. Donin (�quipe Formulation du Musical)
Collaborations ext�rieures : MIST (Soci�t�).
L�expression � traitement par le contenu � met l�accent sur la recherche d�information concernant le contenu musical de fichiers audio. Cela couvre des �tudes sur la reconnaissance et la classification des sons, particuli�rement en vue d'indexation, des �tudes sur la navigation dans des bases de donn�es sonores, par exemple pour les cr�ateurs et � designers � sonores et l'utilisation de descripteurs du son, depuis les bas niveaux jusqu'aux niveaux �lev�s de structuration de l�audio. Le traitement par le contenu est une voie de recherche poursuivie dans le projet europ�en SemanticHIFI notamment. Par ailleurs un nouveau projet, MusicDiscover, sur le traitement de bases de donn�es audio est commenc� en collaboration avec d�autres centres de recherches.
L�extraction de la structure d�un morceau s�int�gre dans les recherches du projet SemanticHIFI. Cette m�thode repose sur la d�tection de r�p�titions dans un signal audio au travers d�observations du signal au cours du temps. Jusqu�� pr�sent ces observations �taient essentiellement fond�es sur la description du timbre du morceau. En 2004, ces observations ont �t� �tendues � la repr�sentation des caract�ristiques harmoniques (repr�sent�es sous forme de chroma) ; ce type d�observation s�av�re particuli�rement utile dans le cas de la musique classique et contemporaine (analyse de sc�nes de l�op�ra K pour l�article de M. Ramstrum); o� ces caract�ristiques pr�valent souvent sur le timbre. L�int�gration de ces travaux dans un � lecteur � flash de structure d�velopp� par l��quipe Hyperm�dia de l�Ircam est rendu possible au travers d�une communication par fichier xml. La d�tection de structures par algorithme de clustering hi�rarchique aglom�ratif a �galement �t� �tudi�e et sera poursuivie en 2005. La d�tection du rythme du morceau (voir ci-apr�s) a �t� int�gr�e dans la g�n�ration du r�sum� audio du morceau (reconstruction beat-synchrone) [Brevet Peeters 2004].
Participants : G. Peeters
Collaborations internes : Equipe Hyperm�dia.
L��tude du rythme s�int�gre dans le cadre de l�extraction des caract�ristiques de haut niveau du projet SHF. Cette �tude commence par l��tablissement d�un algorithme permettant l�extraction du tempo et le marquage des battues utilisable tant dans un cas de musique percussive que de musique classique. Except� le stage de [Durigon03a], ce sujet est relativement nouveau dans l��quipe. Deux approches ont �t� �tudi�es en 2004. La premi�re [Goyeau04a] repose sur la d�tection des � onsets � du signal audio, effectu�e par d�tection de l�augmentation d��nergie simultan�ment dans plusieurs bandes de fr�quence. Un histogramme des distances entre onsets est ensuite cr��. Finalement la p�riodicit� maximale de cet histogramme est estim�e ; celle-ci indique la pulsation expliquant au mieux les diff�rentes p�riodicit�s des onsets. Une deuxi�me approche souvent utilis�e analyse directement la variation d��nergie du signal au cours du temps dans diff�rentes bandes de fr�quence. Une analyse fr�quentielle permet ensuite de d�terminer la pulsation commune entre les diff�rentes bandes de fr�quence. La premi�re approche permet une description d�taill�e du rythme, mais s�av�re peu robuste dans un contexte de musique constitu�e. La deuxi�me approche pr�sente les avantages inverses. Nous avons �tudi� une approche combinant les avantages des deux m�thodes : dans un premier temps une fonction temporelle � continue � repr�sentant la vraisemblance d�un onset � chaque instant est calcul�e, cette fonction est sensible aux onsets de type percussifs mais �galement aux encha�nements de hauteur sans variation d��nergie. La p�riodicit� de cette fonction est �tudi�e au cours du temps par un algorithme de type Viterbi. Cet algorithme permet la prise en compte d�octaviations car la pulsation pr�pond�rante ne correspond pas n�cessairement au tempo. Finalement, le marquage de chaque temps est effectu� par une modification de l�algorithme de marquage PSOLA d�velopp� par G. Peeters. L�algorithme a �t� �valu� sur plusieurs bases de donn�es musicales dont les bases de r�f�rence ISMIR2004. L��tude de l�estimation du caract�re binaire/ternaire, ainsi que de la m�trique, qui est effectu�e au travers du spectre de raies se poursuivra en 2005.
Participants : G. Peeters, J.-B. Goyeau (stage).
Pour ce qui concerne les �chantillons sonores ou notes isol�es, l�am�lioration de l�algorithme de classification automatique des sons �tudi� dans le cadre du projet CUIDADO, par mod�le gaussien hi�rarchique, a �t� �tendu au mod�le de m�lange de gaussiennes hi�rarchique (gaussian mixture). Le module d�extraction automatique des descripteurs [Peeters 04a] a �t� int�gr� dans la Sound Palette On Line de l�Ircam.
Par ailleurs, dans la th�se de A. Livshin, il s�agit de fournir l�indexation automatique de musique en termes des instruments, c�est-�-dire, � chaque instant d�un morceau, de d�terminer les instruments en train de jouer. Les applications sont nombreuses :
� Recherches en fonction d�un instrument ou d�arrangements sp�cifiques dans les musiques disponibles sur Internet ou archiv�es dans une base de donn�es.
� Recherches par similitude en fonction des instruments.
� Contr�le des diff�rents instruments dans les enregistrements, permettant de fournir des fonctions telles que changer le volume de certains instruments dans le m�lange, modifier la spatialisation, etc.
� Exploration et �dition d�une oeuvre enregistr�e (pour les studios d'enregistrement par exemple) en permettant d�aller directement � diverses parties instrumentales.
� Outil suppl�mentaire pour d'autres recherches, telles que l�alignement, la transcription automatique, etc.
En 2004, le travail de recherche s�est port� sur l�identification des instruments dans des ex�cutions solos [Livshin04a] et duos [Livshin04b]. Des r�sultats d�j� utilisables ont �t� obtenus. Par exemple, il est possible de reconna�tre un certain nombre d�instruments en temps r�el avec un taux de r�ussite suffisant pour de nombreuses applications. Ce travail a �t� men� en collaboration avec le projet de d�tection de fr�quences fondamentales multiples (Cf. ce paragraphe). Enfin cette recherche est �galement une part importante du projet MusicDiscover.
Participants : G. Peeters, A. Livshin (th�se), C. Yeh (th�se)
Collaborations internes : P. Tisserand, S. Winsberg.
Ce travail s�inscrit dans le cadre des �tudes de synth�se de haut niveau du projet SemanticHIFI et fait �galement suite aux r�unions du groupe � Orchestration � mise en place lors de l�ann�e 2004. L�objectif est d��tudier les algorithmes permettant la manipulation d�un signal sonore par descripteurs de haut niveau, dans le cas pr�sent les descripteurs consid�r�s sont perceptifs [Tardieu04a]. Des �tudes perceptives (exp�riences de McAdams et al., descripteurs de Krimphoff, Misdariis, Peeters) mettent en �vidence la pr�pond�rance des deux premiers moments spectraux dans la perception du timbre d�un son. L�objectif est de permettre la modification du son � travers ces moments. De mani�re � rendre le syst�me inversible, les moments d�ordre 3 et 4 du spectre sont alors impos�s. Le spectre du signal est mod�lis� sous forme d�une enveloppe spectrale repr�sent�e par un ensemble de splines et un � r�siduel �. Les param�tres des splines sont alors fonction des quatre premiers moments.
Participants : D. Tardieu (stage ATIAM), G. Peeters, X. Rodet
Collaborations internes : �quipe PCM, groupes de travail Orchestration
Le groupe de travail Orchestration a suscit� la mise au point de bases de donn�es pour la recherche et production musicale � l�Ircam. Ces donn�es sont soit issues de la base Studio On Line, soit d�enregistrements effectu�s par la production et qu�il faut traiter. Dans ce cadre, l��quipe a d�velopp� des algorithmes et programmes facilitant la constitution de ces bases de donn�es, normalisation des sons pour le traitement de Studio On Line et d�coupage d�un enregistrement en �chantillons :
� Programme de normalisation en � loudness � des canaux gauche-droit afin de r��quilibrer l�image st�r�ophonique.
� Programme de normalisation en loudness de tous les sons pr�sent dans un r�pertoire donn� afin de permettre la cr�ation de multi-�chantillons homog�nes.
� Programme de d�coupage d�un enregistrement continu en tous sons s�par�s par des silences. Ces sons pourront prochainement �tre class�s automatiquement en sons musicaux, parole et m�lange des deux.
Participants : G. Peeters, X. Rodet, N. Obin (stage)
Collaborations internes : groupe de travail Orchestration, E. Poletti.
Ce projet r�pond � une demande tr�s ponctuelle d�identification d�extraits audio (audio identification, fingerprint). L�algorithme d�identification audio de l�Ircam initialement d�velopp� par L. Worms en 1999 et am�lior� dans le cadre du projet CUIDADO, a �t� revu de mani�re � permettre la reconnaissance audio � travers un canal de transmission d�grad� (combinaison d�une �mission par haut-parleur et r�ception par microphone de t�l�phone).
Participants : G. Peeters.
Ce projet, qui a d�but� � la fin de 2004, est une collaboration avec le LTCI/ENST (Paris) et le LIRIS (INSA de Lyon) (http://recherche.ircam.fr/equipes/analyse-synthese/musicdiscover/). Il fait l�objet d�un financement ACI-Masse de donn�es. L'accroissement des capacit�s de stockage et des d�bits de transmission sur les r�seaux ont favoris� la mise � disposition et la circulation d'un nombre consid�rable d'enregistrements musicaux. Cette masse de donn�es pose des probl�mes nouveaux d'accessibilit� pratique, de traitement et de protection des droits de propri�t�. Il devient ainsi indispensable d'avoir acc�s au contenu (comme c'est le cas par exemple pour le texte), c�est-�-dire � une description s�mantique structur�e et aussi compl�te que possible des enregistrements: m�lodie, genre/style, rythme, instrumentation, structure musicale, harmonie, etc. L'enjeu principal de ce projet est ainsi de d�velopper et d'�valuer des moyens r�ellement orient�s vers le contenu et adapt�s � l'utilisateur. Ces moyens incluent les techniques et outils d'analyse, d'indexation, de repr�sentation et de recherche d'informations qui permettront de construire et d'utiliser cette description s�mantique structur�e.
Participants : X. Rodet, G. Peeters, J. Escribe, D. Tardieu, A. Livshin, C. Yeh et B. Delezoide
Collaborations internes : J. Barth�l�my (Service en ligne)
Collaborations ext�rieures : Ga�l Richard (LTCI CNRS-Get/T�l�com Paris), L. Chen (LIRIS CNRS).
Apr�s avoir test� et impl�ment� plusieurs syst�mes de segmentation temporelle et de classification des objets mono m�dium en 2003, nous avons poursuivi en 2004 sur l��tude de syst�mes �quivalents de traitement des objets multim�dias. Plusieurs algorithmes, permettant la prise en compte des informations contenues dans les diff�rents m�dias des documents, ont �t� d�velopp�s. Ceux-ci s�appliquent au cin�ma, o� sont pr�sents trois m�dias : image, son et texte (sous-titre), mais peuvent aussi �tre utilis�s pour de nombreuses t�ches comme la vid�o surveillance ou la recherche de vid�o dans de grandes bases de donn�es.
Un algorithme de segmentation hi�rarchique de film a �t� d�velopp� [Delezoide04a]. Il d�coupe temporellement un film, et fournit une repr�sentation structurelle de celui-ci en quatre niveaux de granularit� : plan, groupe de plans, sc�ne, groupe de sc�nes. Cette repr�sentation est ensuite int�gr�e dans un arbre hi�rarchique, ce qui permet un traitement simplifi� de la structure du film par des algorithmes, par exemple de classification. Cette segmentation prend en compte les informations issues du son et de l�image, et surtout les relations qui lient ces m�dias � diff�rents niveaux de granularit� temporelle.
Apr�s avoir d�coup� le film en structures significatives, nous voulons d�crire le contenu de chacun des �l�ments des structures. Pour cela, plusieurs algorithmes de classification ont �t� d�velopp�s :
� Classification d�ambiance. � partir d�un plan du film, l�algorithme d�termine � le lieu dans lequel on se trouve �. Une ontologie hi�rarchique des � lieux � a �t� construite comprenant les concepts : int�rieur/ext�rieur, ville/campagne, etc. Un outil de classification fond� sur les Support Vector Machine (SVM) permet de d�terminer de fa�on hi�rarchique l�appartenance d�un plan (image et son) aux classes de l�ontologie [Delezoide04b]. Un r�seau bay�sien op�re la fusion des donn�es des diff�rents m�dias, mais aussi des donn�es de bas niveaux (descripteurs) et de niveau moyen (pr�sence d�un immeuble). Ainsi une description du type � ext�rieur/ville/place � est construite et permet la localisation du plan.
� Identification des personnages. A partir de l�image d�un com�dien et de l�enregistrement de sa voix, nous voulons d�terminer son nom. Ici, un algorithme de reconnaissance des visages, d�velopp� au CEA et un algorithme de reconnaissance de la voix, d�velopp� � l�Ircam sont associ�s par l�interm�diaire d�un r�seau bay�sien pour d�terminer le nom du com�dien pr�sent � l�image.
Nous pr�voyons de rassembler les algorithmes �tudi�s pendant ces deux derni�res ann�es afin de construire un syst�me de description textuelle globale des films. Ce syst�me permettra de classer et de rechercher un film ou un segment de film dans une base de donn�e � l�aide de texte.
Participants : B. Delezoide (th�se).
Collaborations ext�rieures : C.Flhur (CEA), P.Hede (CEA).
[Delezoide04a]
Delezoide, B., � Hierarchical film segmentation using audio and visual
similarity�.
[Delezoide04b]
Delezoide, B., �Indoor-outdoor classification using image and audio features�.
Par opposition aux mod�les de signaux essentiellement utilis�s dans les paragraphes pr�c�dents, les mod�les physiques mettent l�accent sur le processus physique de cr�ation du son dans les instruments acoustiques. L�arriv�e d�un chercheur CNRS, T. H�lie, qui avait pr�par� sa th�se avec nous, a renforc� la comp�tence de l��quipe dans ce domaine. D�autre part le projet RIAM Windset a commenc� en 2004 en collaboration avec un industriel et donnera des mod�les directement utilisables par les compositeurs.
T. H�lie est arriv� dans l��quipe en octobre 2004. Ses travaux sont concentr�s sur trois th�mes autour de la simulation num�rique: les tubes �vas�s avec pertes visco-thermiques (avec D. Matignon, ENST), un algorithme de r�solution rapide de propagation non lin�aire � amortissement proportionnel (avec C. Vergez, LMA-CNRS) et l'utilisation des S�ries de Volterra pour la r�solution d'�quations aux d�riv�es partielles faiblement non lin�aires avec contr�le fronti�re en 2D (avec B. Laroche, Sup�lec/INRA). Cette derni�re �tude a pour but de permettre � terme la simulation d'instruments de musique y compris pour des nuances fortissimo.
Participants : T. H�lie (CR2 CNRS)
Collaborations internes : C. Vergez (�quipe Acoustique Instrumentale- CR2, CNRS LMA)
Collaborations ext�rieures : B. Laroche (MdC- L2S Sup�lec/INRA), D. Matignon (MdC-ENST).
L'objectif de ce travail de th�se est de caract�riser le comportement de l'anche double comme excitateur d'instruments � vent et de proposer un mod�le de synth�se sonore. Les mesures des caract�ristiques statiques d�bit/pression se sont av�r�es plus difficiles que pr�vu pour les anches doubles. En particulier, la m�thode utilis�e par S. Ollivier dans sa th�se pour la mesure de la m�me courbe pour les becs de Clarinette ne semble pas pouvoir s�appliquer directement au cas des anches doubles. On a envisag� de nouvelles pistes, en particulier la mesure de plusieurs caract�ristiques pour chaque ouverture de l'anche. Les principaux travaux effectu�s sont :
� Mesures par fil chaud. Des mesures de vitesse d'�coulement par fil chaud ont �t� r�alis�es, notamment en collaboration avec B. Fabre (LAM, Paris), expert dans ce domaine. Elles nous ont servi � d�terminer les fonctions caract�ristiques de d�bit, mais aussi � obtenir une s�rie d'informations importantes sur l'�coulement dans la partie finale de l'anche. Les techniques mises en �uvre ont aussi permis d��tendre ces mesures au cas dynamique.
� Mesures de param�tres physiques de l'anche double. En plus des mesures relevant purement de la M�canique des Fluides, on a aussi essay� de faire une caract�risation simplifi�e de l'anche du point de vue M�canique et du couplage Fluide/Structure. Ces travaux ont fait l�objet de deux stages en 2004 :
o R�ponse m�canique de l'anche (stage C. Vern). Une m�thode a �t� d�velopp�e pour mesurer la r�ponse m�canique de l'anche double, avec une excitation acoustique et une mesure de vibration par vibrom�tre laser.
o Mesures statiques de l'anche (stage M. Coulon) : raideur (m�thode mixte mesure de pression et traitement d'image) et visco�lasticit� de l'anche (par traitement d'image), et d�veloppement d'interfaces de traitement d'image.
� Pendant son stage, M. Coulon a am�lior� les programmes Matlab de traitement d'image (utilis�s pour de nombreuses exp�riences r�alis�es par A. Almeida) et les a int�gr�es dans une interface graphique, permettant entre autres de faire des analyses d'image en temps r�el.
� D�veloppement du mod�le d'�coulement et de couplage fluide-structure. Face � toutes les donn�es d�j� r�unies, plusieurs mod�les peuvent �tre propos�s pour d�crire le couplage fluide-structure dans l'anche double. Ce mod�le sera test� dans notre moteur de synth�se d'instrument � anche.
Participants : A.. Almeida (th�se)
Collaborations internes : M. Coulon, C. Vern, R. Causs�, G. Bertrand (�quipe Acoustique Instrumentale), A.. Terrier (Atelier m�canique)
Collaborations ext�rieures : C. Vergez (LMA), B. Fabre (LAM Paris 6), A. Hirschberg (TUE, Pays-Bas).
Ce projet est men� en collaboration avec la soci�t� ARTURIA et soutenu par le r�seau RIAM. Le but est de concevoir et de d�velopper des mod�les physiques d�instruments � vent, en particulier trompette, trombone, saxophone, clarinette et fl�te. Ces mod�les sont implant�s d�une part dans MAX, d�autre part en � plugin � VST sur PC pour �tre utilis�s par les musiciens clients d�ARTURIA notamment. Ces travaux sont men�s en collaboration entre les �quipes Analyse-Synth�se (X. Rodet et A. Almeida), Acoustique des Instruments (R. Causs� et A. Almeida), Logiciels Libres et Ing�nierie des Logiciels (P. Tisserand) et Applications Temps-R�el (N. Schnell), et avec C. Vergez. Trompette et trombone sont d�riv�s du mod�le con�u et d�velopp� par C. Vergez durant sa th�se � l�Ircam. Les d�veloppements sont assur�s en particulier par P. Tisserand. C. Vergez et A. Almeida sont charg�s de concevoir et d�velopper des mod�les physiques de trompette, clarinette et saxophone et de les rendre jouables � partir d'un contr�leur Midi de type clavier. Pour l'ann�e de 2004, les principaux r�sultats sont une version pr�liminaire de trompette, de clarinette (sans � mapping �) et une version alpha de saxophone avec un � mapping �simple n�cessitant encore des am�liorations.
Participants : X. Rodet, A. Almeida, P. Tisserand (Ing�nierie des Logiciels)
Collaborations internes : R. Causs� (�quipe Acoustique des Instruments), N. Schnell (Applications Temps-R�el)
Collaborations ext�rieures : C. Vergez (LMA).
La nouvelle version du logiciel AudioSculpt a largement d�pass� les fonctionnalit�s de la pr�c�dente et conna�t un grand succ�s. Le d�veloppement logiciel dans l��quipe a aussi �t� marqu� par les contrats pass�s avec des industriels pour l�acquisition de certains de nos programmes, en particulier la soci�t� am�ricaine MakeMusic. Concernant le d�veloppement des biblioth�ques et logiciels de l'�quipe, on peut citer les r�alisations suivantes en 2004:
� D�veloppement des logiciels du Forum avec l�objectif de mettre toutes les analyses connues dans AudioSculpt-1.2beta � la disposition des utilisateurs d'AudioSculpt-2.
� D�veloppements financ�s par des moyens externes (Mist, MakeMusic)
� Maintenance des logiciels et biblioth�ques internes,
� Augmentation de l'efficacit�.
Le d�veloppement du logiciel SuperVP a �t� poursuivi en �troite relation avec celui du logiciel AudioSculpt. Les objectifs principaux atteints en 2004 sont:
� Augmentation de l'efficacit� et de la portabilit� du code.
� Tous les modes d'analyse et transformation de la version de SuperVP dans AudioSculpt-1.2b�ta ont �t� impl�ment�s : analyse pics, � mask �, � spectral flow markers �, synth�se crois�e g�n�ralis�e.
� Pour tous les traitements et analyses, le nombre de canaux n'est contraint que par la puissance de calcul et le m�moire accessible. La d�tection et pr�servation des transitoires dans les fichiers multi-canaux a �t� am�lior�e, la synchronisation des transitoires dans les diff�rents canaux est respect�e.
� G�n�ralisation du support des fichiers au format SDIF (F0 et marques en particulier). La re-synth�se � partir d'un fichier SDIF est �galement possible.
� Pour faciliter le portage de SuperVP et augmenter l'efficacit�, la biblioth�que UDI a �t� compl�tement remplac�e par la biblioth�que MatMTL. Cela a n�cessit� une r�-impl�mentation du � cepstre discret � et de la � d�tection des pics � en MatMTL.
� La m�thode de synchronisation des phases, originalement fond�e sur la publication de Dolson et Laroche, a �t� remplac�e par un nouvel algorithme.
� Une biblioth�que dynamique a �t� d�velopp�e, qui sera utilis�e pour la dilatation et la transposition en temps r�el.
Participants : A. Roebel.
L'objectif d'impl�mentation, dans AudioSculpt-2, de tous les modes d'analyse connus dans AudioSculpt-1.2b�ta a entra�n� un d�veloppement important pour permettre les analyses de partiels en mode harmonique et non-harmonique, et l'analyse en � chord sequence �. Comme le logiciel SuperVP contient un grand nombre de modules et, comme le logiciel Pm2 offrait l'analyse de partiels en mode harmonique, il a �t� d�cid� d'int�grer l�analyse de partiels non-harmoniques dans Pm2. Les travaux r�alis�s comprennent:
� L�impl�mentation du nouvel algorithme de suivi de partiels non-harmoniques (voir: mod�les d'analyse et de synth�se du signal audio).
� La d�finition d'un format de stockage des analyses et l�impl�mentation de deux modes d'analyse � chord sequence �.
Participants : A. Roebel.
Suite � des demandes ext�rieures (soci�t� MakeMusic), de nouveaux algorithmes d'analyse F0 ont �t� impl�ment�s pour r�duire significativement le temps de calcul. Deux approches ont �t� utilis�es :
� Le temps de calcul de l'algorithme actuel a �t� r�duit d�un facteur d'ordre 3.
� En se basant sur les nouveaux algorithmes �tudi�s pendant deux stages des ann�es 2002 et 2003, un nouvel algorithme a �t� int�gr� en plus de l�actuel. Ce nouvel algorithme r�duit le temps de calcul encore d�un facteur 3. Par contre il semble que les r�sultats sont l�g�rement moins bons. � l'heure actuelle, la nouvelle impl�mentation n'utilise pas encore toutes les proc�dures cr��es lors des stages et une am�lioration des r�sultats semble possible.
Participants : A. Roebel.
Les biblioth�ques Easdif et SDIF ont �t� am�lior�es sur plusieurs points [Wright04a]. Les am�liorations concernent la possibilit� d'utiliser Easdif/SDIF dans des applications multi-threads, l'efficacit� de la lecture et de l'�criture et la cr�ation d'une nouvelle API pour la lecture des fichiers SDIF en acc�s al�atoire (random access) stockant automatiquement les positions et types des trames d�j� lues.
Participants : N. Bogaards, A. Roebel
Collaborations internes : P. Tisserand (�quipe Logiciels Libres et Ing�nierie du Logiciel), D. Schwarz (�quipe Applications Applications Temps-R�el)
Le but de la biblioth�que MatMTL est de faciliter la cr�ation de logiciels de calcul vectoriel en permettant de traduire ais�ment les fichiers sources � .m � de Matlab en C++, avec, en m�me temps, une forte diminution du co�t de calcul. Pendant l'ann�e 2004, la compatibilit� de la biblioth�que avec Matlab a �t� am�lior�e avec l'impl�mentation des nouveaux conteneurs du type � bool � et l'impl�mentation de plusieurs fonctions qui manquaient : extension des fonctions FFT et FFT inverse, LPC, histc, wrapPhase, median, etc.
Participants : A. Roebel.
La nouvelle version du logiciel AudioSculpt [Bogaards04a] conna�t un grand succ�s. Durant l�ann�e 2004 le d�veloppement a permis de d�passer largement les fonctionnalit�s de la version pr�c�dente 1.2b�ta. En m�me temps, ce logiciel est modernis�, acc�l�r� et pourvu de nombreuses fonctionnalit�s nouvelles et remarquables. Les buts principaux poursuivis ont �t� la stabilisation du logiciel, l�am�lioration de l�ergonomie de l�interface et l�int�gration des derniers algorithmes des � kernels � SuperVP et Pm2. Parmi les nombreux changements, on peut citer:
� Adoption du format SDIF pour toutes les analyses,
� Ajout des analyses en partiels, chord seq, fr�quence fondamentale et d�autres,
� Import et export graphique des sonagrammes,
� Am�liorations de l�interface graphique, activation des pistes, fichiers multicanaux,
� Analyse des sons tr�s longs,
� Mode temps r�el.
Participants : N. Bogaards, N. Ellis, A. Roebel
Collaboration ext�rieure : A. Lithaud (Compositeur).
La maintenance des autres biblioth�ques et logiciels de l'�quipe, notamment Additive, Xspect, Pm, a �t� continu�e. Elle concerne la r�solution de probl�mes li�s aux �volutions des compilateurs et des syst�mes op�rationnels, et la r�solution des bogues.
Participants : A. Roebel.
Articles parus dans des revues � comit� de lecture
[Susini04b] Susini, P., McAdams, S.,
Winsberg, S., Perry, Y., Vieillard, S., Rodet, X., � Characterizing the sound
quality of air-conditioning noise �, ACUSTICA united with acta acustica, Ao�t
2004
Actes de congr�s avec comit� de lecture
[Almeida 04a] Almeida, A. et Vergez C. et Causs�, R. et Rodet X., � Physical model of an oboe: comparison with experiments �, International Symposium on Musical Acoustics Nara : Avril 2004, pp. 155-164.
[Almeida 04b]
Almeida, A. et Vergez C. et Causs�, R., � Experimental Investigations on Double
Reed Quasi-Static Behavior �, International
Congress on acoustics. Kyoto/Japan : Avril 2004, pp. 155-164.
[Bogaards04a] Bogaards,
N., Roebel, A., Rodet, X., � Sound Analysis and Processing with
AudioSculpt 2 �, International
Computer Music Conference (ICMC), Miami, 2004
[Dhaes04a] D'haes,
W., � A highly optimized method for computing amplitudes over a windowed
short time signal : from O ( K 2 N ) to O ( N log( N )) �, IEEE Signal Processing Symposium (SPS),
Hilvarenbeek, 2004
[Dhaes04b] D'haes,
W., � A highly optimized method for computing amplitudes over a windowed
short time signal : from O ( K 2 N ) to O ( N log( N )) �, 116th Audio Engineering Society
Convention (AES), 2004
[Lambert04a] Lambert,
J.P., � PHASE Project �, Les
journ�es du design sonore, 2004
[Livshin04b] Livshin,
A., Rodet, X., � Musical instrument identification in continuous
recordings �, Digital Audio
Effects 2004, Naples, Italy, 2004
[Peeters04b] Peeters,
G., � What is MPEG-7, How to get into MPEG-7 ? �, AES International COnference,
London, 2004
[Rodet04a] Rodet,
X., Escribe, J., Durigon, S., � Improving score to audio alignment:
Percussion alignment and Precise Onset Estimation �, ICMC, 2004
[Roebel04a] Roebel,
A., Zivanovic, M., Rodet, X., � Signal decomposition by means of
classification of spectral peaks �, International
Computer Music Conference (ICMC), Miami, 2004, pp. 446-449
[Vincent04a] Vincent,
E., Rodet, X., � Underdetermined source separation with structured source
priors �, 5th Int. Symp. on
ICA and BSS (ICA'04), Granada, 2004
[Vincent04b] Vincent,
E., Rodet, X., � Music transcription with ISA and HMM �, 5th Int. Symp. on ICA and BSS (ICA'04),
Granada, 2004
[Vincent04d] Vincent,
E., Rodet, X., � Instrument identification in solo and ensemble music
using Independent Subspace Analysis �, ISMIR,
2004
[Wright04a] Wright,
M., Dannenberg, R., Pope, S., Rodet, X., Serra, X., Wessel, D., � Panel:
Standards from the Computer Music Community : 1,2 , 3 4 , 5 , 6 , 1 �, ICMC, 2004
[Yeh04a] Yeh,
C., Roebel, A., � A new score function for joint evaluation of multiple F0
hypothesis �, International Conf.
on Digital Audio Effects (DAFx), Naples, 2004, pp. 234-239
[Yeh04b] Yeh,
C., Roebel, A., � Physical principles driven joint evaluation of multiple
F0 hypotheses �, ISCA Tutorial
and Research Workshop on Statistical and Perceptual Audio Processing,
Jeju, 2004
[Zivanovic04a] Zivanovic,
M., Roebel, A., Rodet, X., � A new approach to spectral peak
classification �, Proc. of the
12th European Signal Processing Conference (EUSIPCO), Vienna, 2004,
pp. 1277-1280
Travaux universitaires
[Beller04a] Beller,
G., � Synth�se concat�native de la parole par s�lection d'unit�s �,
Ircam - Universit� Paris 8, 2004
[Champion04a] Champion,
G., � Application du modele additif shape invariant pour la transformation
de la voix �, Universite Paris 6, 2004
[Dhaes04c] D'haes, W., � Automatic Estimation of Control Parameters for Musical Synthesis �, Universit� d'Anvers, 2004
[Goyeau04a] Goyeau,
J.B., � Descripteurs et algorithmes de caract�risation de l'aspect
rythmique du son et de la musique �, Universit� Parix VI, 2004.[DEA ATIAM]
[LeBeux04a] Le
Beux, S., � Synth�se de la parole � partir du texte �, CPE Lyon, 2004
[Schwarz04a] Schwarz,
D., � Data-Driven Concatenative Sound Synthesis �, Universit� Paris 6
- Pierre et Marie Curie, 2004
[Tardieu04b] Tardieu,
D., � Synth�se et transformation sonore par descripteurs de
haut-niveau �, Universit� Aix Marseille II, 2004. [DEA ATIAM]
[Vincent04c] Vincent,
E., � Mod�les d'instruments pour la s�paration de sources et la
transcription d'enregistrements musicaux. �, IRCAM - Universit� Paris-6,
2004
Brevet
Brevet � r�sum� sonore � Ircam/France T�l�com, Geoffroy Peeters
Rapports de recherche
[Lambert04b] Lambert, J.P., � Projet PHASE
Jouer de la musique avec un bras haptique �, 2004
[Mobuchon04a] Mobuchon, P., Gosselin, F.,
Andriot, C., Lambert, J.P., Gu�dy, F., Perret, J., Rodet, X., � PHASE:
Plate forme Haptique d_'application Sonore pour l'�veil musical. Bilan de fin
de projet : pascal MOBUCHON (ONDIM) Florian GOSSELIN (CEA) Claude ANDRIOT (CEA)
Jean-Philippe LAMBERT (IRCAM) Fabrice GUEDY (IRCAM) J�r�me PERRET (HAPTION)
Consortium PHASE �, 2004
[Peeters04a] Peeters, G., � A large set of
audio features for sound description (similarity and classification) �,
2004
Conf�rences invit�es
X. Rodet, � La voix et la personnalit� des voix � la radio �, Semaine du Son, Paris, Janvier 2004.
X. Rodet, � Synth�se vocale et d'effet de choeur : �tat de l'art �, Journ�e d'�tude "Voix et Nouvelles Technologies" , Festival R�sonances, Ircam, 21 Octobre 2004.
X. Rodet, � Re-cr�ation d�une voix de Castrat pour le film Farinelli �forum l'Europe des voix, 17 janvier 2004, Cit� de la musique, Paris.
Diffusion de connaissances
Organisation de la session � MPEG7 workshop � , 25th International AES Conference - 17th-18th June 2004 - London, UK.
Colloques et s�minaires
G. Peeters : Cours � Formation num�risation �, Mai 2004
G. Peeters : S�minaire Ircam � descripteurs et classification des sons � , Janvier 2004
G. Peeters : S�minaire ENST � descripteurs et classification des sons � , Novembre 2004
G. Peeters : Conf�rence R�sonance, �Navigation dans un morceau �, conf�rence SHF, octobre 2004
G. Peeters : Conf�rence R�sonance, �Outils d�aide � l��coute�, Journ�e Education Nationale, octobre 2004
A. Roebel : Transient detection and
preservation in the phase vocoder
rencontre LMA/IRCAM
A. Almeida : Instruments � anche double, Pr�sentation � la Journ�e LMA /IRCAM, Marseille LMA, Janvier 2004
Emissions radiophoniques et t�l�vis�es, entretiens journalistiques, animations
G. Peeters : Entretiens pour Article Les Inrockuptibles, � La musique sans chaine �, avril 2004.
G. Peeters : Entretiens pour Article 01Net, � L�ircam recherche la chaine HIFI du futur �. http://www.01net.com/article/254550.html, octobre 2004.
G. Peeters : Entretiens pour Article T�l�rama-Sortir � Cinq bonnes raisons d�aller � l�Ircam �, suppl�ment Paris, d�cembre 2004
X. Rodet : Interview pour la Radio Suisse, 24 May 2004
X. Rodet : Interview avec G. Beck pour la Deutschlandfunk Radio de Cologne, 26 May 2004
X. Rodet : Interview pour l'Express, 14 Octobre 2004
X. Rodet : Interview avec : P. Istria de � Ca m'int�resse , 9 d�cembre 200