EQUIPE ANALYSE-SYNTHESE

RAPPORT  DÕACTIVITE 2002

 

1. Analyse et synthse des sons

Responsable : Xavier Rodet

Les travaux de lÕŽquipe Analyse et synthse des sons sont centrŽs sur les problŽmatiques de lÕutilisation, de lÕinterprŽtation automatique de lÕaudio, et, inversement de sa gŽnŽration. Le thme du traitement fondŽ sur le contenu est relativement nouveau et conna”t une forte croissance dans les centres de recherche et dans les applications. Mais cÕest aussi le moyen dÕextraire automatiquement de lÕinformation ˆ partir de lÕaudio pour venir en aide aux musicologues dans lÕanalyse musicologique, ainsi de nouveaux travaux ont ŽtŽ lancŽs dans cette direction. La sŽparation de sources Žgalement participe essentiellement de lÕanalyse, mais trouvera des applications trs intŽressantes dans lÕindexation par exemple ou dans des traitements intelligents. Dans le domaine de la synthse aussi, les mŽthodes utilisant de grandes bases de donnŽes, comme la sŽlection dÕunitŽs, sont appelŽes ˆ de fort dŽveloppement [Rodet02a]. Enfin les techniques dÕinversion commencent ˆ donner des rŽsultats prometteurs pour faciliter lÕutilisation de modles puissants et donc complexes ˆ contr™ler. De toutes ces recherches dŽcoulent de nombreuses applications, librairies et autres dŽveloppements logiciels pour les musiciens ou pour le grand public comme la transformation de voix.

1.1. Traitements fondŽs sur le contenu

Les traitements fondŽs sur le contenu connaissent en Žnorme dŽveloppement dans le monde en termes de recherche autant que dÕimplication de grandes compagnies commerciales. Le comitŽ de normalisation et les confŽrences MPEG-7 et ISMIR sont quelques-uns des lieux o cette activitŽ est en pleine croissance. Ainsi, G. Peeters a participŽ, entre autres, aux meetings MPEG-7 de Klagenfurt et de Shanghai et y a reprŽsentŽ lÕIrcam et Sony avec qui lÕIrcam collabore dans CUIDADO. Un nouveau type de reprŽsentation des donnŽes, le modulationType, y a ŽtŽ proposŽ. Les activitŽs de lÕŽquipe concernent la caractŽrisation, la classification et lÕindexation de lÕaudio dans le cadre du multimŽdia en gŽnŽral.

1.1.1. CaractŽrisation des sons

LÕŽtude de la caractŽrisation des sons afin dÕen permettre la classification automatique a ŽtŽ poursuivie [Peeters02b], [Herrera03a]. En particulier de nouveaux descripteurs ont ŽtŽ ŽtudiŽs : modulation (dÕamplitude et de frŽquence), MFCC, Sonies relatives. Deux procŽdures de sŽlection automatique des descripteurs les plus appropriŽs pour un schŽma de classification donnŽ (schŽma pizzicato/sustain, schŽma famille dÕinstrument, schŽma instruments) sont proposŽes : sŽlection sur base de lÕinformation mutuelle, sŽlection sur base des axes discriminants. Cette sŽlection permet de rŽduire le nombre de descripteurs nŽcessaires pour la classification et ainsi dÕallŽger la modŽlisation et dÕŽviter la Ç malŽdiction de la dimensionnalitŽ È. Les descripteurs sŽlectionnŽs sont ensuite utilisŽs pour lÕestimation des paramtres des classes (modification par analyse discriminante et modŽlisation de type gaussien multidimensionnel). LÕŽvaluation de la mŽthode complte (extraction, modŽlisation et classification) est effectuŽe sur un sous ensemble de 1400 sons issus de Studio-Online. Le taux de rŽussite moyen (ŽvaluŽ sur des ensembles dÕapprentissage et de test de 66 % et 33 % de la base de donnŽe respectivement) est de 90.5 %.

Le portage de lÕensemble du systme (extraction/modŽlisation/classification) en C++ a ŽtŽ effectuŽ et intŽgrŽ dans la version en ligne de la Sound Palette de CUIDADO. 

Ces travaux ont ŽtŽ prŽsentŽs aux meetings MPEG-7 de Klagenfurt et de Shanghai et ont permis de proposer un nouveau type de reprŽsentation des donnŽes dans MPEG-7: le modulationType.

Participants : G. Peeters

Collaborations internes : Žquipe Services en ligne

Collaborations extŽrieures : P. Herrera (UPF, Barcelone), F. Pachet (Sony)

1.1.2. Project ECRINS, Environnement de Classification et Recherche Intelligente de Sons

Ce projet est une collaboration entre l'Ircam, l'Ina-GRM et la sociŽtŽ Digigram sur un financement PRIAM. L'objectif du projet est de dŽvelopper des outils, destinŽs aux professionnels de la production sonore, proposant diffŽrentes interfaces de navigation ˆ travers une grande base de donnŽes d'Žchantillons sonores ˆ partir de descripteurs de haut niveau (recherche par contenu, Ždition, etc.).

L'Žtude sur la classification a ŽtŽ poursuivie en 2002 [Tisserand02a]. Afin d'amŽliorer les rŽsultats nous avons choisi de travailler plus profondŽment sur les mŽthodes de modŽlisation des Žvolutions dynamiques [Tisserand02b]. La dŽcomposition en polyn™mes de Legendre a ŽtŽ retenue pour la modŽlisation de l'enveloppe temporelle des descripteurs. Les rŽsultats de ces Žtudes ont permis la crŽation d'une bibliothque, Žcrite en C++, offrant les fonctionnalitŽs de la classification automatique ˆ la plate-forme en ligne ECRINS de lÕŽquipe Service en ligne. Une prŽ-Žtude sur les outils de mise en forme a ŽtŽ conduite [Tisserand02c] et des maquettes implŽmentŽes en Matlab.

Participants : P. Tisserand, G. Peeters

Collaborations internes : M. Jacob (Žquipe Services en ligne)

Collaborations extŽrieures : P. Herrera (UPF, Barcelone)

1.1.3. Classification et Indexation de Documents MultimŽdia par la collaboration du Son, de l'Image et du Texte

Le but de cette thse est de comprendre les mŽcanismes qui relient les informations contenues dans les diffŽrents mŽdias d'un document multimŽdia et de les utiliser conjointement pour lÕindexation. Dans le contexte d'une base de donnŽes multimŽdia, on cherche ˆ caractŽriser ces relations de faon ˆ permettre l'indexation et la recherche des contenus par la fusion d'information multicritres, fondŽs sur le Son, le Texte et l'Image. Les principaux rŽsultats de lÕannŽe 2002 sont :

-           Elaboration de descripteurs audio (signature) du signal.

-           CrŽation d'une base de donnŽe multimŽdia.

-           Etude des relations entre les contenus des diffŽrents mŽdias (vidŽo, audio et texte) d'un document.

-           CrŽation d'un systme de classification prenant en compte la multimodalitŽ des documents

La base de donnŽe audio qui a ŽtŽ crŽŽe comporte des signaux de provenances diverses : musique populaire et classique, journaux tŽlŽvisŽs, films, etc. Un systme d'indexation multimŽdia a Žgalement ŽtŽ ŽbauchŽ. Il comprend un segmenteur audio et vidŽo, et une classification de l'audio en trois classes : parole pure, musique et mŽlange parole/musique.

Il reste dŽsormais ˆ aborder plus particulirement l'Žtude des possibilitŽs liŽes ˆ la multimodalitŽ des documents, afin de mieux comprendre et utiliser les relations entre mŽdias (notamment lÕaudio et la vidŽo).

Participants : B. Delezoide

Collaborations extŽrieures : M.M. Pic (CEA)

1.1.4. Reconnaissance de morceaux

Le systme de reconnaissance dÕextraits musicaux dans une large base de donnŽes, appelŽ Web Music Monitoring System (WMMS), dŽveloppŽ dans le cadre du projet CUIDADO, bŽnŽficie maintenant dÕun systme de reconnaissance amŽliorŽ par utilisation de probabilitŽs conditionnelles. Ce systme a ŽtŽ testŽ sur une large base de donnŽe, ce qui permet de faire passer le taux de reconnaissance de 94.5 % ˆ 97 % (97.5 % sur les 5 premiers extraits trouvŽs).

Le prototype dÕapplication (Žchantillonneur/extracteur/base de donnŽe/classifieur) a ŽtŽ portŽ sur plate-forme Windows.

Participants : G. Peeters

1.2. Analyse musicale du signal

Les recherches de lÕInstitut sur lÕanalyse musicale se sont traduites durant lÕannŽe 2002 par un groupe de travail pluridisciplinaire animŽ par G. Assayag et X. Rodet. Un site regroupe des informations, rapports et logiciels rŽsultant de ces rŽunions

http://bscw.gmd.de/pub/english.cgi?op=rmail

Enfin un rapport final rŽsume les conclusions du groupe de travail. Les travaux concernant lÕanalyse musicale menŽs dans lÕŽquipe Analyse-Synthse sÕappuient sur les recherches orientŽes contenu menŽes dans les projets ECRIN et CUIDADO, Ainsi les rŽsumŽs musicaux ont ŽtŽ ŽtudiŽs dans CUIDADO, et une thse a commencŽ sur le sujet plus gŽnŽral de lÕextraction de structures musicales ˆ partir de lÕaudio en collaboration avec lÕŽquipe ReprŽsentation Musicale. Enfin lÕalignement de partitions avec lÕaudio doit permettre, entre autres, des travaux musicologiques, par exemple sur lÕinterprŽtation.

1.2.1. RŽsumŽs musicaux visuels et sonores

Les rŽsumŽs ˆ construire ˆ partir dÕun enregistrement audio doivent constituer une reprŽsentation concise mais incluant lÕessentiel du contenu dÕune Ïuvre musicale, soit sous forme visuelle, soit sous forme sonore. Dans un premier temps, des caractŽristiques sont extraites du signal sonore de lÕÏuvre. Ces caractŽristiques servent ensuite ˆ lÕanalyse de son contenu.

Dans le cadre du projet CUIDADO [Peeters02c], lÕanalyse consiste en une modŽlisation de lÕÏuvre sous forme dÕŽtats (ˆ titre dÕexemple, dans le cas de la musique populaire, les Žtats reprŽsentent les diffŽrentes parties telles que couplets, refrains, etc.). Cette reprŽsentation est obtenue par apprentissage non-supervisŽ (fuzzy-kmeans et modle de Markov cachŽ avec pruning dans les deux cas). Cette reprŽsentation est appelŽe Ç approche par Žtat È par opposition aux mŽthodes dites Ç approche par sŽquence È gŽnŽralement utilisŽes pour les matrices de similaritŽ.

LÕapproche par Žtat donne lieu ˆ un rŽsumŽ visuel sous forme dÕune reprŽsentation visuelle de type Ç piano-roll È. Un systme interactif a ŽtŽ dŽveloppŽ, permettant ˆ lÕutilisateur dÕapprŽhender la structure temporelle dÕune Ïuvre par simples clicks.

LÕapproche par Žtat donne Žgalement lieu ˆ un rŽsumŽ sonore par construction dÕun signal sonore constituŽ de la concatŽnation dÕextraits des signaux des diffŽrents Žtats. Une technique permettant dÕamŽliorer la qualitŽ du signal sonore est proposŽe : BSOLA (beat-synchronous overlap-add).

Dans le cadre dÕun stage du DEA ATIAM [LaBurthe02a], lÕŽtude des reprŽsentations hiŽrarchiques de la structure du signal a ŽtŽ commencŽe. Pour cela la mŽthode de lÕÇ Oracle des facteurs È est appliquŽe aux observations du signal.

Participants : G. Peeters, A. La Burthe (stage)

Collaborations internes : Žquipe Services en ligne

Collaborations extŽrieures : P. Herrera (UPF, Barcelone)

1.2.2. Extraction de structures musicales de lÕaudio

Le but de cette thse, qui vient de commencer, est d'extraire des structures ˆ partir du signal audio d'une pice sonore : la similaritŽ, les transformations et la discontinuitŽ sur des Žchelles micro- et macro-temporelles sont les constituants de base de la structure cherchŽe. L'utilisation du langage de script Python, orientŽ objet, permet la crŽation d'un cadre consistant et stable, facile ˆ Žtendre et intŽgrable dans d'autres logiciels. Elle permet aussi la combinaison facile de plusieurs approches d'analyse d'une pice musicale. En stockant les donnŽes calculŽes dans des objets persistants, on peut Žviter la rŽpŽtition de calculs cožteux, donc fournir un environnement pour faire des expŽriences rapides, et en mme temps un environnement d'analyse qui peut contenir beaucoup d'informations diverses de nombreuses pices. Une des approches ŽtudiŽe est une extension des rŽsultats de la thŽorie de l'information structurelle (SIT) dans le domaine de l'audio, particulirement par la modification d'un algorithme gŽnŽtique d'abord utilisŽ pour repŽrer les structures dans des formes des sŽquences linŽaires.

Participants : K. Souren (thse)

Collaborations internes : G. Peeters (Žquipe Analyse-Synthse)

1.2.3. Alignement d'un enregistrement audio avec sa partition

LÕalignement dÕun enregistrement audio et de sa partition consiste ˆ dŽterminer les positions temporelles exactes des ŽlŽments de la partition (notes et accords) dans un enregistrement audio. Les applications de lÕalignement de partitions sont nombreuses, par exemple permettre de constituer automatiquement une grande base de donnŽe de segments sonores pour la synthse concatŽnative par sŽlection d'unitŽs sonores. Une mŽthode d'alignement automatique a ŽtŽ dŽveloppŽe, fondŽe sur l'algorithme Dynamic Time Warping (DTW). Elle utilise la structure des pics spectraux, augmentŽe par un modle d'attaque et de silence. La mŽthodologie peut traiter des signaux audio considŽrŽs difficiles ˆ aligner, comme la musique polyphonique, des trilles, ou des sŽquences rapides.

Cet algorithme a ŽtŽ implantŽ en Matlab et amŽliorŽ sur plusieurs points :

á          Optimisation de la reprŽsentation du chemin d'alignement pour les fichiers sonores volumineux (jusquÕˆ 2000 notes).

á          Accroissement de la rŽsolution temporelle,

á          Diminution du temps de calcul.

á          Structure logicielle revue et amŽliorŽe.

á          Meilleures contraintes dans la recherche du chemin.

á          AmŽlioration de lÕanalyse du signal.

á          Renforcement de la robustesse pour aligner correctement les notes faibles noyŽes dans des notes plus fortes et dont les partiels sont difficiles ˆ distinguer.

Ce programme peut traiter maintenant avec peu dÕerreurs des morceaux polyphoniques de moins de cinq instruments pouvant mme comporter de la voix chantŽe. LÕŽvaluation du programme est difficile car il faut constituer des fichiers de test faisant rŽfŽrence et donc segmentŽs en notes. En particulier, il est nÕest pas simple de trouver des fichiers audio et des fichiers midi correspondants qui ne soient pas entachŽs dÕerreurs.

Participants : D. Schwarz (thse), F. Soulez (stage), E. Vincent (thse)

Collaborations internes : N. Orio (Žquipe Systmes temps-rŽel)

1.2.4. Effets acoustiques de la pŽdagogie Bel Canto sur le chant choral

Cette Žtude a pour but dÕŽclaircir les effets acoustiques des principes de la pŽdagogie Bel Canto sur le chant choral. Les expŽriences et analyses effectuŽes dans ce stage ont fourni des mesures acoustiques objectives de l'effet de cette mŽthode. Les expŽriences ont eu lieu dans l'Espace de Projection ˆ l'Ircam ˆ Paris. Dans un premier temps, le chef de chÏur a fait chanter douze exercices par son chÏur. Ensuite, un travail a ŽtŽ fait pendant 90 minutes sur plusieurs principes centraux de la mŽthode Bel Canto. Les mmes exercices ont ŽtŽ enregistrŽs ˆ nouveau pendant ce travail. Finalement, la comparaison acoustique de ces deux versions des mmes exercices a conduit aux rŽsultats. Pour ces mesures acoustiques sur les enregistrements, des programmes existants (additive, F0, XSpect, etc.) ont ŽtŽ utilisŽs ainsi que de nouveaux programmes dŽveloppŽs ˆ cette occasion. Les principes centraux de la mŽthode Bel Canto ŽtudiŽs sont les suivants.

La Vibration :

La mesurer de lÕŽnergie dans la bande du formant des chanteurs montre bien l'efficacitŽ acoustique supŽrieure que la vibration donne ˆ la voix.

La rŽsonance chiaroscuro (claire-obscure, brillant-riche) :

Pour changer de voyelle le conduit vocal doit changer de forme. Ce mouvement peut entrainer une altŽration importante de la faon dont la rŽsonance influence la justesse du chant. Le lien entre changement de rŽsonance et changement de vibration des cordes vocales (frŽquence) peut tre trs fort. Cependant, nous avons trouvŽ que cette influence pŽjorative peut tre rŽduite, voir supprimŽe, lorsque le principe de rŽsonance Bel Canto de chiaroscuro est appliquŽ.

La nota mentale :

Aprs avoir travaillŽ le principe de la nota mentale, nous voyons quÕun chÏur possde beaucoup plus d'Žnergie dans les hautes frŽquences, surtout dans les rŽgions des formants.

Messa di voce :

Ce principe assure une consistance d'Žnergie vocale et de justesse lorsqu'un chÏur chante doucement ou effectue un decrescendo ˆ l'intŽrieur d'une phrase musicale. Le dŽtail des expŽriences et des rŽsultats est publiŽ dans [Fagnan02a]

Participants : L. Fagnan (stage), X. Rodet

Collaborations extŽrieures :UniversitŽ dÕAlberta, Edmonton

1.3. Modles de signaux

Le traitement des signaux est fondamental pour lÕanalyse, la modification et la synthse des sons musicaux. Dans ce domaine, la sŽparation de source est lÕun des problmes les plus difficiles et les plus intŽressants. Des rŽsultats prometteurs ont ŽtŽ obtenus lorsque le problme est restreint, par exemple par des connaissances sur lÕune des sources ou sÕil sÕagit seulement de modifier la balance dÕune voie dans un mixage relativement simple. La recherche des frŽquences fondamentales dans les enregistrements polyphoniques est un problme apparentŽ, sur lequel lÕŽquipe a bien avancŽ en 2002, car sŽparer les sources et trouver les diffŽrentes notes sont deux points de vue fortement reliŽs. Enfin les reprŽsentations en partiels, modle dit additif, et par enveloppe spectrale, modle dit source-filtre, continuent ˆ tre dŽveloppŽes car ce sont parmi les plus importants pour les musiciens.

1.3.1. Nettoyage d'enregistrements stŽrŽo

En rŽponse ˆ des besoins internes et ˆ des demandes externes, une Žtude a ŽtŽ menŽe sur la sŽparation dÕune source de bruit et dÕun signal utile (par exemple une source de radio et une voix) ˆ partir d'un enregistrement stŽrŽo o un canal contient un fort niveau de la source de bruit (radio).

Plusieurs algorithmes de sŽparation ont ŽtŽ ŽtudiŽs. Le premier implŽmente la sŽparation des sources convoluŽes sans connaissance sur le contenu des canaux. Cet algorithme est proche de l'algorithme de Murata, Ikeda et Ziehe. Il utilise une transformation de Fourier ˆ court terme et applique une dŽcomposition en composantes indŽpendantes (ICA) ˆ chaque canal de l'analyse. Les composantes indŽpendantes sont trouvŽes par diagonalisation conjointe de plusieurs matrices de corrŽlation (avec plusieurs retards). A la place de l'algorithme en deux pas proposŽ par Murata et al., cÕest l'algorithme de Pham qui est utilisŽ ici. Il prŽsente l'avantage d'avoir une objective function directement liŽe ˆ une maximisation de vraisemblance. Pour le regroupement des composantes indŽpendantes (problme des permutations) un nouvel algorithme a ŽtŽ dŽveloppŽ.

Un deuxime algorithme de sŽparation a ŽtŽ dŽveloppŽ qui considre quÕun canal seulement est un mŽlange et que le deuxime canal contient la source de bruit. Le problme de regroupement ne se pose alors plus et la sŽparation des sources se fait simplement par estimation de la matrice de corrŽlation.

L'Žtude a montrŽ que l'algorithme le plus gŽnŽral souffre d'un temps de calcul beaucoup plus grand. Les rŽsultats de sŽparation obtenus sont similaires. La qualitŽ de la sŽparation a ŽtŽ jugŽe trs bonne par le correspondant externe.

Participants : A. Roebel

1.3.2. SŽparation de signaux audio par des techniques statistiques

Ce travail a pour but d'extraire dans un enregistrement mono ou stŽrŽo mŽlangeant plusieurs instruments, la partie jouŽe par chaque instrument, sous forme de partition ou sous forme sonore.

E. Vincent a poursuivi son travail de thse en appliquant la modŽlisation de Markov cachŽe (HMM) et l'analyse en sous-espaces indŽpendants (ISA) ˆ la dŽtection de zones correspondant ˆ chaque instrument dans le spectrogramme de l'enregistrement. L'alignement de partitions a ŽtŽ utilisŽ pour l'apprentissage supervisŽ des HMM. L'Žtude des dŽfauts et des avantages de ces deux modles a conduit ˆ concevoir une combinaison HMM+ISA actuellement ˆ l'Žtude.

Une Action Jeunes Chercheurs du GdR ISIS a dŽbutŽ en mars 2002 avec l'IRISA (REnnes) et l'IRCCyN (Nantes). Les rŽsultats de l'Action (rapports internes, routines MATLAB, base de donnŽes d'Žvaluation) sont disponibles sur http://www.ircam.fr/anasyn/ISIS/

T. Foirien a participŽ ˆ la crŽation d'une petite base de donnŽes d'apprentissage et d'Žvaluation.

Participants : E. Vincent (thse), T. Foirien (stage)

Collaborations internes : D. Schwarz, N. Orio, F. Soulez (groupe de travail sur l'alignement de partitions)

Collaborations extŽrieures : S. Dubnov (universitŽ Ben Gourion, Isra‘l), F. Bimbot (Žquipe METISS, IRISA Rennes) et C. FŽvotte (IRcCYN, Ecole Centrale de Nantes)

1.3.3. Estimation de la frŽquence fondamentale

Dans les travaux poursuivis sur l'estimation de la frŽquence fondamentale dans lÕŽquipe Analyse-Synthse, un rŽsultat central obtenu est que la fonction de distance qui servait pour sŽlectionner les frŽquences fondamentales, utilisant la divergence de Kullback-Leibler, pas assez souple, ne pouvait pas tre adaptŽe suffisamment au problme [Prudham02a]. Une nouvelle Žvaluation des f0 candidats a ŽtŽ conue, fondŽe sur trois ŽlŽments clefs qui caractŽrisent le spectre observŽ et le modle :

-           La distance entre les maxima du modle et leurs correspondants du spectre observŽ.

-           La rŽgularitŽ de l'enveloppe spectrale du modle.

-           La partie du spectre observŽ expliquŽe par le modle.

Ces trois ŽlŽments (normalisŽs et pondŽrŽs suivant leur importance) comme arguments de la fonction de distance ont permis dÕamŽliorer considŽrablement la qualitŽ et la robustesse de l'estimation. LÕŽvaluation de l'algorithme a ŽtŽ faite sur les bases de donnŽe fournies par A. de CheveignŽ. Pour la base fda de Bagshaw l'erreur totale est de 2.23 % ce qui est Žgal ˆ lÕerreur obtenue par la meilleure mŽthode, Yin de A. de CheveignŽ. Si on prend comme rŽfŽrence les valeurs obtenues par Yin sur le signal du laryngophone, l'erreur du modle Yin est plus faible que l'erreur de notre modle. Comparant avec additive-f0, le taux d'erreur est rŽduit de 30 %. Pour la base de donnŽe Atake, l'erreur passe de 2.4 % pour additive-f0 ˆ 0.7 % (en comparaison, Yin a un taux d'erreur de 0.3 % seulement).

Participants : A. Roebel, B. Prudham (stage)

Collaborations internes : A. de CheveignŽ (Žquipe Perception et cognition musicales)

1.3.4. Modle additif

Les travaux sur le modle additif [Wright02a] concernent les signaux non stationnaires. Pour le cas de faible changement d'amplitude, une estimation de la pente frŽquentielle a ŽtŽ Žtablie en utilisant la mŽthode de rŽallocation. La mŽthode utilise cinq transformŽes de Fourier avec diffŽrentes fentres. A cause de la forme de ces fentres, la rŽsolution frŽquentielle est rŽduite. Mais un mŽcanisme simple permet de dŽtecter les cas problŽmatiques et dÕutiliser alors la mŽthode standard.

La nouvelle mŽthode [Roebel02a] a ŽtŽ comparŽ avec d'autres mŽthodes d'estimation frŽquentielle notamment la mŽthode utilisant une fentre Gaussienne. Les rŽsultats obtenus par la nouvelle mŽthode sont plus prŽcis dans la majoritŽ des cas spŽcialement si l'amplitude ne change pas fortement.

Pour les rŽgions transitoires, une dŽtection a ŽtŽ mise en place. Elle permet de traiter les rŽgions transitoires diffŽremment. La recherche avec notre modle adaptatif (pbench) et les rŽsultats obtenus avec rŽallocation (mŽthode Loris) ont montrŽ que le modle additif peut tre amŽliorŽ considŽrablement dans les rŽgions transitoires sans quitter le formalisme additif. Le problme avec la mŽthode rŽallocation est que les transitoires sont meilleurs subjectivement mais que le rŽsiduel est forcŽment dÕŽnergie plus grande. Le modle adaptatif permet une erreur plus petite, mais le temps de calcul est lourd. Dans cette situation, une nouvelle approche a ŽtŽ ŽtudiŽe qui rŽduit le cožt d'optimisation ˆ la rŽsolution dÕune Žquation linŽaire en utilisant une sinuso•de et un cosinuso•de de frŽquence fixe et amplitude variable. Aprs rŽsolution, les rŽsultats sont portŽs dans le formalisme additif standard. La mŽthode permet une rŽduction du rŽsiduel dans les rŽgions transitoires de 20 % environ. Une difficultŽ est le problme de dŽtection des transitoires qui sÕŽtend par erreur ˆ des rŽgions ˆ forte modulation (souvent des rŽgions bruitŽes). Ces erreurs de classification sont gnantes parce que le temps de calcul est accru sans que le rŽsultat soit amŽliorŽ. Il faut donc trouver une dŽtection plus robuste. Le deuxime problme de l'algorithme actuel vient de ce que les valeurs des paramtres devraient s'adapter localement (comme avec la rŽallocation) pour permettre une rŽduction d'erreur plus forte.

Participants : A. Roebel

1.3.5. Analyse de voix chantŽe en partiels et enveloppe spectrale

Dans des travaux prŽcŽdents menŽs ˆ lÕUniversitŽ de Navarre, I. Arroabarren avait analysŽ des voix chantŽes en partiels en utilisant la frŽquence et lÕamplitude instantanŽes. De forts artefacts apparaissaient sur ces rŽsultats. Au cours dÕun stage nous avons cherchŽ ˆ comprendre ces artefacts et ˆ Žtendre lÕanalyse ˆ lÕenveloppe spectrale [Arroabarren02a]. Le premier rŽsultat est que la frŽquence instantanŽe nÕest pas une bonne reprŽsentation lorsque les partiels sont fortement modulŽs car sa valeur peut, localement, devenir extrmement ŽloignŽe de la valeur approximative du partiel, dÕo les artefacts observŽs. DÕailleurs ces artefacts apparaissent en particulier ˆ cause de la rŽverbŽration de la salle qui module les partiels. Sur des enregistrements anŽchoiques, ces artefacts disparaissent et les frŽquences et amplitudes instantanŽes sont alors pratiquement identiques aux valeurs fournies par les analyses additive les plus prŽcises (programme additive et pbench), ce qui, de plus, valide rŽciproquement les deux types dÕalgorithmes (instantanŽ et additif).

Dans un deuxime temps, les trajets de partiels ainsi obtenus ont ŽtŽ utilisŽs pour essayer dÕobtenir une enveloppe spectrale trs prŽcise de voyelles chantŽes. Ceci est fait en utilisant le balayage des formants par les partiels lors du vibrato. Divers modles ont permis de sÕapprocher de mieux en mieux dÕune enveloppe spectrale trs prŽcise (en particulier valeurs de largeur de bande des formants aussi exactes que possible). De trs bons rŽsultats ont ŽtŽ obtenus et comparŽs ˆ ceux dÕautres mŽthodes dÕestimation de lÕenveloppe spectrale, Cepstre Discret et Discrete All Pole Modelling en particulier. Ils montrent clairement que les mŽthodes en question fournissent des valeurs fort ŽloignŽes de celles que lÕon peut supposer les bonnes au vu des rŽsultats obtenus ˆ partir du balayage. Ceci est trs important pour la voix chantŽe [Rodet02b], en particulier pour obtenir une bonne forme dÕonde glottale par filtrage inverse.

Participants : I. Arroabarren (stage), X. Rodet, A. Roebel

Collaborations extŽrieures : A. Carlosena (UniversitŽ Publique de Navarre, Pampelune, Espagne)

1.4. Modles physiques

Diverses classes dÕinstruments entretenus ont ŽtŽ modŽlisŽes ˆ lÕIrcam. La classe des anches doubles est la dernire en cours de modŽlisation. Ainsi la voie sera ouverte pour que les musiciens puissent disposer de modles de base de lÕensemble des instruments entretenus. Mais, pour bien utiliser ces modles physiques, il faut pouvoir les contr™ler. CÕest pourquoi nous Žtudions lÕinversion des modles physiques, modles non-linŽaires qui posent de difficiles problmes. Dans ce domaine, la thse de T. HŽlie soutenue en 2002 reprŽsente une avancŽe remarquable.

1.4.1. Etude et modle physique des instruments ˆ anche double

Les instruments ˆ anche double, comme le hautbois, qui prŽsentent des difficultŽs particulires pour la modŽlisation de leur fonctionnement physique sont ŽtudiŽs dans le cadre d'une thse conjointe de l'Žquipe Analyse-Synthse et de l'Žquipe Acoustique des instruments. Dans la premire annŽe de thse, un modle a ŽtŽ conu en utilisant une hypothse thŽorique, de pertes de charge dans l'anche, proposŽe par A. Hirschberg. Ce modle mathŽmatique a ŽtŽ appliquŽ en 2002 ˆ des rŽsonateurs cylindriques et coniques idŽaux pour mieux le comparer avec les rŽsultats expŽrimentaux.

Pour le modle physique proprement dit, les principaux travaux sont :

-           ImplŽmentation dÕun modle physique dÕinstrument ˆ anche double, avec rŽsonateur cylindrique et dynamique, en Matlab puis postŽrieurement en C.

-           Portage du code C dans lÕenvironnement temps rŽel jMax, ce qui permet d'Žtudier plus facilement lÕensemble des paramtres.

-           Adaptation de ce modle pour un rŽsonateur conique idŽal, avec pertes indŽpendantes de la frŽquence.

Une bouche artificielle permet de souffler dans l'instrument avec des paramtres bien contr™lŽs et des valeurs bien connues.

Des expŽriences ont ŽtŽ faites sur l'utilisation d'une bouche artificielle pour des mesures de lÕouverture de lÕanche ˆ lÕaide dÕun stroboscope, une camŽra et un algorithme de traitement et analyse dÕimages dŽveloppŽ en Matlab par A. Almeida.

Les observations essentielles sont :

-           Le mouvement des anches est symŽtrique.

-           LÕaire de la section dÕentrŽe de lÕanche est une fonction presque linŽaire de son ouverture. Ce rŽsultat est important puisque les modles jusqu'ˆ prŽsent considŽraient l'aire comme une fonction quadratique de l'ouverture de l'anche.

-           Validation entre les mesures faites par vibromŽtrie laser et celles faites sur les images.

-           Les comparaisons entre les mesures expŽrimentales et les simulations sur la variation de l'ouverture de l'anche sont encourageantes. Elles semblent prŽdire des effets caractŽristiques des anches doubles tels que la transition soudaine entre anche ouverte et anche fermŽe et l'allure du mouvement de l'anche ouverte.

Par ailleurs, une collaboration est poursuivie avec le groupe de mŽtrologie du LIMSI – Orsay, dans le but de construire une anche en matŽriau synthŽtique transparent pour effectuer des mesures de champ de vitesse dans lÕanche double. Une premire version de lÕanche transparente, a ŽtŽ construite, mais elle doit tre amŽliorŽe pour pouvoir tre utilisŽe dans les mesures

Une nouvelle version de la bouche artificielle est en prŽparation, avec lvres en latex, dans le but de rŽaliser des mesures comparatives entre clarinette et hautbois et de mesurer la caractŽristique dŽbit / pression.

Ces travaux ont ŽtŽ prŽsentŽs dans deux publications [Almeida02a], [Almeida02b].

Participants : A. Almeida (thse)

Collaborations internes : Žquipe Acoustique instrumentale

Collaborations extŽrieures : C.Vergez (LMA), ? ? ? (LIMSI)

1.4.2. Inversion de modles physiques

La modŽlisation physique a un grand intŽrt pour la synthse sonore puisqu'elle permet non seulement de gŽnŽrer le son mais aussi le comportement de l'instrument (attaques, transitoires, fausses notes, etc...). Cependant, les instruments virtuels et rŽels s'avrent aussi difficiles ˆ jouer. Cette difficultŽ de contr™le amne la question de l'inversion : Ç comment dois-je contr™ler mon modle pour obtenir ce son cible que ce musicien a obtenu avec son instrument ?È Ce travail doctoral vise ˆ obtenir des modles mathŽmatiques aussi simples et rŽalistes que possibles, possŽdant des propriŽtŽs adaptŽes ˆ l'inversion, avec comme applications type les cuivres et la production de la voix. Le problme de l'excitateur (e.g. lvres, glotte, anche, etc...) a ŽtŽ traitŽ pendant un DEA. Celui du rŽsonateur (dŽcrire la propagation dans un tube ˆ section variable et son rayonnement) est l'objet de cette thse. En premire partie, nous Žtablissons un modle 1D nouveau de propagation acoustique dans les tubes axisymŽtriques qui n'impose pas de gŽomŽtrie figŽe aux fronts d'onde. Ce modle permet de considŽrer la mobilitŽ des parois (cas adaptŽ au conduit vocal), ou encore la prŽsence de pertes visco-thermiques. Pour ce dernier cas, un guide entier peut tre construit en concatŽnant des tronons de tubes ˆ courbure quasi-constante, chaque ŽlŽment Žtant reprŽsentable par des fonctions de transfert calculables analytiquement. Nous approchons alors chaque ŽlŽment par des systmes diffŽrentiels linŽaires d'ordre fini ˆ retard, plus simples, en nous appuyant sur deux mŽthodes : les sŽries divergentes tronquŽes et les reprŽsentations diffusives d'opŽrateurs pseudo-diffŽrentiels. En deuxime partie, nous dŽveloppons un modle nouveau de rayonnement acoustique tenant compte de la courbure du front d'onde sortant, utilisable comme condition ˆ la frontire de l'instrument. Nous fournissons lˆ encore des approximations satisfaisantes reprŽsentŽes par des systmes linŽaires ˆ retard. La thse de T. HŽlie a ŽtŽ soutenue ˆ la fin de lÕannŽe 2002 [Helie02a].

Participants : T. HŽlie (thse)

Collaborations extŽrieures : C.Vergez (LMA), D. Matignon (ENST)

1.4.3. Etude pour une modŽlisation du conduit vocal

L'objectif de ce stage est d'Žlaborer une modŽlisation du conduit vocal adaptŽe ˆ une Žquation des ondes developpŽe au sein de l'I.R.C.A.M [Gaullier02a]. Pour une paroi immobile repŽrŽe par ses coordonnŽes curvilignes, cette Žquation prend la forme de l'Žquation de Webster bien connue des acousticiens. Tout d'abord, un modle polynomial est utilisŽ pour dŽcrire le profil du conduit. Pour contr™ler l'articulation, nous dŽveloppons un outil permettant d'apparier les paramtres de S.Maeda (position de la langue, etc.) et les coefficients polynomiaux, le modle de Maeda faisant rŽfŽrence. Une Žtude numŽrique de l'Žquation de Webster est ensuite effectuŽe en vue de sa simulation. Devant l'instabilitŽ des schŽmas classiques, une recherche de variable d'Žtats mieux adaptŽes ˆ la discrŽtisation est engagŽe. Un systme Žquivalent ˆ l'Žquation de Webster, constituŽ de deux Žquations de transport couplŽes est Žtabli pour ces nouvelles variables. L'Žtude de la stabilitŽ numŽrique pour des schŽmas appliquŽs ˆ ce systme a donnŽ satisfaction. La conservation d'une Žnergie est prouvŽe dans le cas de coefficients constants pour un C.F.L. Žgal ˆ 1. L'algorithme dŽveloppŽ va ˆ terme tre utilisŽ sur des donnŽes issues de l'Imagerie ˆ RŽsonance MagnŽtique et pourra donner lieu ˆ de la synthse sonore.

Participants : G. Gaullier (stage), T. HŽlie (thse)

Collaborations extŽrieures : C.Vergez (LMA)

1.5. Contr™le de la synthse

Le contr™le de la synthse joue un r™le tout ˆ fait essentiel dans le succs de la synthse pour des applications musicales. Il appara”t donc nŽcessaire dÕoffrir aux compositeurs des moyens de contr™le exploitant rŽellement la puissance des processeurs, des systmes (Bases de donnŽes par exemple) et des logiciels dÕaujourdÕhui. CÕest lÕobjectif qui est visŽ dans la technique de sŽlection d'unitŽs sonores comme dans les mŽthodes dÕapprentissage. DÕautre part, la puissance de la synthse additive et le formalisme des fichiers SDIF permettent de novelles applications, telles que des sampleurs intellligents.

1.5.1. Synthse concatŽnative par sŽlection d'unitŽs sonores

Les diffŽrents aspects de ce travail sont l'estimation, la classification et la structuration de paramtres, et l'utilisation d'une base de donnŽs hŽtŽrognes de sons et de caractŽristiques. Dans les systmes de "synthse de la parole ˆ partir du texte", une nouvelle technique, nommŽe "sŽlection d'unitŽs", conna”t un grand succs : en effet, les techniques prŽcŽdentes, malgrŽ des dizaines d'annŽes de recherches intensives n'ont jamais permis d'obtenir une qualitŽ acceptable ; un accroissement de qualitŽ considŽrable a ŽtŽ obtenu au contraire par cette mŽthode. Il est donc intŽressant de chercher comment la mŽthode de "sŽlection d'unitŽs" peut tre Žgalement appliquŽe ˆ la synthse sonore et musicale de haute qualitŽ. La mŽthode utilise une large base de donnŽes hŽtŽrognes de sons choisis (soit des notes sŽparŽes, soit des phrases compltes) et de caractŽristiques, classŽs et segmentŽs suivant des paramtres estimŽs sur le signal sonore. Le segment qui ressemble le mieux - au sens d'un critre donnŽ - au rŽsultat dŽsirŽ, est trouvŽ par des mŽthodes efficaces de recherche et d'extraction utilisŽes par l'algorithme de sŽlection d'unitŽs. Pour rŽpondre aux exigences concernant les paramtres de synthse nŽcessaires, le segment sonore trouvŽ est transformŽ par des techniques temporelles ou frŽquentielles de re-synthse telles que PSOLA, re-synthse additive, vocodeur de phase et filtrage. Le segment sonore est encha”nŽ avec les segments trouvŽs pour les autres parties du signal ˆ construire, en appliquant des techniques d'interpolation pour former les transitions, et des transformations de niveaux plus ŽlevŽs. L'annŽe 2002 a vu l'intŽgration du calcul des descripteurs dŽveloppŽs pour les projets europŽens ECRINS et CUIDADO, utilisant le standard de format de fichier SDIF, et la finalisation du calcul des caractŽristiques des unitŽs.

Participants : D. Schwarz (thse)

Collaboration interne : P. Tisserand, G. Peeters (Žquipe Analyse-Synthse)

1.5.2. MŽthodes par apprentissage pour l'estimation des paramtres de contr™le d'algorithmes de synthse

Dans le contexte de la recherche sur l'estimation des paramtres de contr™le pour un modle physique de trompette [D'haes02d], la recherche pendant l'annŽe 2002 a portŽ sur les algorithmes de recherche des K plus proches voisins (KPPV) et sur les contraintes physiques de l'instrument.

Algorithme de KPPV, comparaison avec autres mŽthodes et optimisation :

L'efficacitŽ des algorithmes de sŽparation-Žvaluation (branch and bound) pour le calcul des KPPV a ŽtŽ ŽtudiŽe. Les aspects les plus importants qui influencent cette efficacitŽ sont :

-           MŽthode de dŽcomposition.

-           MŽthode d'Žlimination.

-           MŽthode de dŽcomposition

-           Ordre de parcours

-           Niveau de dŽcomposition.

Une dŽrivation thŽorique d'une mŽthode de dŽcomposition a ŽtŽ proposŽe, fondŽe sur l'analyse en composantes principales. DiffŽrentes mŽthodes d'Žlimination ont ŽtŽ combinŽes ce qui aboutit ˆ 10 algorithmes diffŽrents. Comme l'efficacitŽ est fortement influencŽe par le niveau de dŽcomposition, celui-ci est optimisŽ par un modle statistique qui exprime le cožt de calcul total en fonction du cožt de parcours d'un nÏud et du cožt de calcul d'une distance. Les algorithmes ont ŽtŽ comparŽs pour leur efficacitŽ [D'haes02b] [D'haes02a].

Contraintes physiques :

Un problme observŽ pendant l'estimation des paramtres est que les contraintes physiques de l'instrument n'Žtaient pas respectŽes. Afin de rŽsoudre ce problme, un "modle de contr™le" pour l'instrument a ŽtŽ dŽfini. A partir d'une dŽrivation thŽorique, des conditions ont ŽtŽ dŽrivŽes pour lesquelles la rŽsonance du modle physique est maximale (rŽsonance d'un mode). Ceci nous a permis dÕidentifier des relations approximatives entre les paramtres de contr™le et les caractŽristiques du son, et de dŽfinir des contraintes physiques [D'haes02c].

Participants : W. DÕHaese (thse)

Collaborations extŽrieures : D. van Dyck (UniversitŽ dÔAnvers)

1.5.3. Projet Orgue, un sampleur SDIF

En parallle ˆ la construction de l'orgue du Palais des Beaux-Arts de Bruxelles par G. Westenfelder et la sociŽtŽ Syncordia, l'IRCAM a ŽtŽ chargŽ de concevoir le prototype d'un systme de synthse sonore pouvant s'adjoindre ˆ l'orgue (de facture classique).

Ce projet nŽcessite des compŽtences en analyse-synthse des sons et en diffusion dans lÕespace. Il est donc menŽ en collaboration entre les Žquipes Acoustique des salles et Analyse-Synthse.

Suite au travail effectuŽ en 2001, une premire expŽrimentation du systme a ŽtŽ effectuŽe en grandeur rŽelle (dans lÕEspace de Projection de lÕIrcam) en janvier 2002.

En mars 2002 des contacts ont ŽtŽ pris au Conservatoire National de Musique de Paris. Avec lÕautorisation du facteur dÕorgue, un Žchantillonnage partiel de lÕorgue du CNSMDP a ŽtŽ effectuŽ en juillet 2002 avec lÕassistance de M. Deschamps. Les analyses de ces Žchantillons ont alors pu tre lancŽes en aožt pour produire les fichiers SDIF. Le principal rŽsultat est un orgue virtuel sous forme dÕun sampleur SDIF offrant de trs intŽressantes possibilitŽs sonores et musicales.

La prŽsentation finale du projet sÕest dŽroulŽe le 5 novembre 2002 dans lÕEspace de Projection de lÕIrcam. Deux rapports ont ŽtŽ rŽdigŽs [Rioux02b], [Rioux02c] ainsi quÕun article de confŽrence [Rioux02a].

Participants : V. Rioux, M. Deschamps, M. Poletti

Collaborations internes : Žquipe Acoustique des salles

1.6. ActivitŽs de dŽveloppement

Les activitŽs de dŽveloppement ont reprŽsentŽ une part relativement importante du travail de lÕŽquipe. En premier lieu, il sÕagit du dŽveloppement dÕoutils logiciels pour le Forum des utilisateurs, compositeurs et musiciens, tels que SuperVP, AudioSculpt et analyse-psola. Par ailleurs, certains dŽveloppements ont ŽtŽ effectuŽs pour rŽpondre ˆ des contrats extŽrieurs nous permettant de valoriser notre connaissance et notre savoir-faire. Enfin des outils internes comme des bibliothques ou XSpect sont les moyens de travail quotidiens indispensables aux avancŽes de lÕŽquipe.

1.6.1. Analyse PSOLA

Ce stage a eu pour but le portage en langage C++ de l'analyse PSOLA Žcrit par G. Peeters en Matlab dans le cadre de sa thse. La librairie MatMTL (Cf. MatMTL ci-dessous) a grandement facilitŽ ce portage. De plus des amŽliorations ont ŽtŽ apportŽes avec notamment diffŽrentes options proposŽes ˆ l'utilisateur ainsi que les fichiers de sortie Žcrits en SDIF.

Le programme analyse_psola en C++ tourne sous Linux. La documentation dŽveloppeur est en ligne ˆ l'adresse : http://iii/analyse_synthese/documentation/psola_analyse/index.html

Participants : E. Joseph (stage), G. Peeters

Collaborations internes : A. Roebel (Žquipe Analyse-Synthse)

1.6.2. Transformation des voix en temps rŽels

Le projet VoxIntox a ŽtŽ demandŽ et financŽ par MobiStation, une sociŽtŽ de jeux tŽlŽphoniques. Pour le service VoxIntox MobiStation a demandŽ ˆ l'IRCAM de leur proposer des algorithmes pour la transformation des voix en temps rŽels. Plusieurs algorithmes ont ŽtŽ ŽtudiŽs. L'implŽmentation de ces algorithmes a ŽtŽ conue sur la base de SuperVP. La crŽation d'un bibliothque dynamique qui pourrait tre utilisŽe dans AudioSculpt pour remplacer l'appel d'un application externe a ŽtŽ dŽjˆ ŽtudiŽe. Le projet VoxIntox a permis de financer la crŽation de cette bibliothque. Elle permet d'utiliser SuperVP avec tous les algorithmes accessibles en mode ligne commande, en remplaant seulement les modules E/S qui sont redirigŽs vers une E/S mŽmoire. L'efficacitŽ en calcul de SuperVP a permis de gŽrer 60 voix en parallle sur un processeur ˆ 1.8GHz, gr‰ce au niveau trs bas (8kHz) du taux d'Žchantillonnage utilisŽ pour la voix tŽlŽphonique. Avec un taux d'Žchantillonnage pour un traitement de haute qualitŽ, il serait quand mme possible de traiter 1 ou 2 voix en temps rŽel. La qualitŽ et la vitesse obtenues ont ŽtŽ apprŽciŽes favorablement par MobiStation. L'extension de la bibliothque dite "transformer" (qui implŽmente actuellement deux algorithmes de transformation de voix) pourrait tre effectuŽe en 2003.

Participants : A. Roebel

Collaborations extŽrieure : SociŽtŽ MobiStation

1.6.3. Logiciel SuperVP

Le dŽveloppement de SuperVP sÕest poursuivi en plus de la bibliothque "transformer". En premier lieu il est apparu que beaucoup de fonctionnalitŽs de AudioSculpt 1.2beta ne sont bien intŽgrŽes dans le fonctionnement gŽnŽral. Aprs les changements ˆ la base des modules de calcul de SuperVP qui ont ŽtŽ nŽcessaires pour une haute qualitŽ de traitement, plusieurs fonctions ont ŽtŽ remises en service correctement : calcul du cepstre discret, calcul de frŽquence fondamentale, module de mixage avec mixage mul/cross/add, et module freeze. Concernant la fonction freeze la fonctionnalitŽ de la version originale Žtait trs limitŽe, ne permettant de traiter quÕun seul point de freeze. De plus, le freeze n'Žtait pas traitŽ comme un insert dans le son original. Un nouveau module freeze a donc ŽtŽ conu qui permet de mettre plusieurs points de freeze dans le fichier et qui insre les segments freeze comme une dilatation. La diffŽrence du freeze et de la dilatation reste dans le fait que le freeze permet de gŽrer une statistique de la variation de frŽquence pour chaque bin, ce qui peut tre utilisŽ pour Žviter de crŽer des sinuso•des fixes donc gnantes. Concernant l'implŽmentation du crayon dans AudioSculpt, un mode d'utilisation important consiste ˆ amplifier fortement certaines rŽgions avec le crayon et supprimer dÕautres lors de la normalisation. Dans la version ancienne d'AudioSculpt, la superposition des filtres Žtait gŽrŽe par AudioSculpt. Avec la version AudioSculpt 2 qui permet de combiner les filtres plus librement, ce n'est plus possible et donc la partie filtrage a dž tre modifiŽe pour permettre de choisir le mode de superposition des filtres. Deux modes de superposition ont ŽtŽ conus, le mode multiplication pour l'opŽration de filtrage sŽriel et le mode maximum qui sert pour le filtrage avec normalisation. La vitesse du calcul a ŽtŽ amŽliorŽe par l'utilisation d'un nouvelle bibliothque pour le calcul de la transformation Fourier, libfft (voir le paragraphe dŽveloppement libfft).

Participants : A. Roebel

Collaborations extŽrieures : A. Lithaud (compositeur)

1.6.4. Logiciel AudioSculpt

M. LoCascio a commencŽ ˆ travailler ˆ l'IRCAM en juin 2002 sur le dŽveloppement dÕAudioSculpt-2. La structure et l'organisation de AudioSculpt ont ŽtŽ rŽexaminŽs. LÕensemble du projet a ŽtŽ converti de CodeWarrior 7 ˆ CodeWarrior 8, et de nombreux bogues ont ŽtŽ rŽparŽs dans l'interface graphique et dans le fonctionnement sous Macintosh OS X. Pour le Forum d'automne, plusieurs nouvelles possibilitŽs ont ŽtŽ apportŽes, amŽliorations du "crayon",  format binaire pour optimiser les grands fichiers de filtres en Super VP, etc. Aprs le Forum, le sonagramme dÕune sŽlection a ŽtŽ rŽalisŽ pour permettre le calcul de sonagramme des grands fichiers de son. En fin dÕannŽe, le portage de Diphone pour Macintosh OS X a ŽtŽ commencŽ.

Participants : M. LoCascio, A. Roebel

Collaborations extŽrieures : A. Lithaud (compositeur)

1.6.5. Bibliothque libfft

L'analyse du temps de calcul de SuperVP a montrŽ que la partie FFT est la partie la plus cožteuse. La FFT implŽmentŽe dans la bibliothque UDI utilise un module FFT dŽveloppŽ par R. Mayer. La comparaison affichŽe sur plusieurs sites Internet montre que l'implŽmentation de R. Mayer nÕest plus la meilleure. Par consŽquent, une nouvelle bibliothque, libfft, a ŽtŽ conue en partant du code libre de la FFT split radix de T. Ooura (http://momonga.t.u-tokyo.ac.jp/~ooura/fft.html). Le code a ŽtŽ fortement modifiŽ ; d'une part, il a ŽtŽ limitŽ au type double, d'autre part les fonctions FFT et IFFT ont ŽtŽ en ŽchangŽes. La nouvelle bibliothque a ŽtŽ conue comme bibliothque gŽnŽrique avec une interface dŽfinie pour les compilations en C. La bibliothque FFT a ŽtŽ complŽtŽe avec une fonction pour gŽnŽrer les fentres dÕanalyse et aussi les fentres utilisŽes pour la rŽallocation d'Žnergie dans les spectrogrammes.

Participants : A. Roebel

1.6.6. Bibliothque Easdif

Avec notre bibliothque SDIF, la programmation se faisait ˆ trs bas niveau. Toutes les opŽrations (correction de la taille de la trame, alignement des donnŽes) Žtaient ˆ faire ˆ la main. Le projet Easdif a donc ŽtŽ pensŽ pour crŽer une bibliothque C++ qui permet de gŽnŽrer et lire les fichiers SDIF avec un niveau beaucoup plus ŽlevŽ et sans rŽduire les possibilitŽs d'exprimer toutes les fonctionnalitŽs de SDIF (crŽation des types adaptŽs, NVT, etc.). Nous avons donc dŽfini une API de haut niveau qui permet dÕexprimer toutes les fonctionnalitŽs SDIF en cachant les dŽtails de stockage des donnŽes et de la transformation des types. La gestion des erreurs a ŽtŽ conue en utilisant les exceptions. L'API a ŽtŽ implŽmentŽe et la fonctionnalitŽ a ŽtŽ vŽrifiŽe par F. Tisserand. Pour une raison technique de fonctionnement des exceptions, la bibliothque Easdif doit contenir toutes les fonctions SDIF. La bibliothque est maintenant en test avec une premire application, lÕimplŽmentation de l'analyse PSOLA en C++. Pour l'avenir, il reste ˆ implŽmenter le mŽcanisme de configuration et installation avant de publier la bibliothque en tŽlŽchargement libre.

Participants : F. Tisserand (stage) A. Roebel, P. Tisserand, D. Schwarz

1.6.7. Bibliothque MatMTL

Pour faciliter le portage des fonctions Matlab en C/C++, une bibliothque a ŽtŽ conue qui permet de transformer les fonctions avec relativement peu de changement de la syntaxe et en mme temps permets de diminuer le temps de calcul. Une Žtude des bibliothques existantes a montrŽ que les bibliothques en programmation gŽnŽrique sont particulirement bien adaptŽes pour cette t‰che. Parmi les bibliothques existantes, la bibliothque Blitz est spŽcialement intŽressante car elle utilise la programmation gŽnŽrique pour optimiser les expressions matricielles. Cette technique, baptisŽe expressions gŽnŽriques, permet une syntaxe de trs haut niveau et en mme temps laisse le compilateur organiser le code beaucoup plus proche de lÕoptimum que toutes les autres bibliothques connues. Malheureusement la syntaxe de Blitz n'est pas trs proche de la syntaxe Matlab et le projet MatMTL a donc eu comme but dÕimplŽmenter une bibliothque de programmation gŽnŽrique avec une syntaxe la plus proche possible de la syntaxe Matlab pour faciliter le portage des fonctions existantes. La bibliothque MatMTL rŽsultant de ces travaux de dŽveloppement conna”t la plupart des constructions utilisŽes pour la programmation matricielle et en mme temps arrive ˆ diminuer le temps de calcul en moyenne d'un facteur 10. MatMTL a ŽtŽ utilisŽe pendant l'annŽe dans l'Žquipe pour plusieurs projets, notamment pour rŽduire le temps de calcul de fonctions Matlab existantes (projets estimation de F0, additive pbench, sŽparation des sources, alignement partition).

Participants : A. Roebel

1.6.8. Logiciel XSpect

Les travaux sur le logiciel XSpect ont ŽtŽ centrŽs sur lÕutilisation des diffŽrents modes d'analyse spectrale (LPC et CED) qui sont possibles dans SuperVP. Ces deux modes d'analyse spectrale ont ŽtŽ mis dans XSpect. Par ailleurs, nous avons intŽgrŽ la lecture des fichiers .wav comprimŽ, et fixŽ plusieurs bogues concernant l'utilisation des bibliothques X11/Motif et l'utilisation des marques.

Participants : A. Roebel

1.7. Publications et communications

Articles parus dans une revue ˆ comitŽ de lecture

[Herrera03a] Herrera, P., Peeters, G., Dubnov, S., Ç Automatic Classification of Musical Sounds È, Journal of New Musical Research, 2003

[Peeters02a] Peeters, G., Ç Pourquoi Gerard Depardieu parle anglais sans accent È, La Recherche, Novembre 2002, n¡ 358, pp. 98-99

[Wright02a] Wright, M., Beauchamp, J., Fitz, K., Rodet, X., Roebel, A., Serra, X., Wakefield, G., Ç Analysis/Synthesis Comparison È, Organised Sound, 2002, vol. 5, n¡ 3, pp. 173-189

Actes de congrs ou de colloque avec comitŽ de lecture

[Almeida02a] Almeida, A., Vergez, C., CaussŽ, R., Rodet, X., Ç Etude des Žcoulements dans les instruments ˆ vent ˆ anche double, pour application ˆ la Synthse par Modle Physique. È, CFA, Congrs Franais d'Acoustique, Lille, France, 2002

[Dhaes02a] D'haes, W., van Dyck, D., Rodet, X., Ç An efficient branch and bound seach algorithm for computing K nearest neighbors in a multidimensional vector space È, Signal Processing, Pattern Recognition and Applications (SPPRA), Crete, 2002

[Dhaes02b] D'haes, W., van Dyck, D., Rodet, X., Ç An efficient branch and bound seach algorithm for computing K nearest neighbors in a multidimensional vector space È, IEEE Advanced Concepts for Intelligent Vision Systems (ACIVS), Gent, 2002

[Dhaes02c] D'haes, W., van Dyck, D., Rodet, X., Ç Physical Constraints for the Control of a Physical Model of a Trumpet : wim D'haes, Dirk van Dyck and Xavier Rodet È, International Conference on Digital Audio Effects (DAFx), Hamburg, 2002

[Dhaes02d] D'haes, W., van Dyck, D., Rodet, X., Ç Control Parameter Estimation for a Physical Model of a Trumpet Using Pattern Recognition : wim D'haes, Dirk van Dyck and Xavier Rodet È, IEEE Workshop on Model Based Processing and Coding of Audio (MPCA), Leuven, 2002

[Peeters02b] Peeters, G., Rodet, X., Ç Automatically selecting signal descriptors for Sound Classification È, ICMC, Goteborg, 2002

[Peeters02c] Peeters, G., La Burthe, A., Rodet, X., Ç Toward Automatic Music Audio Summary Generation from Signal Analysis È, ISMIR, Paris, 2002

[Rioux02a] Rioux, V., Poletti, M., Ç An experimental SDIF-sampler in Max/MSP È, International Computer Music Conference, Gšteborg, 2002

[Roebel02a] Roebel, A., Ç Estimating partial frequency and frequency slope using reassignment operators È, International Computer Music Conference, Gšteborg, 2002, pp. 122-125

Actes de congrs ou de colloque sans comitŽ de lecture

[Almeida02b] Almeida, A., Vergez, C., CaussŽ, R., Rodet, X., Ç Physical study of double-reed instruments for application to sound-synthesis È, International Symposium in Musical Acoustics, Mexico, 2002

Travaux universitaires (thses, mŽmoires) et rapports de stage

[Arroabarren02a] Arroabarren, I., Ç On the instantaneous amplitude and instantaneous frequency of vibrato signals in singing voice È, UniversitŽ publique de Navarre, 2002

[Fagnan02a] Fagnan, L., Ç LES PRINCIPES CENTRAUX DE LA METHODE BEL CANTO ET LEURS EFFETS ACOUSTIQUES PORTES SUR LE CHANT CHORAL È, UniversitŽ de l'Alberta, Edmonton, 2002

[Gaullier02a] Gaullier, G., Ç ModŽlisation du conduit vocal : modle gŽomŽtrique et Žtude numŽrique de l'acoustique È, UniversitŽ Pierre et Marie Curie, 2002

[Helie02a] HŽlie, T., Ç ModŽlisation physique d'instruments de musique en systmes dynamiques et inversion È, UniversitŽ de Paris XI - Orsay, 2002

[LaBurthe02a] La Burthe, A., Ç RŽsumŽ sonore È, UniversitŽ Joseph Fourier - INPG Grenoble, 2002. [DEA ATIAM]

[Pruham02a] Pruham, B., Ç Estimation de la frŽquence fondamentale d'un signal È, UniversitŽ de Besanon, 2002

Rapports de recherche ou de fin de contrat

[Rioux02b] Rioux, V., Ç Projet Orgue, Palais des Beaux-Arts (II) : second rapport intermŽdiaire È, 2002

[Rioux02c] Rioux, V., Ç Projet Orgue, Palais des Beaux-Arts (III) : rapport final de synthse È, 2002

[Tisserand02a] Tisserand, P., Rodet, X., Ç ECRINS: Rapport sur la clasification È, 2002

[Tisserand02b] Tisserand, P., Rodet, X., Ç ECRINS: Rapport sur l'Žvolution dynamique È, 2002

[Tisserand02c] Tisserand, P., Rodet, X., Ç ECRINS: Etude sur les outils de mise en forme È, 2002

ConfŽrences invitŽes

[Rodet02a] Rodet, X., Ç Synthesis and Processing of the Singing Voice È, 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), Leuven, 2002

[Rodet02b] Rodet, X., Ç Present state and future challenges of synthesis and processing of the singing voice È, AES, Helsinky, 2002

Emissions radiophoniques et tŽlŽvisŽes, entretiens journalistiques, animations

Entretiens sur Vox Intox par X. Rodetpour le mensuel Phosphore, Nov 02