1. Analyse et synthse des sons

Responsable : Xavier Rodet

Les travaux de lՎquipe Analyse et synthse des sons sont centrŽs sur les problŽmatiques de lÕutilisation, de lÕinterprŽtation automatique de lÕaudio, et, inversement de sa gŽnŽration. Le thme du traitement fondŽ sur le contenu est relativement nouveau et conna”t une forte croissance dans les centres de recherche et dans les applications. Mais cÕest aussi le moyen dÕextraire automatiquement de lÕinformation ˆ partir de lÕaudio pour venir en aide aux musicologues dans lÕanalyse musicologique, ainsi de nouveaux travaux ont ŽtŽ lancŽs dans cette direction. La sŽparation de sources Žgalement participe essentiellement de lÕanalyse, mais trouvera des applications trs intŽressantes dans lÕindexation par exemple ou dans des traitements intelligents. Dans le domaine de la synthse aussi, les mŽthodes utilisant de grandes bases de donnŽes, comme la sŽlection dÕunitŽs, sont appelŽes ˆ de fort dŽveloppement [Rodet02a]. Enfin les techniques dÕinversion commencent ˆ donner des rŽsultats prometteurs pour faciliter lÕutilisation de modles puissants et donc complexes ˆ contr™ler. De toutes ces recherches dŽcoulent de nombreuses applications, librairies et autres dŽveloppements logiciels pour les musiciens ou pour le grand public comme la transformation de voix.

1.1. Traitements fondŽs sur le contenu

Les traitements fondŽs sur le contenu connaissent en Žnorme dŽveloppement dans le monde en termes de recherche autant que dÕimplication de grandes compagnies commerciales. Le comitŽ de normalisation et les confŽrences MPEG-7 et ISMIR sont quelques-uns des lieux o cette activitŽ est en pleine croissance. Ainsi, G. Peeters a participŽ, entre autres, aux meetings MPEG-7 de Klagenfurt et de Shanghai et y a reprŽsentŽ lÕIrcam et Sony avec qui lÕIrcam collabore dans CUIDADO. Un nouveau type de reprŽsentation des donnŽes, le modulationType, y a ŽtŽ proposŽ. Les activitŽs de lՎquipe concernent la caractŽrisation, la classification et lÕindexation de lÕaudio dans le cadre du multimŽdia en gŽnŽral.

1.1.1. CaractŽrisation des sons

LՎtude de la caractŽrisation des sons afin dÕen permettre la classification automatique a ŽtŽ poursuivie [Peeters02b], [Herrera03a]. En particulier de nouveaux descripteurs ont ŽtŽ ŽtudiŽs : modulation (dÕamplitude et de frŽquence), MFCC, Sonies relatives. Deux procŽdures de sŽlection automatique des descripteurs les plus appropriŽs pour un schŽma de classification donnŽ (schŽma pizzicato/sustain, schŽma famille dÕinstrument, schŽma instruments) sont proposŽes : sŽlection sur base de lÕinformation mutuelle, sŽlection sur base des axes discriminants. Cette sŽlection permet de rŽduire le nombre de descripteurs nŽcessaires pour la classification et ainsi dÕallŽger la modŽlisation et dՎviter la Ç malŽdiction de la dimensionnalitŽ È. Les descripteurs sŽlectionnŽs sont ensuite utilisŽs pour lÕestimation des paramtres des classes (modification par analyse discriminante et modŽlisation de type gaussien multidimensionnel). LՎvaluation de la mŽthode complte (extraction, modŽlisation et classification) est effectuŽe sur un sous ensemble de 1400 sons issus de Studio-Online. Le taux de rŽussite moyen (ŽvaluŽ sur des ensembles dÕapprentissage et de test de 66 % et 33 % de la base de donnŽe respectivement) est de 90.5 %.

Le portage de lÕensemble du systme (extraction/modŽlisation/classification) en C++ a ŽtŽ effectuŽ et intŽgrŽ dans la version en ligne de la Sound Palette de CUIDADO. 

Ces travaux ont ŽtŽ prŽsentŽs aux meetings MPEG-7 de Klagenfurt et de Shanghai et ont permis de proposer un nouveau type de reprŽsentation des donnŽes dans MPEG-7: le modulationType.

Participants : G. Peeters

Collaborations internes : Žquipe Services en ligne

Collaborations extŽrieures : P. Herrera (UPF, Barcelone), F. Pachet (Sony)

1.1.2. Project ECRINS, Environnement de Classification et Recherche Intelligente de Sons

Ce projet est une collaboration entre l'Ircam, l'Ina-GRM et la sociŽtŽ Digigram sur un financement PRIAM. L'objectif du projet est de dŽvelopper des outils, destinŽs aux professionnels de la production sonore, proposant diffŽrentes interfaces de navigation ˆ travers une grande base de donnŽes d'Žchantillons sonores ˆ partir de descripteurs de haut niveau (recherche par contenu, Ždition, etc.).

L'Žtude sur la classification a ŽtŽ poursuivie en 2002 [Tisserand02a]. Afin d'amŽliorer les rŽsultats nous avons choisi de travailler plus profondŽment sur les mŽthodes de modŽlisation des Žvolutions dynamiques [Tisserand02b]. La dŽcomposition en polyn™mes de Legendre a ŽtŽ retenue pour la modŽlisation de l'enveloppe temporelle des descripteurs. Les rŽsultats de ces Žtudes ont permis la crŽation d'une bibliothque, Žcrite en C++, offrant les fonctionnalitŽs de la classification automatique ˆ la plate-forme en ligne ECRINS de lՎquipe Service en ligne. Une prŽ-Žtude sur les outils de mise en forme a ŽtŽ conduite [Tisserand02c] et des maquettes implŽmentŽes en Matlab.

Participants : P. Tisserand, G. Peeters

Collaborations internes : M. Jacob (Žquipe Services en ligne)

Collaborations extŽrieures : P. Herrera (UPF, Barcelone)

1.1.3. Classification et Indexation de Documents MultimŽdia par la collaboration du Son, de l'Image et du Texte

Le but de cette thse est de comprendre les mŽcanismes qui relient les informations contenues dans les diffŽrents mŽdias d'un document multimŽdia et de les utiliser conjointement pour lÕindexation. Dans le contexte d'une base de donnŽes multimŽdia, on cherche ˆ caractŽriser ces relations de faon ˆ permettre l'indexation et la recherche des contenus par la fusion d'information multicritres, fondŽs sur le Son, le Texte et l'Image. Les principaux rŽsultats de lÕannŽe 2002 sont :

-           Elaboration de descripteurs audio (signature) du signal.

-           CrŽation d'une base de donnŽe multimŽdia.

-           Etude des relations entre les contenus des diffŽrents mŽdias (vidŽo, audio et texte) d'un document.

-           CrŽation d'un systme de classification prenant en compte la multimodalitŽ des documents

La base de donnŽe audio qui a ŽtŽ crŽŽe comporte des signaux de provenances diverses : musique populaire et classique, journaux tŽlŽvisŽs, films, etc. Un systme d'indexation multimŽdia a Žgalement ŽtŽ ŽbauchŽ. Il comprend un segmenteur audio et vidŽo, et une classification de l'audio en trois classes : parole pure, musique et mŽlange parole/musique.

Il reste dŽsormais ˆ aborder plus particulirement l'Žtude des possibilitŽs liŽes ˆ la multimodalitŽ des documents, afin de mieux comprendre et utiliser les relations entre mŽdias (notamment lÕaudio et la vidŽo).

Participants : B. Delezoide

Collaborations extŽrieures : M.M. Pic (CEA)

1.1.4. Reconnaissance de morceaux

Le systme de reconnaissance dÕextraits musicaux dans une large base de donnŽes, appelŽ Web Music Monitoring System (WMMS), dŽveloppŽ dans le cadre du projet CUIDADO, bŽnŽficie maintenant dÕun systme de reconnaissance amŽliorŽ par utilisation de probabilitŽs conditionnelles. Ce systme a ŽtŽ testŽ sur une large base de donnŽe, ce qui permet de faire passer le taux de reconnaissance de 94.5 % ˆ 97 % (97.5 % sur les 5 premiers extraits trouvŽs).

Le prototype dÕapplication (Žchantillonneur/extracteur/base de donnŽe/classifieur) a ŽtŽ portŽ sur plate-forme Windows.

Participants : G. Peeters

1.2. Analyse musicale du signal

Les recherches de lÕInstitut sur lÕanalyse musicale se sont traduites durant lÕannŽe 2002 par un groupe de travail pluridisciplinaire animŽ par G. Assayag et X. Rodet. Un site regroupe des informations, rapports et logiciels rŽsultant de ces rŽunions


Enfin un rapport final rŽsume les conclusions du groupe de travail. Les travaux concernant lÕanalyse musicale menŽs dans lՎquipe Analyse-Synthse sÕappuient sur les recherches orientŽes contenu menŽes dans les projets ECRIN et CUIDADO, Ainsi les rŽsumŽs musicaux ont ŽtŽ ŽtudiŽs dans CUIDADO, et une thse a commencŽ sur le sujet plus gŽnŽral de lÕextraction de structures musicales ˆ partir de lÕaudio en collaboration avec lՎquipe ReprŽsentation Musicale. Enfin lÕalignement de partitions avec lÕaudio doit permettre, entre autres, des travaux musicologiques, par exemple sur lÕinterprŽtation.

1.2.1. RŽsumŽs musicaux visuels et sonores

Les rŽsumŽs ˆ construire ˆ partir dÕun enregistrement audio doivent constituer une reprŽsentation concise mais incluant lÕessentiel du contenu dÕune Ïuvre musicale, soit sous forme visuelle, soit sous forme sonore. Dans un premier temps, des caractŽristiques sont extraites du signal sonore de lÕÏuvre. Ces caractŽristiques servent ensuite ˆ lÕanalyse de son contenu.

Dans le cadre du projet CUIDADO [Peeters02c], lÕanalyse consiste en une modŽlisation de lÕÏuvre sous forme dՎtats (ˆ titre dÕexemple, dans le cas de la musique populaire, les Žtats reprŽsentent les diffŽrentes parties telles que couplets, refrains, etc.). Cette reprŽsentation est obtenue par apprentissage non-supervisŽ (fuzzy-kmeans et modle de Markov cachŽ avec pruning dans les deux cas). Cette reprŽsentation est appelŽe Ç approche par Žtat È par opposition aux mŽthodes dites Ç approche par sŽquence È gŽnŽralement utilisŽes pour les matrices de similaritŽ.

LÕapproche par Žtat donne lieu ˆ un rŽsumŽ visuel sous forme dÕune reprŽsentation visuelle de type Ç piano-roll È. Un systme interactif a ŽtŽ dŽveloppŽ, permettant ˆ lÕutilisateur dÕapprŽhender la structure temporelle dÕune Ïuvre par simples clicks.

LÕapproche par Žtat donne Žgalement lieu ˆ un rŽsumŽ sonore par construction dÕun signal sonore constituŽ de la concatŽnation dÕextraits des signaux des diffŽrents Žtats. Une technique permettant dÕamŽliorer la qualitŽ du signal sonore est proposŽe : BSOLA (beat-synchronous overlap-add).

Dans le cadre dÕun stage du DEA ATIAM [LaBurthe02a], lՎtude des reprŽsentations hiŽrarchiques de la structure du signal a ŽtŽ commencŽe. Pour cela la mŽthode de lÕÇ Oracle des facteurs È est appliquŽe aux observations du signal.

Participants : G. Peeters, A. La Burthe (stage)

Collaborations internes : Žquipe Services en ligne

Collaborations extŽrieures : P. Herrera (UPF, Barcelone)

1.2.2. Extraction de structures musicales de lÕaudio

Le but de cette thse, qui vient de commencer, est d'extraire des structures ˆ partir du signal audio d'une pice sonore : la similaritŽ, les transformations et la discontinuitŽ sur des Žchelles micro- et macro-temporelles sont les constituants de base de la structure cherchŽe. L'utilisation du langage de script Python, orientŽ objet, permet la crŽation d'un cadre consistant et stable, facile ˆ Žtendre et intŽgrable dans d'autres logiciels. Elle permet aussi la combinaison facile de plusieurs approches d'analyse d'une pice musicale. En stockant les donnŽes calculŽes dans des objets persistants, on peut Žviter la rŽpŽtition de calculs cožteux, donc fournir un environnement pour faire des expŽriences rapides, et en mme temps un environnement d'analyse qui peut contenir beaucoup d'informations diverses de nombreuses pices. Une des approches ŽtudiŽe est une extension des rŽsultats de la thŽorie de l'information structurelle (SIT) dans le domaine de l'audio, particulirement par la modification d'un algorithme gŽnŽtique d'abord utilisŽ pour repŽrer les structures dans des formes des sŽquences linŽaires.

Participants : K. Souren (thse)

Collaborations internes : G. Peeters (Žquipe Analyse-Synthse)

1.2.3. Alignement d'un enregistrement audio avec sa partition

LÕalignement dÕun enregistrement audio et de sa partition consiste ˆ dŽterminer les positions temporelles exactes des ŽlŽments de la partition (notes et accords) dans un enregistrement audio. Les applications de lÕalignement de partitions sont nombreuses, par exemple permettre de constituer automatiquement une grande base de donnŽe de segments sonores pour la synthse concatŽnative par sŽlection d'unitŽs sonores. Une mŽthode d'alignement automatique a ŽtŽ dŽveloppŽe, fondŽe sur l'algorithme Dynamic Time Warping (DTW). Elle utilise la structure des pics spectraux, augmentŽe par un modle d'attaque et de silence. La mŽthodologie peut traiter des signaux audio considŽrŽs difficiles ˆ aligner, comme la musique polyphonique, des trilles, ou des sŽquences rapides.

Cet algorithme a ŽtŽ implantŽ en Matlab et amŽliorŽ sur plusieurs points :

á          Optimisation de la reprŽsentation du chemin d'alignement pour les fichiers sonores volumineux (jusquՈ 2000 notes).

á          Accroissement de la rŽsolution temporelle,

á          Diminution du temps de calcul.

á          Structure logicielle revue et amŽliorŽe.

á          Meilleures contraintes dans la recherche du chemin.

á          AmŽlioration de lÕanalyse du signal.

á          Renforcement de la robustesse pour aligner correctement les notes faibles noyŽes dans des notes plus fortes et dont les partiels sont difficiles ˆ distinguer.

Ce programme peut traiter maintenant avec peu dÕerreurs des morceaux polyphoniques de moins de cinq instruments pouvant mme comporter de la voix chantŽe. LՎvaluation du programme est difficile car il faut constituer des fichiers de test faisant rŽfŽrence et donc segmentŽs en notes. En particulier, il est nÕest pas simple de trouver des fichiers audio et des fichiers midi correspondants qui ne soient pas entachŽs dÕerreurs.

Participants : D. Schwarz (thse), F. Soulez (stage), E. Vincent (thse)

Collaborations internes : N. Orio (Žquipe Systmes temps-rŽel)

1.2.4. Effets acoustiques de la pŽdagogie Bel Canto sur le chant choral

Cette Žtude a pour but dՎclaircir les effets acoustiques des principes de la pŽdagogie Bel Canto sur le chant choral. Les expŽriences et analyses effectuŽes dans ce stage ont fourni des mesures acoustiques objectives de l'effet de cette mŽthode. Les expŽriences ont eu lieu dans l'Espace de Projection ˆ l'Ircam ˆ Paris. Dans un premier temps, le chef de chÏur a fait chanter douze exercices par son chÏur. Ensuite, un travail a ŽtŽ fait pendant 90 minutes sur plusieurs principes centraux de la mŽthode Bel Canto. Les mmes exercices ont ŽtŽ enregistrŽs ˆ nouveau pendant ce travail. Finalement, la comparaison acoustique de ces deux versions des mmes exercices a conduit aux rŽsultats. Pour ces mesures acoustiques sur les enregistrements, des programmes existants (additive, F0, XSpect, etc.) ont ŽtŽ utilisŽs ainsi que de nouveaux programmes dŽveloppŽs ˆ cette occasion. Les principes centraux de la mŽthode Bel Canto ŽtudiŽs sont les suivants.

La Vibration :

La mesurer de lՎnergie dans la bande du formant des chanteurs montre bien l'efficacitŽ acoustique supŽrieure que la vibration donne ˆ la voix.

La rŽsonance chiaroscuro (claire-obscure, brillant-riche) :

Pour changer de voyelle le conduit vocal doit changer de forme. Ce mouvement peut entrainer une altŽration importante de la faon dont la rŽsonance influence la justesse du chant. Le lien entre changement de rŽsonance et changement de vibration des cordes vocales (frŽquence) peut tre trs fort. Cependant, nous avons trouvŽ que cette influence pŽjorative peut tre rŽduite, voir supprimŽe, lorsque le principe de rŽsonance Bel Canto de chiaroscuro est appliquŽ.

La nota mentale :

Aprs avoir travaillŽ le principe de la nota mentale, nous voyons quÕun chÏur possde beaucoup plus d'Žnergie dans les hautes frŽquences, surtout dans les rŽgions des formants.

Messa di voce :

Ce principe assure une consistance d'Žnergie vocale et de justesse lorsqu'un chÏur chante doucement ou effectue un decrescendo ˆ l'intŽrieur d'une phrase musicale. Le dŽtail des expŽriences et des rŽsultats est publiŽ dans [Fagnan02a]

Participants : L. Fagnan (stage), X. Rodet

Collaborations extŽrieures :UniversitŽ dÕAlberta, Edmonton

1.3. Modles de signaux

Le traitement des signaux est fondamental pour lÕanalyse, la modification et la synthse des sons musicaux. Dans ce domaine, la sŽparation de source est lÕun des problmes les plus difficiles et les plus intŽressants. Des rŽsultats prometteurs ont ŽtŽ obtenus lorsque le problme est restreint, par exemple par des connaissances sur lÕune des sources ou sÕil sÕagit seulement de modifier la balance dÕune voie dans un mixage relativement simple. La recherche des frŽquences fondamentales dans les enregistrements polyphoniques est un problme apparentŽ, sur lequel lՎquipe a bien avancŽ en 2002, car sŽparer les sources et trouver les diffŽrentes notes sont deux points de vue fortement reliŽs. Enfin les reprŽsentations en partiels, modle dit additif, et par enveloppe spectrale, modle dit source-filtre, continuent ˆ tre dŽveloppŽes car ce sont parmi les plus importants pour les musiciens.

1.3.1. Nettoyage d'enregistrements stŽrŽo

En rŽponse ˆ des besoins internes et ˆ des demandes externes, une Žtude a ŽtŽ menŽe sur la sŽparation dÕune source de bruit et dÕun signal utile (par exemple une source de radio et une voix) ˆ partir d'un enregistrement stŽrŽo o un canal contient un fort niveau de la source de bruit (radio).

Plusieurs algorithmes de sŽparation ont ŽtŽ ŽtudiŽs. Le premier implŽmente la sŽparation des sources convoluŽes sans connaissance sur le contenu des canaux. Cet algorithme est proche de l'algorithme de Murata, Ikeda et Ziehe. Il utilise une transformation de Fourier ˆ court terme et applique une dŽcomposition en composantes indŽpendantes (ICA) ˆ chaque canal de l'analyse. Les composantes indŽpendantes sont trouvŽes par diagonalisation conjointe de plusieurs matrices de corrŽlation (avec plusieurs retards). A la place de l'algorithme en deux pas proposŽ par Murata et al., cÕest l'algorithme de Pham qui est utilisŽ ici. Il prŽsente l'avantage d'avoir une objective function directement liŽe ˆ une maximisation de vraisemblance. Pour le regroupement des composantes indŽpendantes (problme des permutations) un nouvel algorithme a ŽtŽ dŽveloppŽ.

Un deuxime algorithme de sŽparation a ŽtŽ dŽveloppŽ qui considre quÕun canal seulement est un mŽlange et que le deuxime canal contient la source de bruit. Le problme de regroupement ne se pose alors plus et la sŽparation des sources se fait simplement par estimation de la matrice de corrŽlation.

L'Žtude a montrŽ que l'algorithme le plus gŽnŽral souffre d'un temps de calcul beaucoup plus grand. Les rŽsultats de sŽparation obtenus sont similaires. La qualitŽ de la sŽparation a ŽtŽ jugŽe trs bonne par le correspondant externe.

Participants : A. Roebel

1.3.2. SŽparation de signaux audio par des techniques statistiques

Ce travail a pour but d'extraire dans un enregistrement mono ou stŽrŽo mŽlangeant plusieurs instruments, la partie jouŽe par chaque instrument, sous forme de partition ou sous forme sonore.

E. Vincent a poursuivi son travail de thse en appliquant la modŽlisation de Markov cachŽe (HMM) et l'analyse en sous-espaces indŽpendants (ISA) ˆ la dŽtection de zones correspondant ˆ chaque instrument dans le spectrogramme de l'enregistrement. L'alignement de partitions a ŽtŽ utilisŽ pour l'apprentissage supervisŽ des HMM. L'Žtude des dŽfauts et des avantages de ces deux modles a conduit ˆ concevoir une combinaison HMM+ISA actuellement ˆ l'Žtude.

Une Action Jeunes Chercheurs du GdR ISIS a dŽbutŽ en mars 2002 avec l'IRISA (REnnes) et l'IRCCyN (Nantes). Les rŽsultats de l'Action (rapports internes, routines MATLAB, base de donnŽes d'Žvaluation) sont disponibles sur http://www.ircam.fr/anasyn/ISIS/

T. Foirien a participŽ ˆ la crŽation d'une petite base de donnŽes d'apprentissage et d'Žvaluation.

Participants : E. Vincent (thse), T. Foirien (stage)

Collaborations internes : D. Schwarz, N. Orio, F. Soulez (groupe de travail sur l'alignement de partitions)

Collaborations extŽrieures : S. Dubnov (universitŽ Ben Gourion, Isra‘l), F. Bimbot (Žquipe METISS, IRISA Rennes) et C. FŽvotte (IRcCYN, Ecole Centrale de Nantes)

1.3.3. Estimation de la frŽquence fondamentale

Dans les travaux poursuivis sur l'estimation de la frŽquence fondamentale dans lՎquipe Analyse-Synthse, un rŽsultat central obtenu est que la fonction de distance qui servait pour sŽlectionner les frŽquences fondamentales, utilisant la divergence de Kullback-Leibler, pas assez souple, ne pouvait pas tre adaptŽe suffisamment au problme [Prudham02a]. Une nouvelle Žvaluation des f0 candidats a ŽtŽ conue, fondŽe sur trois ŽlŽments clefs qui caractŽrisent le spectre observŽ et le modle :

-           La distance entre les maxima du modle et leurs correspondants du spectre observŽ.

-           La rŽgularitŽ de l'enveloppe spectrale du modle.

-           La partie du spectre observŽ expliquŽe par le modle.

Ces trois ŽlŽments (normalisŽs et pondŽrŽs suivant leur importance) comme arguments de la fonction de distance ont permis dÕamŽliorer considŽrablement la qualitŽ et la robustesse de l'estimation. LՎvaluation de l'algorithme a ŽtŽ faite sur les bases de donnŽe fournies par A. de CheveignŽ. Pour la base fda de Bagshaw l'erreur totale est de 2.23 % ce qui est Žgal ˆ lÕerreur obtenue par la meilleure mŽthode, Yin de A. de CheveignŽ. Si on prend comme rŽfŽrence les valeurs obtenues par Yin sur le signal du laryngophone, l'erreur du modle Yin est plus faible que l'erreur de notre modle. Comparant avec additive-f0, le taux d'erreur est rŽduit de 30 %. Pour la base de donnŽe Atake, l'erreur passe de 2.4 % pour additive-f0 ˆ 0.7 % (en comparaison, Yin a un taux d'erreur de 0.3 % seulement).

Participants : A. Roebel, B. Prudham (stage)

Collaborations internes : A. de CheveignŽ (Žquipe Perception et cognition musicales)

1.3.4. Modle additif

Les travaux sur le modle additif [Wright02a] concernent les signaux non stationnaires. Pour le cas de faible changement d'amplitude, une estimation de la pente frŽquentielle a ŽtŽ Žtablie en utilisant la mŽthode de rŽallocation. La mŽthode utilise cinq transformŽes de Fourier avec diffŽrentes fentres. A cause de la forme de ces fentres, la rŽsolution frŽquentielle est rŽduite. Mais un mŽcanisme simple permet de dŽtecter les cas problŽmatiques et dÕutiliser alors la mŽthode standard.

La nouvelle mŽthode [Roebel02a] a ŽtŽ comparŽ avec d'autres mŽthodes d'estimation frŽquentielle notamment la mŽthode utilisant une fentre Gaussienne. Les rŽsultats obtenus par la nouvelle mŽthode sont plus prŽcis dans la majoritŽ des cas spŽcialement si l'amplitude ne change pas fortement.

Pour les rŽgions transitoires, une dŽtection a ŽtŽ mise en place. Elle permet de traiter les rŽgions transitoires diffŽremment. La recherche avec notre modle adaptatif (pbench) et les rŽsultats obtenus avec rŽallocation (mŽthode Loris) ont montrŽ que le modle additif peut tre amŽliorŽ considŽrablement dans les rŽgions transitoires sans quitter le formalisme additif. Le problme avec la mŽthode rŽallocation est que les transitoires sont meilleurs subjectivement mais que le rŽsiduel est forcŽment dՎnergie plus grande. Le modle adaptatif permet une erreur plus petite, mais le temps de calcul est lourd. Dans cette situation, une nouvelle approche a ŽtŽ ŽtudiŽe qui rŽduit le cožt d'optimisation ˆ la rŽsolution dÕune Žquation linŽaire en utilisant une sinuso•de et un cosinuso•de de frŽquence fixe et amplitude variable. Aprs rŽsolution, les rŽsultats sont portŽs dans le formalisme additif standard. La mŽthode permet une rŽduction du rŽsiduel dans les rŽgions transitoires de 20 % environ. Une difficultŽ est le problme de dŽtection des transitoires qui sՎtend par erreur ˆ des rŽgions ˆ forte modulation (souvent des rŽgions bruitŽes). Ces erreurs de classification sont gnantes parce que le temps de calcul est accru sans que le rŽsultat soit amŽliorŽ. Il faut donc trouver une dŽtection plus robuste. Le deuxime problme de l'algorithme actuel vient de ce que les valeurs des paramtres devraient s'adapter localement (comme avec la rŽallocation) pour permettre une rŽduction d'erreur plus forte.

Participants : A. Roebel

1.3.5. Analyse de voix chantŽe en partiels et enveloppe spectrale

Dans des travaux prŽcŽdents menŽs ˆ lÕUniversitŽ de Navarre, I. Arroabarren avait analysŽ des voix chantŽes en partiels en utilisant la frŽquence et lÕamplitude instantanŽes. De forts artefacts apparaissaient sur ces rŽsultats. Au cours dÕun stage nous avons cherchŽ ˆ comprendre ces artefacts et ˆ Žtendre lÕanalyse ˆ lÕenveloppe spectrale [Arroabarren02a]. Le premier rŽsultat est que la frŽquence instantanŽe nÕest pas une bonne reprŽsentation lorsque les partiels sont fortement modulŽs car sa valeur peut, localement, devenir extrmement ŽloignŽe de la valeur approximative du partiel, dÕo les artefacts observŽs. DÕailleurs ces artefacts apparaissent en particulier ˆ cause de la rŽverbŽration de la salle qui module les partiels. Sur des enregistrements anŽchoiques, ces artefacts disparaissent et les frŽquences et amplitudes instantanŽes sont alors pratiquement identiques aux valeurs fournies par les analyses additive les plus prŽcises (programme additive et pbench), ce qui, de plus, valide rŽciproquement les deux types dÕalgorithmes (instantanŽ et additif).

Dans un deuxime temps, les trajets de partiels ainsi obtenus ont ŽtŽ utilisŽs pour essayer dÕobtenir une enveloppe spectrale trs prŽcise de voyelles chantŽes. Ceci est fait en utilisant le balayage des formants par les partiels lors du vibrato. Divers modles ont permis de sÕapprocher de mieux en mieux dÕune enveloppe spectrale trs prŽcise (en particulier valeurs de largeur de bande des formants aussi exactes que possible). De trs bons rŽsultats ont ŽtŽ obtenus et comparŽs ˆ ceux dÕautres mŽthodes dÕestimation de lÕenveloppe spectrale, Cepstre Discret et Discrete All Pole Modelling en particulier. Ils montrent clairement que les mŽthodes en question fournissent des valeurs fort ŽloignŽes de celles que lÕon peut supposer les bonnes au vu des rŽsultats obtenus ˆ partir du balayage. Ceci est trs important pour la voix chantŽe [Rodet02b], en particulier pour obtenir une bonne forme dÕonde glottale par filtrage inverse.

Participants : I. Arroabarren (stage), X. Rodet, A. Roebel

Collaborations extŽrieures : A. Carlosena (UniversitŽ Publique de Navarre, Pampelune, Espagne)

1.4. Modles physiques

Diverses classes dÕinstruments entretenus ont ŽtŽ modŽlisŽes ˆ lÕIrcam. La classe des anches doubles est la dernire en cours de modŽlisation. Ainsi la voie sera ouverte pour que les musiciens puissent disposer de modles de base de lÕensemble des instruments entretenus. Mais, pour bien utiliser ces modles physiques, il faut pouvoir les contr™ler. CÕest pourquoi nous Žtudions lÕinversion des modles physiques, modles non-linŽaires qui posent de difficiles problmes. Dans ce domaine, la thse de T. HŽlie soutenue en 2002 reprŽsente une avancŽe remarquable.

1.4.1. Etude et modle physique des instruments ˆ anche double

Les instruments ˆ anche double, comme le hautbois, qui prŽsentent des difficultŽs particulires pour la modŽlisation de leur fonctionnement physique sont ŽtudiŽs dans le cadre d'une thse conjointe de l'Žquipe Analyse-Synthse et de l'Žquipe Acoustique des instruments. Dans la premire annŽe de thse, un modle a ŽtŽ conu en utilisant une hypothse thŽorique, de pertes de charge dans l'anche, proposŽe par A. Hirschberg. Ce modle mathŽmatique a ŽtŽ appliquŽ en 2002 ˆ des rŽsonateurs cylindriques et coniques idŽaux pour mieux le comparer avec les rŽsultats expŽrimentaux.

Pour le modle physique proprement dit, les principaux travaux sont :

-           ImplŽmentation dÕun modle physique dÕinstrument ˆ anche double, avec rŽsonateur cylindrique et dynamique, en Matlab puis postŽrieurement en C.

-           Portage du code C dans lÕenvironnement temps rŽel jMax, ce qui permet d'Žtudier plus facilement lÕensemble des paramtres.

-           Adaptation de ce modle pour un rŽsonateur conique idŽal, avec pertes indŽpendantes de la frŽquence.

Une bouche artificielle permet de souffler dans l'instrument avec des paramtres bien contr™lŽs et des valeurs bien connues.

Des expŽriences ont ŽtŽ faites sur l'utilisation d'une bouche artificielle pour des mesures de lÕouverture de lÕanche ˆ lÕaide dÕun stroboscope, une camŽra et un algorithme de traitement et analyse dÕimages dŽveloppŽ en Matlab par A. Almeida.

Les observations essentielles sont :

-           Le mouvement des anches est symŽtrique.

-           LÕaire de la section dÕentrŽe de lÕanche est une fonction presque linŽaire de son ouverture. Ce rŽsultat est important puisque les modles jusqu'ˆ prŽsent considŽraient l'aire comme une fonction quadratique de l'ouverture de l'anche.

-           Validation entre les mesures faites par vibromŽtrie laser et celles faites sur les images.

-           Les comparaisons entre les mesures expŽrimentales et les simulations sur la variation de l'ouverture de l'anche sont encourageantes. Elles semblent prŽdire des effets caractŽristiques des anches doubles tels que la transition soudaine entre anche ouverte et anche fermŽe et l'allure du mouvement de l'anche ouverte.

Par ailleurs, une collaboration est poursuivie avec le groupe de mŽtrologie du LIMSI – Orsay, dans le but de construire une anche en matŽriau synthŽtique transparent pour effectuer des mesures de champ de vitesse dans lÕanche double. Une premire version de lÕanche transparente, a ŽtŽ construite, mais elle doit tre amŽliorŽe pour pouvoir tre utilisŽe dans les mesures

Une nouvelle version de la bouche artificielle est en prŽparation, avec lvres en latex, dans le but de rŽaliser des mesures comparatives entre clarinette et hautbois et de mesurer la caractŽristique dŽbit / pression.

Ces travaux ont ŽtŽ prŽsentŽs dans deux publications [Almeida02a], [Almeida02b].

Participants : A. Almeida (thse)

Collaborations internes : Žquipe Acoustique instrumentale

Collaborations extŽrieures : C.Vergez (LMA), ? ? ? (LIMSI)

1.4.2. Inversion de modles physiques

La modŽlisation physique a un grand intŽrt pour la synthse sonore puisqu'elle permet non seulement de gŽnŽrer le son mais aussi le comportement de l'instrument (attaques, transitoires, fausses notes, etc...). Cependant, les instruments virtuels et rŽels s'avrent aussi difficiles ˆ jouer. Cette difficultŽ de contr™le amne la question de l'inversion : Ç comment dois-je contr™ler mon modle pour obtenir ce son cible que ce musicien a obtenu avec son instrument ?È Ce travail doctoral vise ˆ obtenir des modles mathŽmatiques aussi simples et rŽalistes que possibles, possŽdant des propriŽtŽs adaptŽes ˆ l'inversion, avec comme applications type les cuivres et la production de la voix. Le problme de l'excitateur (e.g. lvres, glotte, anche, etc...) a ŽtŽ traitŽ pendant un DEA. Celui du rŽsonateur (dŽcrire la propagation dans un tube ˆ section variable et son rayonnement) est l'objet de cette thse. En premire partie, nous Žtablissons un modle 1D nouveau de propagation acoustique dans les tubes axisymŽtriques qui n'impose pas de gŽomŽtrie figŽe aux fronts d'onde. Ce modle permet de considŽrer la mobilitŽ des parois (cas adaptŽ au conduit vocal), ou encore la prŽsence de pertes visco-thermiques. Pour ce dernier cas, un guide entier peut tre construit en concatŽnant des tronons de tubes ˆ courbure quasi-constante, chaque ŽlŽment Žtant reprŽsentable par des fonctions de transfert calculables analytiquement. Nous approchons alors chaque ŽlŽment par des systmes diffŽrentiels linŽaires d'ordre fini ˆ retard, plus simples, en nous appuyant sur deux mŽthodes : les sŽries divergentes tronquŽes et les reprŽsentations diffusives d'opŽrateurs pseudo-diffŽrentiels. En deuxime partie, nous dŽveloppons un modle nouveau de rayonnement acoustique tenant compte de la courbure du front d'onde sortant, utilisable comme condition ˆ la frontire de l'instrument. Nous fournissons lˆ encore des approximations satisfaisantes reprŽsentŽes par des systmes linŽaires ˆ retard. La thse de T. HŽlie a ŽtŽ soutenue ˆ la fin de lÕannŽe 2002 [Helie02a].

Participants : T. HŽlie (thse)

Collaborations extŽrieures : C.Vergez (LMA), D. Matignon (ENST)

1.4.3. Etude pour une modŽlisation du conduit vocal

L'objectif de ce stage est d'Žlaborer une modŽlisation du conduit vocal adaptŽe ˆ une Žquation des ondes developpŽe au sein de l'I.R.C.A.M [Gaullier02a]. Pour une paroi immobile repŽrŽe par ses coordonnŽes curvilignes, cette Žquation prend la forme de l'Žquation de Webster bien connue des acousticiens. Tout d'abord, un modle polynomial est utilisŽ pour dŽcrire le profil du conduit. Pour contr™ler l'articulation, nous dŽveloppons un outil permettant d'apparier les paramtres de S.Maeda (position de la langue, etc.) et les coefficients polynomiaux, le modle de Maeda faisant rŽfŽrence. Une Žtude numŽrique de l'Žquation de Webster est ensuite effectuŽe en vue de sa simulation. Devant l'instabilitŽ des schŽmas classiques, une recherche de variable d'Žtats mieux adaptŽes ˆ la discrŽtisation est engagŽe. Un systme Žquivalent ˆ l'Žquation de Webster, constituŽ de deux Žquations de transport couplŽes est Žtabli pour ces nouvelles variables. L'Žtude de la stabilitŽ numŽrique pour des schŽmas appliquŽs ˆ ce systme a donnŽ satisfaction. La conservation d'une Žnergie est prouvŽe dans le cas de coefficients constants pour un C.F.L. Žgal ˆ 1. L'algorithme dŽveloppŽ va ˆ terme tre utilisŽ sur des donnŽes issues de l'Imagerie ˆ RŽsonance MagnŽtique et pourra donner lieu ˆ de la synthse sonore.

Participants : G. Gaullier (stage), T. HŽlie (thse)

Collaborations extŽrieures : C.Vergez (LMA)

1.5. Contr™le de la synthse

Le contr™le de la synthse joue un r™le tout ˆ fait essentiel dans le succs de la synthse pour des applications musicales. Il appara”t donc nŽcessaire dÕoffrir aux compositeurs des moyens de contr™le exploitant rŽellement la puissance des processeurs, des systmes (Bases de donnŽes par exemple) et des logiciels dÕaujourdÕhui. CÕest lÕobjectif qui est visŽ dans la technique de sŽlection d'unitŽs sonores comme dans les mŽthodes dÕapprentissage. DÕautre part, la puissance de la synthse additive et le formalisme des fichiers SDIF permettent de novelles applications, telles que des sampleurs intellligents.

1.5.1. Synthse concatŽnative par sŽlection d'unitŽs sonores

Les diffŽrents aspects de ce travail sont l'estimation, la classification et la structuration de paramtres, et l'utilisation d'une base de donnŽs hŽtŽrognes de sons et de caractŽristiques. Dans les systmes de "synthse de la parole ˆ partir du texte", une nouvelle technique, nommŽe "sŽlection d'unitŽs", conna”t un grand succs : en effet, les techniques prŽcŽdentes, malgrŽ des dizaines d'annŽes de recherches intensives n'ont jamais permis d'obtenir une qualitŽ acceptable ; un accroissement de qualitŽ considŽrable a ŽtŽ obtenu au contraire par cette mŽthode. Il est donc intŽressant de chercher comment la mŽthode de "sŽlection d'unitŽs" peut tre Žgalement appliquŽe ˆ la synthse sonore et musicale de haute qualitŽ. La mŽthode utilise une large base de donnŽes hŽtŽrognes de sons choisis (soit des notes sŽparŽes, soit des phrases compltes) et de caractŽristiques, classŽs et segmentŽs suivant des paramtres estimŽs sur le signal sonore. Le segment qui ressemble le mieux - au sens d'un critre donnŽ - au rŽsultat dŽsirŽ, est trouvŽ par des mŽthodes efficaces de recherche et d'extraction utilisŽes par l'algorithme de sŽlection d'unitŽs. Pour rŽpondre aux exigences concernant les paramtres de synthse nŽcessaires, le segment sonore trouvŽ est transformŽ par des techniques temporelles ou frŽquentielles de re-synthse telles que PSOLA, re-synthse additive, vocodeur de phase et filtrage. Le segment sonore est encha”nŽ avec les segments trouvŽs pour les autres parties du signal ˆ construire, en appliquant des techniques d'interpolation pour former les transitions, et des transformations de niveaux plus ŽlevŽs. L'annŽe 2002 a vu l'intŽgration du calcul des descripteurs dŽveloppŽs pour les projets europŽens ECRINS et CUIDADO, utilisant le standard de format de fichier SDIF, et la finalisation du calcul des caractŽristiques des unitŽs.

Participants : D. Schwarz (thse)

Collaboration interne : P. Tisserand, G. Peeters (Žquipe Analyse-Synthse)

1.5.2. MŽthodes par apprentissage pour l'estimation des paramtres de contr™le d'algorithmes de synthse

Dans le contexte de la recherche sur l'estimation des paramtres de contr™le pour un modle physique de trompette [D'haes02d], la recherche pendant l'annŽe 2002 a portŽ sur les algorithmes de recherche des K plus proches voisins (KPPV) et sur les contraintes physiques de l'instrument.

Algorithme de KPPV, comparaison avec autres mŽthodes et optimisation :

L'efficacitŽ des algorithmes de sŽparation-Žvaluation (branch and bound) pour le calcul des KPPV a ŽtŽ ŽtudiŽe. Les aspects les plus importants qui influencent cette efficacitŽ sont :

-           MŽthode de dŽcomposition.

-           MŽthode d'Žlimination.

-           MŽthode de dŽcomposition

-           Ordre de parcours

-           Niveau de dŽcomposition.

Une dŽrivation thŽorique d'une mŽthode de dŽcomposition a ŽtŽ proposŽe, fondŽe sur l'analyse en composantes principales. DiffŽrentes mŽthodes d'Žlimination ont ŽtŽ combinŽes ce qui aboutit ˆ 10 algorithmes diffŽrents. Comme l'efficacitŽ est fortement influencŽe par le niveau de dŽcomposition, celui-ci est optimisŽ par un modle statistique qui exprime le cožt de calcul total en fonction du cožt de parcours d'un nÏud et du cožt de calcul d'une distance. Les algorithmes ont ŽtŽ comparŽs pour leur efficacitŽ [D'haes02b] [D'haes02a].

Contraintes physiques :

Un problme observŽ pendant l'estimation des paramtres est que les contraintes physiques de l'instrument n'Žtaient pas respectŽes. Afin de rŽsoudre ce problme, un "modle de contr™le" pour l'instrument a ŽtŽ dŽfini. A partir d'une dŽrivation thŽorique, des conditions ont ŽtŽ dŽrivŽes pour lesquelles la rŽsonance du modle physique est maximale (rŽsonance d'un mode). Ceci nous a permis dÕidentifier des relations approximatives entre les paramtres de contr™le et les caractŽristiques du son, et de dŽfinir des contraintes physiques [D'haes02c].

Participants : W. DÕHaese (thse)

Collaborations extŽrieures : D. van Dyck (UniversitŽ dÔAnvers)

1.5.3. Projet Orgue, un sampleur SDIF

En parallle ˆ la construction de l'orgue du Palais des Beaux-Arts de Bruxelles par G. Westenfelder et la sociŽtŽ Syncordia, l'IRCAM a ŽtŽ chargŽ de concevoir le prototype d'un systme de synthse sonore pouvant s'adjoindre ˆ l'orgue (de facture classique).

Ce projet nŽcessite des compŽtences en analyse-synthse des sons et en diffusion dans lÕespace. Il est donc menŽ en collaboration entre les Žquipes Acoustique des salles et Analyse-Synthse.

Suite au travail effectuŽ en 2001, une premire expŽrimentation du systme a ŽtŽ effectuŽe en grandeur rŽelle (dans lÕEspace de Projection de lÕIrcam) en janvier 2002.

En mars 2002 des contacts ont ŽtŽ pris au Conservatoire National de Musique de Paris. Avec lÕautorisation du facteur dÕorgue, un Žchantillonnage partiel de lÕorgue du CNSMDP a ŽtŽ effectuŽ en juillet 2002 avec lÕassistance de M. Deschamps. Les analyses de ces Žchantillons ont alors pu tre lancŽes en aožt pour produire les fichiers SDIF. Le principal rŽsultat est un orgue virtuel sous forme dÕun sampleur SDIF offrant de trs intŽressantes possibilitŽs sonores et musicales.

La prŽsentation finale du projet sÕest dŽroulŽe le 5 novembre 2002 dans lÕEspace de Projection de lÕIrcam. Deux rapports ont ŽtŽ rŽdigŽs [Rioux02b], [Rioux02c] ainsi quÕun article de confŽrence [Rioux02a].

Participants : V. Rioux, M. Deschamps, M. Poletti

Collaborations internes : Žquipe Acoustique des salles

1.6. ActivitŽs de dŽveloppement

Les activitŽs de dŽveloppement ont reprŽsentŽ une part relativement importante du travail de lՎquipe. En premier lieu, il sÕagit du dŽveloppement dÕoutils logiciels pour le Forum des utilisateurs, compositeurs et musiciens, tels que SuperVP, AudioSculpt et analyse-psola. Par ailleurs, certains dŽveloppements ont ŽtŽ effectuŽs pour rŽpondre ˆ des contrats extŽrieurs nous permettant de valoriser notre connaissance et notre savoir-faire. Enfin des outils internes comme des bibliothques ou XSpect sont les moyens de travail quotidiens indispensables aux avancŽes de lՎquipe.

1.6.1. Analyse PSOLA

Ce stage a eu pour but le portage en langage C++ de l'analyse PSOLA Žcrit par G. Peeters en Matlab dans le cadre de sa thse. La librairie MatMTL (Cf. MatMTL ci-dessous) a grandement facilitŽ ce portage. De plus des amŽliorations ont ŽtŽ apportŽes avec notamment diffŽrentes options proposŽes ˆ l'utilisateur ainsi que les fichiers de sortie Žcrits en SDIF.

Le programme analyse_psola en C++ tourne sous Linux. La documentation dŽveloppeur est en ligne ˆ l'adresse : http://iii/analyse_synthese/documentation/psola_analyse/index.html

Participants : E. Joseph (stage), G. Peeters

Collaborations internes : A. Roebel (Žquipe Analyse-Synthse)

1.6.2. Transformation des voix en temps rŽels

Le projet VoxIntox a ŽtŽ demandŽ et financŽ par MobiStation, une sociŽtŽ de jeux tŽlŽphoniques. Pour le service VoxIntox MobiStation a demandŽ ˆ l'IRCAM de leur proposer des algorithmes pour la transformation des voix en temps rŽels. Plusieurs algorithmes ont ŽtŽ ŽtudiŽs. L'implŽmentation de ces algorithmes a ŽtŽ conue sur la base de SuperVP. La crŽation d'un bibliothque dynamique qui pourrait tre utilisŽe dans AudioSculpt pour remplacer l'appel d'un application externe a ŽtŽ dŽjˆ ŽtudiŽe. Le projet VoxIntox a permis de financer la crŽation de cette bibliothque. Elle permet d'utiliser SuperVP avec tous les algorithmes accessibles en mode ligne commande, en remplaant seulement les modules E/S qui sont redirigŽs vers une E/S mŽmoire. L'efficacitŽ en calcul de SuperVP a permis de gŽrer 60 voix en parallle sur un processeur ˆ 1.8GHz, gr‰ce au niveau trs bas (8kHz) du taux d'Žchantillonnage utilisŽ pour la voix tŽlŽphonique. Avec un taux d'Žchantillonnage pour un traitement de haute qualitŽ, il serait quand mme possible de traiter 1 ou 2 voix en temps rŽel. La qualitŽ et la vitesse obtenues ont ŽtŽ apprŽciŽes favorablement par MobiStation. L'extension de la bibliothque dite "transformer" (qui implŽmente actuellement deux algorithmes de transformation de voix) pourrait tre effectuŽe en 2003.

Participants : A. Roebel

Collaborations extŽrieure : SociŽtŽ MobiStation

1.6.3. Logiciel SuperVP

Le dŽveloppement de SuperVP sÕest poursuivi en plus de la bibliothque "transformer". En premier lieu il est apparu que beaucoup de fonctionnalitŽs de AudioSculpt 1.2beta ne sont bien intŽgrŽes dans le fonctionnement gŽnŽral. Aprs les changements ˆ la base des modules de calcul de SuperVP qui ont ŽtŽ nŽcessaires pour une haute qualitŽ de traitement, plusieurs fonctions ont ŽtŽ remises en service correctement : calcul du cepstre discret, calcul de frŽquence fondamentale, module de mixage avec mixage mul/cross/add, et module freeze. Concernant la fonction freeze la fonctionnalitŽ de la version originale Žtait trs limitŽe, ne permettant de traiter quÕun seul point de freeze. De plus, le freeze n'Žtait pas traitŽ comme un insert dans le son original. Un nouveau module freeze a donc ŽtŽ conu qui permet de mettre plusieurs points de freeze dans le fichier et qui insre les segments freeze comme une dilatation. La diffŽrence du freeze et de la dilatation reste dans le fait que le freeze permet de gŽrer une statistique de la variation de frŽquence pour chaque bin, ce qui peut tre utilisŽ pour Žviter de crŽer des sinuso•des fixes donc gnantes. Concernant l'implŽmentation du crayon dans AudioSculpt, un mode d'utilisation important consiste ˆ amplifier fortement certaines rŽgions avec le crayon et supprimer dÕautres lors de la normalisation. Dans la version ancienne d'AudioSculpt, la superposition des filtres Žtait gŽrŽe par AudioSculpt. Avec la version AudioSculpt 2 qui permet de combiner les filtres plus librement, ce n'est plus possible et donc la partie filtrage a dž tre modifiŽe pour permettre de choisir le mode de superposition des filtres. Deux modes de superposition ont ŽtŽ conus, le mode multiplication pour l'opŽration de filtrage sŽriel et le mode maximum qui sert pour le filtrage avec normalisation. La vitesse du calcul a ŽtŽ amŽliorŽe par l'utilisation d'un nouvelle bibliothque pour le calcul de la transformation Fourier, libfft (voir le paragraphe dŽveloppement libfft).

Participants : A. Roebel

Collaborations extŽrieures : A. Lithaud (compositeur)

1.6.4. Logiciel AudioSculpt

M. LoCascio a commencŽ ˆ travailler ˆ l'IRCAM en juin 2002 sur le dŽveloppement dÕAudioSculpt-2. La structure et l'organisation de AudioSculpt ont ŽtŽ rŽexaminŽs. LÕensemble du projet a ŽtŽ converti de CodeWarrior 7 ˆ CodeWarrior 8, et de nombreux bogues ont ŽtŽ rŽparŽs dans l'interface graphique et dans le fonctionnement sous Macintosh OS X. Pour le Forum d'automne, plusieurs nouvelles possibilitŽs ont ŽtŽ apportŽes, amŽliorations du "crayon",  format binaire pour optimiser les grands fichiers de filtres en Super VP, etc. Aprs le Forum, le sonagramme dÕune sŽlection a ŽtŽ rŽalisŽ pour permettre le calcul de sonagramme des grands fichiers de son. En fin dÕannŽe, le portage de Diphone pour Macintosh OS X a ŽtŽ commencŽ.

Participants : M. LoCascio, A. Roebel

Collaborations extŽrieures : A. Lithaud (compositeur)

1.6.5. Bibliothque libfft

L'analyse du temps de calcul de SuperVP a montrŽ que la partie FFT est la partie la plus cožteuse. La FFT implŽmentŽe dans la bibliothque UDI utilise un module FFT dŽveloppŽ par R. Mayer. La comparaison affichŽe sur plusieurs sites Internet montre que l'implŽmentation de R. Mayer nÕest plus la meilleure. Par consŽquent, une nouvelle bibliothque, libfft, a ŽtŽ conue en partant du code libre de la FFT split radix de T. Ooura (http://momonga.t.u-tokyo.ac.jp/~ooura/fft.html). Le code a ŽtŽ fortement modifiŽ ; d'une part, il a ŽtŽ limitŽ au type double, d'autre part les fonctions FFT et IFFT ont ŽtŽ en ŽchangŽes. La nouvelle bibliothque a ŽtŽ conue comme bibliothque gŽnŽrique avec une interface dŽfinie pour les compilations en C. La bibliothque FFT a ŽtŽ complŽtŽe avec une fonction pour gŽnŽrer les fentres dÕanalyse et aussi les fentres utilisŽes pour la rŽallocation d'Žnergie dans les spectrogrammes.

Participants : A. Roebel

1.6.6. Bibliothque Easdif

Avec notre bibliothque SDIF, la programmation se faisait ˆ trs bas niveau. Toutes les opŽrations (correction de la taille de la trame, alignement des donnŽes) Žtaient ˆ faire ˆ la main. Le projet Easdif a donc ŽtŽ pensŽ pour crŽer une bibliothque C++ qui permet de gŽnŽrer et lire les fichiers SDIF avec un niveau beaucoup plus ŽlevŽ et sans rŽduire les possibilitŽs d'exprimer toutes les fonctionnalitŽs de SDIF (crŽation des types adaptŽs, NVT, etc.). Nous avons donc dŽfini une API de haut niveau qui permet dÕexprimer toutes les fonctionnalitŽs SDIF en cachant les dŽtails de stockage des donnŽes et de la transformation des types. La gestion des erreurs a ŽtŽ conue en utilisant les exceptions. L'API a ŽtŽ implŽmentŽe et la fonctionnalitŽ a ŽtŽ vŽrifiŽe par F. Tisserand. Pour une raison technique de fonctionnement des exceptions, la bibliothque Easdif doit contenir toutes les fonctions SDIF. La bibliothque est maintenant en test avec une premire application, lÕimplŽmentation de l'analyse PSOLA en C++. Pour l'avenir, il reste ˆ implŽmenter le mŽcanisme de configuration et installation avant de publier la bibliothque en tŽlŽchargement libre.

Participants : F. Tisserand (stage) A. Roebel, P. Tisserand, D. Schwarz

1.6.7. Bibliothque MatMTL

Pour faciliter le portage des fonctions Matlab en C/C++, une bibliothque a ŽtŽ conue qui permet de transformer les fonctions avec relativement peu de changement de la syntaxe et en mme temps permets de diminuer le temps de calcul. Une Žtude des bibliothques existantes a montrŽ que les bibliothques en programmation gŽnŽrique sont particulirement bien adaptŽes pour cette t‰che. Parmi les bibliothques existantes, la bibliothque Blitz est spŽcialement intŽressante car elle utilise la programmation gŽnŽrique pour optimiser les expressions matricielles. Cette technique, baptisŽe expressions gŽnŽriques, permet une syntaxe de trs haut niveau et en mme temps laisse le compilateur organiser le code beaucoup plus proche de lÕoptimum que toutes les autres bibliothques connues. Malheureusement la syntaxe de Blitz n'est pas trs proche de la syntaxe Matlab et le projet MatMTL a donc eu comme but dÕimplŽmenter une bibliothque de programmation gŽnŽrique avec une syntaxe la plus proche possible de la syntaxe Matlab pour faciliter le portage des fonctions existantes. La bibliothque MatMTL rŽsultant de ces travaux de dŽveloppement conna”t la plupart des constructions utilisŽes pour la programmation matricielle et en mme temps arrive ˆ diminuer le temps de calcul en moyenne d'un facteur 10. MatMTL a ŽtŽ utilisŽe pendant l'annŽe dans l'Žquipe pour plusieurs projets, notamment pour rŽduire le temps de calcul de fonctions Matlab existantes (projets estimation de F0, additive pbench, sŽparation des sources, alignement partition).

Participants : A. Roebel

1.6.8. Logiciel XSpect

Les travaux sur le logiciel XSpect ont ŽtŽ centrŽs sur lÕutilisation des diffŽrents modes d'analyse spectrale (LPC et CED) qui sont possibles dans SuperVP. Ces deux modes d'analyse spectrale ont ŽtŽ mis dans XSpect. Par ailleurs, nous avons intŽgrŽ la lecture des fichiers .wav comprimŽ, et fixŽ plusieurs bogues concernant l'utilisation des bibliothques X11/Motif et l'utilisation des marques.

Participants : A. Roebel

1.7. Publications et communications

Articles parus dans une revue ˆ comitŽ de lecture

[Herrera03a] Herrera, P., Peeters, G., Dubnov, S., Ç Automatic Classification of Musical Sounds È, Journal of New Musical Research, 2003

[Peeters02a] Peeters, G., Ç Pourquoi Gerard Depardieu parle anglais sans accent È, La Recherche, Novembre 2002, n¡ 358, pp. 98-99

[Wright02a] Wright, M., Beauchamp, J., Fitz, K., Rodet, X., Roebel, A., Serra, X., Wakefield, G., Ç Analysis/Synthesis Comparison È, Organised Sound, 2002, vol. 5, n¡ 3, pp. 173-189

Actes de congrs ou de colloque avec comitŽ de lecture

[Almeida02a] Almeida, A., Vergez, C., CaussŽ, R., Rodet, X., Ç Etude des Žcoulements dans les instruments ˆ vent ˆ anche double, pour application ˆ la Synthse par Modle Physique. È, CFA, Congrs Franais d'Acoustique, Lille, France, 2002

[Dhaes02a] D'haes, W., van Dyck, D., Rodet, X., Ç An efficient branch and bound seach algorithm for computing K nearest neighbors in a multidimensional vector space È, Signal Processing, Pattern Recognition and Applications (SPPRA), Crete, 2002

[Dhaes02b] D'haes, W., van Dyck, D., Rodet, X., Ç An efficient branch and bound seach algorithm for computing K nearest neighbors in a multidimensional vector space È, IEEE Advanced Concepts for Intelligent Vision Systems (ACIVS), Gent, 2002

[Dhaes02c] D'haes, W., van Dyck, D., Rodet, X., Ç Physical Constraints for the Control of a Physical Model of a Trumpet : wim D'haes, Dirk van Dyck and Xavier Rodet È, International Conference on Digital Audio Effects (DAFx), Hamburg, 2002

[Dhaes02d] D'haes, W., van Dyck, D., Rodet, X., Ç Control Parameter Estimation for a Physical Model of a Trumpet Using Pattern Recognition : wim D'haes, Dirk van Dyck and Xavier Rodet È, IEEE Workshop on Model Based Processing and Coding of Audio (MPCA), Leuven, 2002

[Peeters02b] Peeters, G., Rodet, X., Ç Automatically selecting signal descriptors for Sound Classification È, ICMC, Goteborg, 2002

[Peeters02c] Peeters, G., La Burthe, A., Rodet, X., Ç Toward Automatic Music Audio Summary Generation from Signal Analysis È, ISMIR, Paris, 2002

[Rioux02a] Rioux, V., Poletti, M., Ç An experimental SDIF-sampler in Max/MSP È, International Computer Music Conference, Gšteborg, 2002

[Roebel02a] Roebel, A., Ç Estimating partial frequency and frequency slope using reassignment operators È, International Computer Music Conference, Gšteborg, 2002, pp. 122-125

Actes de congrs ou de colloque sans comitŽ de lecture

[Almeida02b] Almeida, A., Vergez, C., CaussŽ, R., Rodet, X., Ç Physical study of double-reed instruments for application to sound-synthesis È, International Symposium in Musical Acoustics, Mexico, 2002

Travaux universitaires (thses, mŽmoires) et rapports de stage

[Arroabarren02a] Arroabarren, I., Ç On the instantaneous amplitude and instantaneous frequency of vibrato signals in singing voice È, UniversitŽ publique de Navarre, 2002


[Gaullier02a] Gaullier, G., Ç ModŽlisation du conduit vocal : modle gŽomŽtrique et Žtude numŽrique de l'acoustique È, UniversitŽ Pierre et Marie Curie, 2002

[Helie02a] HŽlie, T., Ç ModŽlisation physique d'instruments de musique en systmes dynamiques et inversion È, UniversitŽ de Paris XI - Orsay, 2002

[LaBurthe02a] La Burthe, A., Ç RŽsumŽ sonore È, UniversitŽ Joseph Fourier - INPG Grenoble, 2002. [DEA ATIAM]

[Pruham02a] Pruham, B., Ç Estimation de la frŽquence fondamentale d'un signal È, UniversitŽ de Besanon, 2002

Rapports de recherche ou de fin de contrat

[Rioux02b] Rioux, V., Ç Projet Orgue, Palais des Beaux-Arts (II) : second rapport intermŽdiaire È, 2002

[Rioux02c] Rioux, V., Ç Projet Orgue, Palais des Beaux-Arts (III) : rapport final de synthse È, 2002

[Tisserand02a] Tisserand, P., Rodet, X., Ç ECRINS: Rapport sur la clasification È, 2002

[Tisserand02b] Tisserand, P., Rodet, X., Ç ECRINS: Rapport sur l'Žvolution dynamique È, 2002

[Tisserand02c] Tisserand, P., Rodet, X., Ç ECRINS: Etude sur les outils de mise en forme È, 2002

ConfŽrences invitŽes

[Rodet02a] Rodet, X., Ç Synthesis and Processing of the Singing Voice È, 1st IEEE Benelux Workshop on Model based Processing and Coding of Audio (MPCA-2002), Leuven, 2002

[Rodet02b] Rodet, X., Ç Present state and future challenges of synthesis and processing of the singing voice È, AES, Helsinky, 2002

Emissions radiophoniques et tŽlŽvisŽes, entretiens journalistiques, animations

Entretiens sur Vox Intox par X. Rodetpour le mensuel Phosphore, Nov 02