Projet d'activité 2001

 
 

3. Analyse et synthèse des sons

Les travaux de recherche des années précédentes ont abouti entre autres à plusieurs thèses soutenues ou à soutenir entre fin 1999 et début 2001. Des avancées importantes ont ainsi été obtenues dans le domaine des modèles de signaux comme le modèle Pitch Synchronous Overlapp Add, la modèlisation physique de la trompette ou dans la caractérisation des sons. Ce dernier domaine est une activité nouvelle tant pour l'équipe Analyse-synthèse que pour la communauté informatique musicale en général. Son développement actuel est lié à celui du multimédia et des réseaux, créations d'oeuvres visuelles et audio, normes MPEG-4 ou MPEG-7. En collaboration avec d'autres équipes de l'Ircam, l'Analyse-synthèse a oeuvré également pour la norme MPEG-7 et pour la définition d'autres standards comme le Sound Description Interchange Format (SDIF). Il n'est donc pas surprenant que ce type d'activité connaisse pour l'année 2001 une forte croissance avec trois projets, l'un Européen, un autre Français et le dernier privé. Cependant les autres activités de recherche sont accentuées également, en particulier sur l'acquisition automatique des paramètres de contrôle, que ce soit par inversion des modèles ou par apprentissage, deux thèmes nouveaux. Enfin l'activité de développement doit croitre aussi avec deux logciels principaux pour les musiciens qui, chacun comprennent une part d'interface graphique utilisateur et une part de moteurs de calcul. Finalement le travail avec les musiciens, compositeurs et la pédagogie se traduit par de nombreuses oeuvres et installations utilisant les travaux de l'équipe, comme le futur opéra de P. Manoury ou une recherche utilisant Diphone Studio avec A. Vinao.

3.1 Activités de recherche

3.1.1 Modèles de signaux

Etude du modèle sinusoïdal: régularité des paramètres, mesure de sinusoïdalité

Le modèle d'amplitude et de fréquence localement constantes, qui est au
coeur de l'analyse sinusoïdale standard, ne permet pas de traiter
correctement les variations rapides des sinusoïdes. Afin d'y remédier,
certains algorithmes utilisent des modèles d'amplitude et de fréquence
linéaires ou polynomiaux. Cependant, l'introduction de nouveaux
paramètres dans le modèle pose le problème de la robustesse. Nous nous
proposons d'étudier plus en détail le choix des classes de fonctions
utilisées pour représenter la fréquence et l'amplitude des sinusoïdes
et leur effet sur la robustesse de l'analyse.
Habituellement, la détection d'une sinusoïde est envisagée comme la
recherche  d'une trajectoire de fréquence optimisant un certain
critère de sinusoïdalité en chacun de ses points. Il parait difficile de dire
si la solution unique obtenue est la seule description possible du
signal. Nous avons donc choisi de procéder différemment: partant de toutes les trajectoires possibles (une classe de fonctions à définir), nous
retenons l'ensemble des portions de ces trajectoires pour lesquelles
la mesure de sinusoïdalité dépasse un certain seuil. Cette méthode permet
d'épuiser l'ensemble des descriptions possibles du signal. En
contrepartie, on obtient pour chaque sinusoïde présente dans le signal
un `faisceau' composé d'une infinité de portions de trajectoires
admissibles. Le résultat de l'analyse est la réunion de ces faisceaux,
et pour en extraire une description du signal, il faut pouvoir trier
les portions de trajectoires correspondant aux différentes sinusoïdes. Il
est clair que si l'on admet des trajectoires très irrégulières ou que
l'on choisit un seuil de sinusoïdalité très bas, les différents
faisceaux seront très étalés et le tri sera impossible. En revanche,
si le tri est possible, on pourra considérer que le modèle est
suffisamment contraint pour que l'analyse soit robuste.
Cette étude devrait permettre de définir de manière rigoureuse un
critère de régularité des paramètres du modèle sinusoïdal et une
mesure de sinusoïdalité.

Responsable : Rodet X.
Participant : Corson F. (thèse)
Collaboration interne : Peeters G., Roebel A.
 

Synthèse concaténative par sélection d'unités sonores

Ce travail regroupe des recherches dans les directions suivantes:
estimation, classification et structuration de paramètres, utilisation
d'une base de donnés hétérogènes de sons et de caractéristiques,
recherche sur la conception et l'architecture logicielles fondées sur
des composants réutilisables. En effet, il s'avère qu'une nouvelle
technologie pour la partie synthèse des systèmes de synthèse à partir
du texte appelée "sélection d'unités" peut être, aussi bien, appliquée
à la composition en musique et à la synthèse sonore de haute
qualité. En utilisant une base de données hétérogènes de bruits, de
notes isolées ou de phrases musicales, et des caractéristiques
classées et segmentées selon des paramètres estimés à partir du signal
sonore, le meilleure candidat pour un segment de la sortie sonore est
trouvé par des méthodes efficaces d'extraction de données et un
algorithme de sélection d'unités. Le segment sonore choisi dans la
base de données est transformé pour correspondre aux paramètres de
synthèse désirés, par des techniques temporelles ou fréquentielles de
resynthèse telles que PSOLA,  la resynthèse additive, le vocodeur de phase, etc.. Le segment sonore ainsi transformé est enchaîné avec les segments trouvés pour les autres parties de la sortie désirée, en appliquant par exemple des techniques d'interpolation (crossfade) pour éviter les discontinuités, ou des transformations de niveau plus élevé.
L'analyse de la base de données (segmentation et classification automatiques), et l'extraction de paramètres sont faites au moyen de méthodes de traitement du signal avançées et d'intelligence artificielle telles que les réseaux neuronaux, les modèles de markov cachés, et les algorithmes
génétiques.  Des interfaces et les formats d'échange ouverts,
normalisés, tel que SDIF (cf. section développement), seront
développés et utilisés. La clé du développement réussi d'un système
logiciel complexe comme celui proposé, repose sur les principes de
l'ingénierie logicielle. L'architecture logicielle sera établie selon
une conception orientée-objet et des composants réutilisables pour
favoriser la flexibilité, l'expansibilité, et la maintenance.

Responsable : Rodet X.
Participant : Schwarz D. (thèse)
Collaboration interne : Peeters G., D'Haes W., Roebel A.

Séparation de sources par analyse en composantes indépendantes

L'analyse en composantes indépendantes (Independant Component Analysis, ICA) est une méthode reposant sur un formalisme statistique et qui permet de séparer des composantes d'un signal considérées comme indépendantes du point de vue probabiliste. C'est une technique très prometteuse, par exemple pour séparer des voies ou des instruments dans un mélange. Ce travail de stage portera sur l'application et l'utilisation d'une telle méthode pour des signaux sonores et musicaux. Une extension intéressante serait la prise en compte d'informations supplémentaires sur les sources, par exemple des distributions de probabilités a priori quand le type de source présent est connu.

Responsable : Rodet X.
Participant : stagiaire
Collaboration interne : Peeters G.
 

3.1.2 Caractérisation des sons

Projet CUIDADO, extraction de descripteurs audio

Le but du projet Européen CUIDADO est de développer des modules et des applications fondées sur le contenu sonore et musical en utilisant le standard de représentation MPEG-7. Ce projet inclut une composante d'analyse (extraction de descripteurs), une composante de navigation (méthodes et interfaces de recherche implémentées dans une base de données interrogeable sur le Web) et une composante créative (outils pour les consomateurs et pour les créateurs).
Le projet traite le niveau du son (l'audio) et le niveau de la musique (les oeuvres), pour les studios, les musiciens professionels et le grand public.
L'équipe A/S de l'Ircam travaillera sur les modules d'extraction de caractéristiques audio à partir du signal pour fournir des descripteurs audio, dits de bas niveau, pour les autres modules du projet. Ces travaux seront dérivés des travaux déjà effectués dans l'équipe sur la Descrption du Timbre Instrumental et qui ont été proposés dans MPEG 7 par le Group CUIDAD  (Esprit 28793) et dérivés également de travaux d'analyse du signal et d'analyse perceptive. L'objectif est aussi d'isoler un nombre minimum de descripteurs de bas niveau pertinent pour chaque application visée (nécessité d'une taxonomie discrète du média sonore, recherche continue par proximité- similarité perçue) et par classe de son considérée (événements sonores isolés-liés, signaux mixtes).
Ces descripteurs seront codés dans le Schéma de Description Multimedia de MPEG-7 (MMDS, Multimedia Description Scheme) et dans le format SDIF
(Sound Description Interchange Format) developpé par l'Ircam et d'autres partenaires (voir le paragraphe Développement du standard SDIF et de ses applications).
Notre implication se manifestera également par la création de ponts entre d'une part une description de haut niveau (qu'elle soit d'ordre sémantique, taxonomique ou perceptuelle) du média sonore et une description de bas niveau (description en termes d'information dérivable du signal ou combinaison d'informations). Enfin il y aura de profondes interaction entre ce projet, le projet Ecrins et le projet Descripteurs pour la synthèse.

Responsable : Rodet X.
Participant : Chercheur-développeur
Collaborations internes : développeurs ECRINS et Descripteurs, Equipe PCM
 

Projet ECRINS, Environnement de Classification et Recherche Intelligente de Sons

Ce projet est une collaboration entre l'Ircam, l'Ina-GRM  et la société Digigram. L'objectif du projet est de développer des outils, destinés aux professionnels de la production sonore, proposant différentes interfaces de navigation à travers une grande base de données d'échantillons sonores à partir de descripteurs de haut niveau (recherche par contenu, édition). L'essentiel des travaux sera ainsi axé sur la mise au point de nouvelles méthodes, outils et interfaces de description et de classification des sons, intégrant un corpus étendu aux besoins de la production sonore : bruitages, sons d'environnement, etc... Ils se traduiront sous la forme de deux environnements logiciels destinés aux professionnels de la production sonore et musicale. Une taxonomie sea développée pour répondre à une conception la plus générale possible des différentes sources sonores et dont l'architecture ouverte puisse servir de référence à des développements liés à des corpus de sons spécifiques.
Dans ce cadre, l'équipe A/S développera un ensemble de descripteurs qui puissent résulter d'une analyse automatique des signaux audionumériques, et qui conviennent à la description à la fois de larges classes de sons et de leurs détails individuels, en accord avec les modalités perceptives et cognitives. Cette approche est complémentaire de la taxonomie, car le contenu d'un son peut renvoyer, en termes de similarité perceptive, à des sons issus d'un contexte de production très éloigné. La sélection de descripteurs pertinents repose tantôt sur la théorie de l'information (descripteurs permettant une discrimination entre classes issues d'une taxonomie discrète), tantôt sur la recherche de relation minimisant une erreur de modélisation entre un espace de valeurs de description voulue et de description observable (recherche continue par proximité- similarité perçue). Selon la disponibilité de l'application (on-line ou off-line) différentes contraintes sont imposées. En particulier, un compromis doit être trouvé entre la quantité d'information portée par une description et le coût de calcul et de stockage-transmission de cette information. D'autre part, de nombreux descripteurs de bas niveaux peuvent êtres organisés de manière hiérarchique, soit par une hiérarchie de résolution (multi-scale analysis), soit par une hiérarchie d'héritage entre descripteurs. Cette approche devrait permettre de cibler des sous-ensembles de descripteurs en fonction de la disponibilité de l'application.
Enfin il y aura de profondes interactions entre ce projet, le projet Cuidado et le projet Descripteurs pour la synthèse.

Responsable : Rodet X.
Participant : Chercheur-développeur
Collaborations internes : développeurs Cuidado et Descripteurs, Equipe PCM
Collaborations externes : INA-GRM
 

Projet Descripteurs pour la synthèse

Ce projet, déjà prévu en 2000, n'a pas pu être démarré avant la fin de l'année et sera donc essentiellement mené au cours de l'année 2001. Dans le cadre d'une thèse sur la génération et l'utilisation de sons synthétiques dans des applications multimedia et dans un contexte MPEG4,
un outil de génération de fichiers sonores au format Structured Audio (.mp4) est développé.
L'IRCAM assure la direction de ce travail de thèse (X. Rodet). Cet outil devra
permettre de synthétiser à terme toute une panoplie de signaux sonores susceptibles
d'être utilisés dans les applications multimedia. L'outil comprend un système
d'analyse de signaux naturels et avec traduction en paramètres de
bas niveau. La deuxième étape du travail nécessaire pour réaliser l'outil de
génération de fichiers sonores sera faite par l'équipe A/S dans le cadre d'un contrat externe.
Cette analyse doit permettre d'extraire des paramètres
de haut niveau permettant une caractérisation des signaux pour leur utilisation
future dans des applications d'indexation. En particulier connaître le type de son, la
hauteur et la durée des notes jouées permet de représenter de manière compacte
tout signal monodique (une seule note apparaît à la fois). La compacité des
représentations pour ce type d'application est un élément essentiel. Cette analyse
peut également servir à la resynthèse d'un signal "sémantiquement" semblable au
signal analysé, en dérivant les paramètres nécessaires à la synthèse à partir des
paramètres de haut niveau. Cette étape permet de vérifier la qualité de la
description en la confrontant avec la perception auditive qu'on en a. En outre, elle
permettra de valider le nombre de paramètres de haut niveau retenus pour la
description ainsi que leur adéquation avec différentes classes de signaux (pas
forcément musicaux). L'ensemble des sons étant extrêmement vaste, il est
indispensable de se limiter à une classe de sons bien définie. La classe choisie est
constituée des sons de courte durée, de l'ordre d'une seconde, et ne présentant pas
d'évolution importante du timbre, tels que les notes isolées des instruments de
l'orchestre. Le calcul des descripteurs sera fait au moyens de programmes prenant
en entrée les descripteurs de bas niveau fournis par les programmes d'analyse et
fournissant en sortie les valeurs des descripteurs de haut niveau. Les descripteurs
seront organisés de façon hiérarchique : plus on descend dans l'arborescence, plus
la qualité de re-synthèse est grande, au prix cependant d'un surcoût en sensibilité
et en capacité de stockage. La représentation de ces descripteurs sera faite dans le
dans le standard SDIF (cf.
http://www.ircam.fr/equipes/analyse-synthese/sdif/index.html.). Une base de
données de sons destinée aux tests des programmes de calcul des descripteurs et à
l'évaluation des descripteurs sera constituée et les programmes évalués sur cet
ensemble. Enfin il y aura de profondes interactions entre ce projet, le projet Cuidado et le projet ECRINS.

Responsable : Rodet X.
Participant : Chercheur-développeur
Collaborations internes : développeurs Cuidado et ECRINS, Equipe PCM
Collaborations externes : Rault J.B. et Philippe P.  et Fayemendi G. (Centre d'Etude des Télécommunications)

3.1.3 Modèles physiques

Méthodes d'inversion de systèmes dynamiques, modèles de la production de la voix et d'instruments de musique

Le but de cette thèse ATS est de mettre au point des outils d'estimation automatique  des paramètres et/ou des entrées de systèmes dynamiques non-linéaires représentant  l'appareil phonatoire et des instruments de musique. L'intérêt est de construire des  méthodes d'analyse de modèles physiques, modèles qui ont l'avantage d'engendrer  directement les caractéristiques sonores de l'instrument, et leurs variations  (telles que les attaques et transitoires).
Durant la première année de thèse, nous nous sommes d'abord concentrés
sur une étude bibliographique de la modélisation physique des vents et de la théorie
des systèmes dynamiques. Cette première prise de contact nous a conduit à envisager
une forme de système qui semble adaptée à une physique légèrement simplifiée de
l'instrument et à l'inversion : les systèmes différentiels non linéaires à retards
(S.A.R. - sujet thématique d'un groupe de recherche naissant, Cf. http://www.ircyn.prd.fr/gdr/sar.html).
Nous avons alors retravaillé sur le résonateur qui n'était pas representé dans le formalisme des S.A.R., mais par une fonction de réflexion, calculée numériquement à partir de mesures d'impédance. L'étude du pavillon rayonnant est sur le point d'être achevée.
L'identification du système sur la mesure d'impèdance sera alors faite pour une propagation linéaire dans le tube, et l'inversion du système sera envisagée pour
ce cas dans un premier temps. Les recherches prochaines porteront  sur les
méthodes d'inversion, et sur la stabilité et la discrétisation des inverseurs obtenus. L'étude de l'inversion de modèle de production de la voix sera débutée à l'issue de celle sur les cuivres.

Responsable: X. Rodet
Participant: T. Hélie
Collaborations internes : C. Vergez,
Collaborations externes: ENST, INRIA, Mines de Paris
 

Etude des écoulements dans les anches

Cette recherche sera effectuée dans le cadre de la thèse de A. Almeida, financée par le Portugal. L'écoulement dans les anches des instruments de musique sont en effet mal connus et posent de nombreux problèmes théoriques et pratiques. C'est particulièrement vrai pour  les anches doubles comme nous l'avons constaté au cours du stage de G. Lemaître dans l'équipe Ananlyse-Synthèse sur la modélisation physique du hautbois. Le but est d'obtenir des modèles plus précis de l'écoulement, en se fondant sur une étude théorique et, dans la mesure du possible des résultats d'expériences à entreprendre. Ce travail sera mené en collaboration ave l'équipe Acoustique des instruments.

Responsable : Rodet X.
Participant : Almeida A. (thèse)
Collaborations internes : R. Caussé, C. Vergez, Equipe Accoustique des salles
 

3.1.4 Contrôle de la syntèse

Etude du geste instrumental (Marcelo Wanderley )

Marcelo Wanderley finit l'écriture de son document de thèse qui porte sur l'interaction interprète-instrument dans le contexte du jeu instrumental avec des nouveaux instruments. Des expériences et des exemples de contrôle seront développés dans l'environement jMAX. La soutenance de la thèse est prévue pour le début de l'année 2000.

Responsables : Rodet X.
Participant : Wanderley M. (thèse)
Collaborations internes : Equipe Systèmes temps-réel
Collaborations externes : Desain P., Depalle P.

Estimation des paramètres d'un modèle par apprentissage

La synthèse par modèle physique genère un son à partir d'une description de tous les phénomènes mécaniques et acoustiques d'un instrument. Ceci permet de synthétiser un son d'une haute qualité tout en contrôlant des paramètres ressemblant aux gestes de l'instrumentiste. Le problème qui se pose dans ce contexte est qu'on sait pas comment faire évoluer ces parametres afin d'obtenir un son qui ressemble à un vrai instrument joué par un expert.
Le but du travail est de mettre au point des outils d'estimation automatique
des paramètres d'un modèle physique à partir d'enregistrements de signaux
mesurés sur l'instrument naturel. Puisque les équations mathématiques sur
lesquelles le modèle repose sont non-linéaires et très difficiles à inverser, une autre solution est d'utiliser des techniques issues de l'intelligence artificielle nommées apprentissage par machine (machine learning). L'avantage de cette approche est qu'elle peut être généralisée facilement à d'autres modèles physiques ou algorithmes de synthèse que le modèle de trompette qui a été considéré jusqu'à présent.
La technique qui a été utilisée dans le stage de DEA de W. d'Haes est nommée apprentissage par table (instance-based learning) et consiste en une étape d'apprentissage et une étape de simulation. D'abord un ensemble de sons représentant l'espace sonore du modèle est produit, qui comprend tous les notes joués avec toutes les intensités et variations de timbre. Pendant l'apprentissage, les caractéristiques du son (fréquence fondamentale, enveloppe spectrale ...) et les paramètres de contrôle (pression dans la bouche, longeur du tube ...) sont enregistrés dans une table de vecteurs. Pour la simulation d'un son donné, les mêmes caractéristiques du signal sont estimées et les caractéristiques les plus ressemblantes sont cherchées dans la table. Les paramètres du contrôle qui y correspondent sont extraits et utilisés pour la resynthèse. Un algorithme de recherche rapide a été réalisée, utilisant la méthode de séparation-évaluation (branch and bound). Ceci suppose que l'ensemble des données soit décomposé hiérarchiquement en un arbre. L'algorithme de recherche parcours cet arbre évitant les noeuds qui sont trop loin du vecteur cherché. La distance utilisée entre deux vecteurs est la distance euclidienne pondérée. Comme la justesse du modèle est essentielle, la fréquence fondamentale est munie d'un poids élevé.
La simulation des sons produits par le modèle et des sons naturels donne déjà
des résultats satisfaisantes après corrections manuelles. Typiquement, pendant les transitoires du signal, les méthodes d'estimation parviennent difficilement à estimer les bonnes valeurs des caractéristiques ce qui donne à des sons imparfaits à la synthèse. De nombreuses autres améliorations de la méthode sont prévues pour reproduire exactement les sons naturels. De plus d'autres méthodes d'apprentissage seront testées et comparées, en particulier les réseaus de neurones.

Responsable : Rodet X.
Participant : D'Haes W. (thèse)
Collaborations internes : Hélie T.
Collaborations externes : Université d'Anvers
 

3.2 Activités de développement

3.2.1 Développements généraux

Développement du standard SDIF et de ses applications

Ce standard de format de fichier, plateforme indépendant, extensible
et en accès libre, spécifie très précisemment les types de données de
description des signaux audio et leur représentation. Il permet donc à
des logiciels différents de communiquer immédiatement dès lors que
leurs entrées/sorties sont conformes au standard. Il facilite
également la maintenance des fichiers de données grâce aux
informations annexes encapsulées dans le fichier, et en permettant à
des données hétérogènes de co-exister dans une seul fichier.  Une
bibliothèque de fonctions C de lecture/écriture, ainsi que des
applications, ont été développés et mises en licence "open source" sur le site de l'équipe (http://ircam.fr/anasyn/sdif).
Durant l'année 2001, des extensions concernant la performance de la
bibliothèque et la simplicité de son API (Application Programming
Interface) seront développées.  D'autres applications seront
développées pour faciliter l'accès aux fichiers SDIF, par exemple une
application d'édition et visualisation graphique des données des
fichier SDIF.  Par exemple, le développement et l'implémentation d'un formalisme d'expression de relations entre les différentes descriptions de sons
réunies dans un fichier SDIF, seront menés, sur la base des propositions
utilisant le format de document XML publiées par l'équipe au congrès ICMC 2000.

Responsable : Rodet X.
Participant : Roebel A.
Collaborations internes : Schwarz D., Tisserand P.
Collaborations externes : Université de Berkeley-CNMAT

Outils et biblilothèques de conversion de Matlab vers C/C++

L'environnement de programmation Matlab est celui utilisé le plus souvent pour prototyper de nouvelles méthodes d'analyse ou de synthèse. Lorsque une telle méthode doit être mise à la dispositions des utilisateurs, spécialement en dehors de l'équipe, il est nécessaire de ré-écrire l'algorithme dans un langage comme C ou C++. Une telle tâche est lourde et difficile. Le but de ce stage est donc d'étudier les moyens permettant de faciliter une telle conversion. Entre autres l'utilisation d'un compilateur Matlab et de bibliothèques spécialisées sera examiné dans ses diverses conséquences sur le coût de conversion et la qualité du logiciel produit. Enfin les interfaces graphiques de Matlab posent des problèmes semblables qui devront aussi être étudiés.

Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : Schwarz D., Tisserand P., Peeters G., Roebel A.

Re-écriture des procédures d'A/S PSOLA en C/C++

La thèse de G. Peeters sur l'Analyse-Synthese PSOLA et Additive doit se terminer dans l'année 2000. L'année passée  a permis de tester avec succès les applications d'une méthode d'analyse-synthèse de type PSOLA. L'année prochaine sera donc consacrée au développement, à la validation et aux tests de cette méthode et à l'écriture de procédures d'A/S en C/C++. Elles pourront également être portées sur d'autres plateformes, Macintosh notamment. Pour permettre une communication facile des données  d'analyse entre différents logiciels, toutes les entrées et sorties seront implantées dans le format SDIF grâce à la bibliothèque SDIF en cours de  développement dans l'équipe. Les méthodes et des logiciels issus de cette recherche  trouveront des applications  musicales manifestement très intéressantes.

Responsable : Rodet X.
Participant :  stagiaire
Collaboration interne : Peeters G., Roebel A.

Outils de visualisation et d'analyse de signaux Xspect

Comme l'ont montré encore de récents travaux de post-traitement pour des films, le logiciel de visualisation et d'analyse de signaux Xspect, écrit en X/Motif sous Unix, est un outil  quotidien essentiel aux travaux de l'équipe:  http://www.ircam.fr/equipes/analyse-synthese/xspect/index-e.html
La suite de son  développement n'ayant pas pu être faite en 2000, ce travail sera donc assuré par un  stagiaire informaticien en 2001. En particulier il  sera nécessaire d'améliorer et d'accélérer le calcul et le tracé des  Sonagrammes et d'implanter la lecture et le tracé des Pics Spectraux et Trajets de Partiels en réutilisant le code du logiciel Sview développé dans l'équipe par P. Chose en 1999. De façon générale, le lien avec la bibliothèque SDIF sera établi, en  utilisant le lecteur/écrivain général SDIF de l'équipe pour  permettre la lecture et le tracé de tous types de données, en collaboration  avec le développement Macintosh puisque ce  sera le cas également dans Diphone et AudioSculpt.

Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : A. Roebel, Schwarz D. et Lefèvre A.

Estimation de la fréquence fondamentale

L'estimation  de la fréquence fondamentale est une étape clé de nombreuses analyses (additve, PSOLA, etc..). Il apparait nécessaire de disposer d'un programme d'estimation  plus robuste et plus précis que celui existant à ce jour. Dans la mesure du possible, un nouveau développement sera entrepris sur la base des travaux de thèse de B. Doval et de nouvelles méthodes permettant de s'affranchir de l'intervention (souvent nécessaire aujourd'hui) de l'utilisateur.

Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : A. Roebel, Peeters G.

Super Vocodeur de Phase

Le logiciel Super-VP est un Vocodeur de Phase développé à l'Ircam il y a une dizaine d'années est le moteur de calcul utilisé en particulier dans le logiciel AudioSculpt. Il apparait indispensable d'en faire un nouvelle version, d'une part pour pallier à certains problèmes de la version actuelle, d'autre part pour intégrer des améliorations apparues récemment dans la technique du vocodeur de phase.
Ce travail viendrait en complément de la nouvelle version d'AudioSculpt développée sur Macintosh (Cf. paragraphe suivant).

Responsable : Rodet X.
Participant : développeur
Collaborations internes : A. Roebel
Collaborations externes : Depalle P.
 

3.2.2 Développement sur Macintosh

Logiciel AudioSculpt

Une toute nouvelle version de ce logiciel a été continuée en 2000. Le cahier des charges a été élaboré en 1999-2000 par A. Ricci. L'écriture du logiciel, qui a été commencée en 2000 par D. Ralley, sera poursuivie en suivant les spécifications précises du cahier des charges et en collaboration avec le développement de Diphone. En particulier, des classes C++ et des librairies sont partagées par les deux logiciels, ce qui diminue la charge de développement et accélère la mise au point.
Un prototype devrait apparaitre au printemps 2001 permettant de tester les choix et les résultats avec des personnes de l'Ircam. Une version expérimentale pourrait alors être produite pour l'automne 2001 pour être soumise à des béta-testeurs.

Responsable : Rodet X.
Participant : D. Ralley
Collaborations internes : Lefèvre A., équipes Production et Pédagogie

Logiciels Diphone-Studio

Le développement de l'ensemble Diphone Sthdio se poursuit. De nombreuses améliorations sont prévues pour l'anneéee2001:
- Ajout de l'analyse des enveloppes spectrales dans AddAn, prise en compte des enveloppes spectrales dans la synthèse additive.
- Implantation du language de définition des actions effectuées sur les applications de Diphone-Studio.
- Possibilité de définir des enchainement d'actions (comme des analyse, des synthèses, la création et la synthèse d'une séquence) dans ce language, accepté et interprété par les applications de Diphone-Studio.
- Nouvelle méthode d'analyse additive, Hidden Markov Model (HMM), en particulier
pour les sons inharmoniques.
- Routine utilisateur pour la définition de nouvelles règles de transition entre segments.
- Segmentation automatique des sons pour la définition des diphones et la création directe de dictionnaires.
- Exécution de plusieurs séquences en parallèle avec un temps commun, utilisant des plugins de synthèse quelconques.
- Possibilité de substituer des paramètres d'une séquence dans un autre.
- Possibilité de définir l'évolution du temps par une bpf.
- Traitements (analyse et synthèse) de fichiers de sons jusqu'à 24 bits.
- Finalisation des interafaces logiciels des plug-in.

Responsable : Rodet X.
Participant : Lefèvre A.
Collaborations internes : D. Ralley, équipes Production et Pédagogie

Liste des participants

Personnel sous contrat de travail

Responsable: Xavier Rodet
Chargés de recherche et de développement: G. Peeters, P. Tisserand, A. Roebel et une personne à recruter
Chargés de développement : A. Lefèvre et D. Ralley

Stagiaires et étudiants

Wanderley M., Thèse, DEA ATIAM, Université Paris-6
Schwarz D., Thèse, DEA ATIAM, Université Paris-6
Corson F., Thèse, DEA ATIAM, ENS-ULM
Hélie T., Thèse DEA ATS, Paris XI-Orsay
D'Haes W., Thèse , Université d'Anvers
Almeida A., Thèse , Université Paris-6
Stagiaire ICA
Stagiaire Fréquence fondamentale
Stagiaire Matlab/C/C++
Stagiaire PSOLA
Stagiaire Xspect