3. Analyse et synthèse des sons
Les travaux de recherche des années précédentes ont abouti entre autres à plusieurs thèses soutenues ou à soutenir entre fin 1999 et début 2001. Des avancées importantes ont ainsi été obtenues dans le domaine des modèles de signaux comme le modèle Pitch Synchronous Overlapp Add, la modèlisation physique de la trompette ou dans la caractérisation des sons. Ce dernier domaine est une activité nouvelle tant pour l'équipe Analyse-synthèse que pour la communauté informatique musicale en général. Son développement actuel est lié à celui du multimédia et des réseaux, créations d'oeuvres visuelles et audio, normes MPEG-4 ou MPEG-7. En collaboration avec d'autres équipes de l'Ircam, l'Analyse-synthèse a oeuvré également pour la norme MPEG-7 et pour la définition d'autres standards comme le Sound Description Interchange Format (SDIF). Il n'est donc pas surprenant que ce type d'activité connaisse pour l'année 2001 une forte croissance avec trois projets, l'un Européen, un autre Français et le dernier privé. Cependant les autres activités de recherche sont accentuées également, en particulier sur l'acquisition automatique des paramètres de contrôle, que ce soit par inversion des modèles ou par apprentissage, deux thèmes nouveaux. Enfin l'activité de développement doit croitre aussi avec deux logciels principaux pour les musiciens qui, chacun comprennent une part d'interface graphique utilisateur et une part de moteurs de calcul. Finalement le travail avec les musiciens, compositeurs et la pédagogie se traduit par de nombreuses oeuvres et installations utilisant les travaux de l'équipe, comme le futur opéra de P. Manoury ou une recherche utilisant Diphone Studio avec A. Vinao.
3.1 Activités de recherche
3.1.1 Modèles de signaux
Etude du modèle sinusoïdal: régularité des paramètres, mesure de sinusoïdalité
Le modèle d'amplitude et de fréquence localement constantes,
qui est au
coeur de l'analyse sinusoïdale standard, ne permet pas de traiter
correctement les variations rapides des sinusoïdes. Afin d'y remédier,
certains algorithmes utilisent des modèles d'amplitude et de
fréquence
linéaires ou polynomiaux. Cependant, l'introduction de nouveaux
paramètres dans le modèle pose le problème de
la robustesse. Nous nous
proposons d'étudier plus en détail le choix des classes
de fonctions
utilisées pour représenter la fréquence et l'amplitude
des sinusoïdes
et leur effet sur la robustesse de l'analyse.
Habituellement, la détection d'une sinusoïde est envisagée
comme la
recherche d'une trajectoire de fréquence optimisant un
certain
critère de sinusoïdalité en chacun de ses points.
Il parait difficile de dire
si la solution unique obtenue est la seule description possible du
signal. Nous avons donc choisi de procéder différemment:
partant de toutes les trajectoires possibles (une classe de fonctions à
définir), nous
retenons l'ensemble des portions de ces trajectoires pour lesquelles
la mesure de sinusoïdalité dépasse un certain seuil.
Cette méthode permet
d'épuiser l'ensemble des descriptions possibles du signal. En
contrepartie, on obtient pour chaque sinusoïde présente
dans le signal
un `faisceau' composé d'une infinité de portions de trajectoires
admissibles. Le résultat de l'analyse est la réunion
de ces faisceaux,
et pour en extraire une description du signal, il faut pouvoir trier
les portions de trajectoires correspondant aux différentes sinusoïdes.
Il
est clair que si l'on admet des trajectoires très irrégulières
ou que
l'on choisit un seuil de sinusoïdalité très bas,
les différents
faisceaux seront très étalés et le tri sera impossible.
En revanche,
si le tri est possible, on pourra considérer que le modèle
est
suffisamment contraint pour que l'analyse soit robuste.
Cette étude devrait permettre de définir de manière
rigoureuse un
critère de régularité des paramètres du
modèle sinusoïdal et une
mesure de sinusoïdalité.
Responsable : Rodet X.
Participant : Corson F. (thèse)
Collaboration interne : Peeters G., Roebel A.
Synthèse concaténative par sélection d'unités sonores
Ce travail regroupe des recherches dans les directions suivantes:
estimation, classification et structuration de paramètres, utilisation
d'une base de donnés hétérogènes de sons
et de caractéristiques,
recherche sur la conception et l'architecture logicielles fondées
sur
des composants réutilisables. En effet, il s'avère qu'une
nouvelle
technologie pour la partie synthèse des systèmes de synthèse
à partir
du texte appelée "sélection d'unités" peut être,
aussi bien, appliquée
à la composition en musique et à la synthèse sonore
de haute
qualité. En utilisant une base de données hétérogènes
de bruits, de
notes isolées ou de phrases musicales, et des caractéristiques
classées et segmentées selon des paramètres estimés
à partir du signal
sonore, le meilleure candidat pour un segment de la sortie sonore est
trouvé par des méthodes efficaces d'extraction de données
et un
algorithme de sélection d'unités. Le segment sonore choisi
dans la
base de données est transformé pour correspondre aux
paramètres de
synthèse désirés, par des techniques temporelles
ou fréquentielles de
resynthèse telles que PSOLA, la resynthèse additive,
le vocodeur de phase, etc.. Le segment sonore ainsi transformé est
enchaîné avec les segments trouvés pour les autres
parties de la sortie désirée, en appliquant par exemple des
techniques d'interpolation (crossfade) pour éviter les discontinuités,
ou des transformations de niveau plus élevé.
L'analyse de la base de données (segmentation et classification
automatiques), et l'extraction de paramètres sont faites au moyen
de méthodes de traitement du signal avançées et d'intelligence
artificielle telles que les réseaux neuronaux, les modèles
de markov cachés, et les algorithmes
génétiques. Des interfaces et les formats d'échange
ouverts,
normalisés, tel que SDIF (cf. section développement),
seront
développés et utilisés. La clé du développement
réussi d'un système
logiciel complexe comme celui proposé, repose sur les principes
de
l'ingénierie logicielle. L'architecture logicielle sera établie
selon
une conception orientée-objet et des composants réutilisables
pour
favoriser la flexibilité, l'expansibilité, et la maintenance.
Responsable : Rodet X.
Participant : Schwarz D. (thèse)
Collaboration interne : Peeters G., D'Haes W., Roebel A.
Séparation de sources par analyse en composantes indépendantes
L'analyse en composantes indépendantes (Independant Component Analysis, ICA) est une méthode reposant sur un formalisme statistique et qui permet de séparer des composantes d'un signal considérées comme indépendantes du point de vue probabiliste. C'est une technique très prometteuse, par exemple pour séparer des voies ou des instruments dans un mélange. Ce travail de stage portera sur l'application et l'utilisation d'une telle méthode pour des signaux sonores et musicaux. Une extension intéressante serait la prise en compte d'informations supplémentaires sur les sources, par exemple des distributions de probabilités a priori quand le type de source présent est connu.
Responsable : Rodet X.
Participant : stagiaire
Collaboration interne : Peeters G.
3.1.2 Caractérisation des sons
Projet CUIDADO, extraction de descripteurs audio
Le but du projet Européen CUIDADO est de développer des
modules et des applications fondées sur le contenu sonore et musical
en utilisant le standard de représentation MPEG-7. Ce projet inclut
une composante d'analyse (extraction de descripteurs), une composante de
navigation (méthodes et interfaces de recherche implémentées
dans une base de données interrogeable sur le Web) et une composante
créative (outils pour les consomateurs et pour les créateurs).
Le projet traite le niveau du son (l'audio) et le niveau de la musique
(les oeuvres), pour les studios, les musiciens professionels et le grand
public.
L'équipe A/S de l'Ircam travaillera sur les modules d'extraction
de caractéristiques audio à partir du signal pour fournir
des descripteurs audio, dits de bas niveau, pour les autres
modules du projet. Ces travaux seront dérivés des travaux
déjà effectués dans l'équipe sur la Descrption
du Timbre Instrumental et qui ont été proposés dans
MPEG 7 par le Group CUIDAD (Esprit 28793) et dérivés
également de travaux d'analyse du signal et d'analyse perceptive.
L'objectif est aussi d'isoler un nombre minimum de descripteurs de bas
niveau pertinent pour chaque application visée (nécessité
d'une taxonomie discrète du média sonore, recherche continue
par proximité- similarité perçue) et par classe de
son considérée (événements sonores isolés-liés,
signaux mixtes).
Ces descripteurs seront codés dans le Schéma de Description
Multimedia de MPEG-7 (MMDS, Multimedia Description Scheme) et dans le format
SDIF
(Sound Description Interchange Format) developpé par l'Ircam
et d'autres partenaires (voir le paragraphe Développement du
standard SDIF et de ses applications).
Notre implication se manifestera également par la création
de ponts entre d'une part une description de haut niveau (qu'elle soit
d'ordre sémantique, taxonomique ou perceptuelle) du média
sonore et une description de bas niveau (description en termes d'information
dérivable du signal ou combinaison d'informations). Enfin il y aura
de profondes interaction entre ce projet, le projet Ecrins et le
projet Descripteurs pour la synthèse.
Responsable : Rodet X.
Participant : Chercheur-développeur
Collaborations internes : développeurs ECRINS et Descripteurs,
Equipe PCM
Projet ECRINS, Environnement de Classification et Recherche Intelligente de Sons
Ce projet est une collaboration entre l'Ircam, l'Ina-GRM et la
société Digigram. L'objectif du projet est de développer
des outils, destinés aux professionnels de la production sonore,
proposant différentes interfaces de navigation à travers
une grande base de données d'échantillons sonores à
partir de descripteurs de haut niveau (recherche par contenu, édition).
L'essentiel des travaux sera ainsi axé sur la mise au point de nouvelles
méthodes, outils et interfaces de description et de classification
des sons, intégrant un corpus étendu aux besoins de la production
sonore : bruitages, sons d'environnement, etc... Ils se traduiront sous
la forme de deux environnements logiciels destinés aux professionnels
de la production sonore et musicale. Une taxonomie sea développée
pour répondre à une conception la plus générale
possible des différentes sources sonores et dont l'architecture
ouverte puisse servir de référence à des développements
liés à des corpus de sons spécifiques.
Dans ce cadre, l'équipe A/S développera un ensemble de
descripteurs qui puissent résulter d'une analyse automatique des
signaux audionumériques, et qui conviennent à la description
à la fois de larges classes de sons et de leurs détails individuels,
en accord avec les modalités perceptives et cognitives. Cette approche
est complémentaire de la taxonomie, car le contenu d'un son peut
renvoyer, en termes de similarité perceptive, à des sons
issus d'un contexte de production très éloigné. La
sélection de descripteurs pertinents repose tantôt sur la
théorie de l'information (descripteurs permettant une discrimination
entre classes issues d'une taxonomie discrète), tantôt sur
la recherche de relation minimisant une erreur de modélisation entre
un espace de valeurs de description voulue et de description observable
(recherche continue par proximité- similarité perçue).
Selon la disponibilité de l'application (on-line ou off-line) différentes
contraintes sont imposées. En particulier, un compromis doit être
trouvé entre la quantité d'information portée par
une description et le coût de calcul et de stockage-transmission
de cette information. D'autre part, de nombreux descripteurs de bas niveaux
peuvent êtres organisés de manière hiérarchique,
soit par une hiérarchie de résolution (multi-scale analysis),
soit par une hiérarchie d'héritage entre descripteurs. Cette
approche devrait permettre de cibler des sous-ensembles de descripteurs
en fonction de la disponibilité de l'application.
Enfin il y aura de profondes interactions entre ce projet, le projet
Cuidado
et le projet Descripteurs pour la synthèse.
Responsable : Rodet X.
Participant : Chercheur-développeur
Collaborations internes : développeurs Cuidado et Descripteurs,
Equipe PCM
Collaborations externes : INA-GRM
Projet Descripteurs pour la synthèse
Ce projet, déjà prévu en 2000, n'a pas pu être
démarré avant la fin de l'année et sera donc essentiellement
mené au cours de l'année 2001. Dans le cadre d'une thèse
sur la génération et l'utilisation de sons synthétiques
dans des applications multimedia et dans un contexte MPEG4,
un outil de génération de fichiers sonores au format
Structured Audio (.mp4) est développé.
L'IRCAM assure la direction de ce travail de thèse (X. Rodet).
Cet outil devra
permettre de synthétiser à terme toute une panoplie de
signaux sonores susceptibles
d'être utilisés dans les applications multimedia.
L'outil comprend un système
d'analyse de signaux naturels et avec traduction en paramètres
de
bas niveau. La deuxième étape du travail nécessaire
pour réaliser l'outil de
génération de fichiers sonores sera faite par l'équipe
A/S dans le cadre d'un contrat externe.
Cette analyse doit permettre
d'extraire des paramètres
de haut niveau permettant une caractérisation des signaux pour
leur utilisation
future dans des applications d'indexation. En particulier connaître
le type de son, la
hauteur et la durée des notes jouées permet de représenter
de manière compacte
tout signal monodique (une seule note apparaît à
la fois). La compacité des
représentations pour ce type d'application est un élément
essentiel. Cette analyse
peut également servir à la resynthèse d'un signal
"sémantiquement" semblable au
signal analysé, en dérivant les paramètres nécessaires
à la synthèse à partir des
paramètres de haut niveau. Cette étape permet de vérifier
la qualité de la
description en la confrontant avec la perception auditive qu'on en
a. En outre, elle
permettra de valider le nombre de paramètres de haut niveau
retenus pour la
description ainsi que leur adéquation avec différentes
classes de signaux (pas
forcément musicaux). L'ensemble des sons étant extrêmement
vaste, il est
indispensable de se limiter à une classe de sons bien définie.
La classe choisie est
constituée des sons de courte durée, de l'ordre d'une
seconde, et ne présentant pas
d'évolution importante du timbre, tels que les notes isolées
des instruments de
l'orchestre. Le calcul des descripteurs sera fait au moyens de programmes
prenant
en entrée les descripteurs de bas niveau fournis par les programmes
d'analyse et
fournissant en sortie les valeurs des descripteurs de haut niveau.
Les descripteurs
seront organisés de façon hiérarchique : plus
on descend dans l'arborescence, plus
la qualité de re-synthèse est grande, au prix cependant
d'un surcoût en sensibilité
et en capacité de stockage. La représentation de ces
descripteurs sera faite dans le
dans le standard SDIF (cf.
http://www.ircam.fr/equipes/analyse-synthese/sdif/index.html.). Une
base de
données de sons destinée aux tests des programmes de
calcul des descripteurs et à
l'évaluation des descripteurs sera constituée et les
programmes évalués sur cet
ensemble. Enfin il y aura de profondes interactions entre ce projet,
le projet Cuidado et le projet ECRINS.
Responsable : Rodet X.
Participant : Chercheur-développeur
Collaborations internes : développeurs Cuidado et ECRINS, Equipe
PCM
Collaborations externes : Rault J.B. et Philippe P. et Fayemendi
G. (Centre d'Etude des Télécommunications)
3.1.3 Modèles physiques
Méthodes d'inversion de systèmes dynamiques, modèles de la production de la voix et d'instruments de musique
Le but de cette thèse ATS est de mettre au point des outils d'estimation
automatique des paramètres et/ou des entrées de systèmes
dynamiques non-linéaires représentant l'appareil phonatoire
et des instruments de musique. L'intérêt est de construire
des méthodes d'analyse de modèles physiques, modèles
qui ont l'avantage d'engendrer directement les caractéristiques
sonores de l'instrument, et leurs variations (telles que les attaques
et transitoires).
Durant la première année de thèse, nous nous sommes
d'abord concentrés
sur une étude bibliographique de la modélisation physique
des vents et de la théorie
des systèmes dynamiques. Cette première prise de contact
nous a conduit à envisager
une forme de système qui semble adaptée à une
physique légèrement simplifiée de
l'instrument et à l'inversion : les systèmes différentiels
non linéaires à retards
(S.A.R. - sujet thématique d'un groupe de recherche naissant,
Cf. http://www.ircyn.prd.fr/gdr/sar.html).
Nous avons alors retravaillé sur le résonateur qui n'était
pas representé dans le formalisme des S.A.R., mais par une fonction
de réflexion, calculée numériquement à partir
de mesures d'impédance. L'étude du pavillon rayonnant est
sur le point d'être achevée.
L'identification du système sur la mesure d'impèdance
sera alors faite pour une propagation linéaire dans le tube, et
l'inversion du système sera envisagée pour
ce cas dans un premier temps. Les recherches prochaines porteront
sur les
méthodes d'inversion, et sur la stabilité et la discrétisation
des inverseurs obtenus. L'étude de l'inversion de modèle
de production de la voix sera débutée à l'issue de
celle sur les cuivres.
Responsable: X. Rodet
Participant: T. Hélie
Collaborations internes : C. Vergez,
Collaborations externes: ENST, INRIA, Mines de Paris
Etude des écoulements dans les anches
Cette recherche sera effectuée dans le cadre de la thèse de A. Almeida, financée par le Portugal. L'écoulement dans les anches des instruments de musique sont en effet mal connus et posent de nombreux problèmes théoriques et pratiques. C'est particulièrement vrai pour les anches doubles comme nous l'avons constaté au cours du stage de G. Lemaître dans l'équipe Ananlyse-Synthèse sur la modélisation physique du hautbois. Le but est d'obtenir des modèles plus précis de l'écoulement, en se fondant sur une étude théorique et, dans la mesure du possible des résultats d'expériences à entreprendre. Ce travail sera mené en collaboration ave l'équipe Acoustique des instruments.
Responsable : Rodet X.
Participant : Almeida A. (thèse)
Collaborations internes : R. Caussé, C. Vergez, Equipe Accoustique
des salles
3.1.4 Contrôle de la syntèse
Etude du geste instrumental (Marcelo Wanderley )
Marcelo Wanderley finit l'écriture de son document de thèse qui porte sur l'interaction interprète-instrument dans le contexte du jeu instrumental avec des nouveaux instruments. Des expériences et des exemples de contrôle seront développés dans l'environement jMAX. La soutenance de la thèse est prévue pour le début de l'année 2000.
Responsables : Rodet X.
Participant : Wanderley M. (thèse)
Collaborations internes : Equipe Systèmes temps-réel
Collaborations externes : Desain P., Depalle P.
Estimation des paramètres d'un modèle par apprentissage
La synthèse par modèle physique genère un son à
partir d'une description de tous les phénomènes mécaniques
et acoustiques d'un instrument. Ceci permet de synthétiser un son
d'une haute qualité tout en contrôlant des paramètres
ressemblant aux gestes de l'instrumentiste. Le problème qui se pose
dans ce contexte est qu'on sait pas comment faire évoluer ces parametres
afin d'obtenir un son qui ressemble à un vrai instrument joué
par un expert.
Le but du travail est de mettre au point des outils d'estimation automatique
des paramètres d'un modèle physique à partir d'enregistrements
de signaux
mesurés sur l'instrument naturel. Puisque les équations
mathématiques sur
lesquelles le modèle repose sont non-linéaires et très
difficiles à inverser, une autre solution est d'utiliser des techniques
issues de l'intelligence artificielle nommées apprentissage par
machine (machine learning). L'avantage de cette approche est qu'elle peut
être généralisée facilement à d'autres
modèles physiques ou algorithmes de synthèse que le modèle
de trompette qui a été considéré jusqu'à
présent.
La technique qui a été utilisée dans le stage
de DEA de W. d'Haes est nommée apprentissage par table (instance-based
learning) et consiste en une étape d'apprentissage et une étape
de simulation. D'abord un ensemble de sons représentant l'espace
sonore du modèle est produit, qui comprend tous les notes joués
avec toutes les intensités et variations de timbre. Pendant l'apprentissage,
les caractéristiques du son (fréquence fondamentale, enveloppe
spectrale ...) et les paramètres de contrôle (pression dans
la bouche, longeur du tube ...) sont enregistrés dans une table
de vecteurs. Pour la simulation d'un son donné, les mêmes
caractéristiques du signal sont estimées et les caractéristiques
les plus ressemblantes sont cherchées dans la table. Les paramètres
du contrôle qui y correspondent sont extraits et utilisés
pour la resynthèse. Un algorithme de recherche rapide a été
réalisée, utilisant la méthode de séparation-évaluation
(branch and bound). Ceci suppose que l'ensemble des données soit
décomposé hiérarchiquement en un arbre. L'algorithme
de recherche parcours cet arbre évitant les noeuds qui sont trop
loin du vecteur cherché. La distance utilisée entre deux
vecteurs est la distance euclidienne pondérée. Comme la justesse
du modèle est essentielle, la fréquence fondamentale est
munie d'un poids élevé.
La simulation des sons produits par le modèle et des sons naturels
donne déjà
des résultats satisfaisantes après corrections manuelles.
Typiquement, pendant les transitoires du signal, les méthodes d'estimation
parviennent difficilement à estimer les bonnes valeurs des caractéristiques
ce qui donne à des sons imparfaits à la synthèse.
De nombreuses autres améliorations de la méthode sont prévues
pour reproduire exactement les sons naturels. De plus d'autres méthodes
d'apprentissage seront testées et comparées, en particulier
les réseaus de neurones.
Responsable : Rodet X.
Participant : D'Haes W. (thèse)
Collaborations internes : Hélie T.
Collaborations externes : Université d'Anvers
3.2 Activités de développement
3.2.1 Développements généraux
Développement du standard SDIF et de ses applications
Ce standard de format de fichier, plateforme indépendant, extensible
et en accès libre, spécifie très précisemment
les types de données de
description des signaux audio et leur représentation. Il permet
donc à
des logiciels différents de communiquer immédiatement
dès lors que
leurs entrées/sorties sont conformes au standard. Il facilite
également la maintenance des fichiers de données grâce
aux
informations annexes encapsulées dans le fichier, et en permettant
à
des données hétérogènes de co-exister dans
une seul fichier. Une
bibliothèque de fonctions C de lecture/écriture, ainsi
que des
applications, ont été développés et mises
en licence "open source" sur le site de l'équipe (http://ircam.fr/anasyn/sdif).
Durant l'année 2001, des extensions concernant la performance
de la
bibliothèque et la simplicité de son API (Application
Programming
Interface) seront développées. D'autres applications
seront
développées pour faciliter l'accès aux fichiers
SDIF, par exemple une
application d'édition et visualisation graphique des données
des
fichier SDIF. Par exemple, le développement et l'implémentation
d'un formalisme d'expression de relations entre les différentes
descriptions de sons
réunies dans un fichier SDIF, seront menés, sur la base
des propositions
utilisant le format de document XML publiées par l'équipe
au congrès ICMC 2000.
Responsable : Rodet X.
Participant : Roebel A.
Collaborations internes : Schwarz D., Tisserand P.
Collaborations externes : Université de Berkeley-CNMAT
Outils et biblilothèques de conversion de Matlab vers C/C++
L'environnement de programmation Matlab est celui utilisé le plus souvent pour prototyper de nouvelles méthodes d'analyse ou de synthèse. Lorsque une telle méthode doit être mise à la dispositions des utilisateurs, spécialement en dehors de l'équipe, il est nécessaire de ré-écrire l'algorithme dans un langage comme C ou C++. Une telle tâche est lourde et difficile. Le but de ce stage est donc d'étudier les moyens permettant de faciliter une telle conversion. Entre autres l'utilisation d'un compilateur Matlab et de bibliothèques spécialisées sera examiné dans ses diverses conséquences sur le coût de conversion et la qualité du logiciel produit. Enfin les interfaces graphiques de Matlab posent des problèmes semblables qui devront aussi être étudiés.
Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : Schwarz D., Tisserand P., Peeters G., Roebel
A.
Re-écriture des procédures d'A/S PSOLA en C/C++
La thèse de G. Peeters sur l'Analyse-Synthese PSOLA et Additive doit se terminer dans l'année 2000. L'année passée a permis de tester avec succès les applications d'une méthode d'analyse-synthèse de type PSOLA. L'année prochaine sera donc consacrée au développement, à la validation et aux tests de cette méthode et à l'écriture de procédures d'A/S en C/C++. Elles pourront également être portées sur d'autres plateformes, Macintosh notamment. Pour permettre une communication facile des données d'analyse entre différents logiciels, toutes les entrées et sorties seront implantées dans le format SDIF grâce à la bibliothèque SDIF en cours de développement dans l'équipe. Les méthodes et des logiciels issus de cette recherche trouveront des applications musicales manifestement très intéressantes.
Responsable : Rodet X.
Participant : stagiaire
Collaboration interne : Peeters G., Roebel A.
Outils de visualisation et d'analyse de signaux Xspect
Comme l'ont montré encore de récents travaux de post-traitement
pour des films, le logiciel de visualisation et d'analyse de signaux Xspect,
écrit en X/Motif sous Unix, est un outil quotidien essentiel
aux travaux de l'équipe: http://www.ircam.fr/equipes/analyse-synthese/xspect/index-e.html
La suite de son développement n'ayant pas pu être
faite en 2000, ce travail sera donc assuré par un stagiaire
informaticien en 2001. En particulier il sera nécessaire d'améliorer
et d'accélérer le calcul et le tracé des Sonagrammes
et d'implanter la lecture et le tracé des Pics Spectraux et Trajets
de Partiels en réutilisant le code du logiciel Sview développé
dans l'équipe par P. Chose en 1999. De façon générale,
le lien avec la bibliothèque SDIF sera établi, en utilisant
le lecteur/écrivain général SDIF de l'équipe
pour permettre la lecture et le tracé de tous types de données,
en collaboration avec le développement Macintosh puisque ce
sera le cas également dans Diphone et AudioSculpt.
Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : A. Roebel, Schwarz D. et Lefèvre A.
Estimation de la fréquence fondamentale
L'estimation de la fréquence fondamentale est une étape clé de nombreuses analyses (additve, PSOLA, etc..). Il apparait nécessaire de disposer d'un programme d'estimation plus robuste et plus précis que celui existant à ce jour. Dans la mesure du possible, un nouveau développement sera entrepris sur la base des travaux de thèse de B. Doval et de nouvelles méthodes permettant de s'affranchir de l'intervention (souvent nécessaire aujourd'hui) de l'utilisateur.
Responsable : Rodet X.
Participant : stagiaire
Collaborations internes : A. Roebel, Peeters G.
Super Vocodeur de Phase
Le logiciel Super-VP est un Vocodeur de Phase développé
à l'Ircam il y a une dizaine d'années est le moteur de calcul
utilisé en particulier dans le logiciel AudioSculpt. Il apparait
indispensable d'en faire un nouvelle version, d'une part pour pallier à
certains problèmes de la version actuelle, d'autre part pour intégrer
des améliorations apparues récemment dans la technique du
vocodeur de phase.
Ce travail viendrait en complément de la nouvelle version d'AudioSculpt
développée sur Macintosh (Cf. paragraphe suivant).
Responsable : Rodet X.
Participant : développeur
Collaborations internes : A. Roebel
Collaborations externes : Depalle P.
3.2.2 Développement sur Macintosh
Logiciel AudioSculpt
Une toute nouvelle version de ce logiciel a été continuée
en 2000. Le cahier des charges a été élaboré
en 1999-2000 par A. Ricci. L'écriture du logiciel, qui a été
commencée en 2000 par D. Ralley, sera poursuivie en suivant les
spécifications précises du cahier des charges et en collaboration
avec le développement de Diphone. En particulier, des classes C++
et des librairies sont partagées par les deux logiciels, ce qui
diminue la charge de développement et accélère la
mise au point.
Un prototype devrait apparaitre au printemps 2001 permettant de tester
les choix et les résultats avec des personnes de l'Ircam. Une version
expérimentale pourrait alors être produite pour l'automne
2001 pour être soumise à des béta-testeurs.
Responsable : Rodet X.
Participant : D. Ralley
Collaborations internes : Lefèvre A., équipes Production
et Pédagogie
Logiciels Diphone-Studio
Le développement de l'ensemble Diphone Sthdio se poursuit. De
nombreuses améliorations sont prévues pour l'anneéee2001:
- Ajout de l'analyse des enveloppes spectrales dans AddAn, prise en
compte des enveloppes spectrales dans la synthèse additive.
- Implantation du language de définition des actions effectuées
sur les applications de Diphone-Studio.
- Possibilité de définir des enchainement d'actions (comme
des analyse, des synthèses, la création et la synthèse
d'une séquence) dans ce language, accepté et interprété
par les applications de Diphone-Studio.
- Nouvelle méthode d'analyse additive, Hidden Markov Model (HMM),
en particulier
pour les sons inharmoniques.
- Routine utilisateur pour la définition de nouvelles règles
de transition entre segments.
- Segmentation automatique des sons pour la définition des diphones
et la création directe de dictionnaires.
- Exécution de plusieurs séquences en parallèle
avec un temps commun, utilisant des plugins de synthèse quelconques.
- Possibilité de substituer des paramètres d'une séquence
dans un autre.
- Possibilité de définir l'évolution du temps
par une bpf.
- Traitements (analyse et synthèse) de fichiers de sons jusqu'à
24 bits.
- Finalisation des interafaces logiciels des plug-in.
Responsable : Rodet X.
Participant : Lefèvre A.
Collaborations internes : D. Ralley, équipes Production et Pédagogie
Liste des participants
Personnel sous contrat de travail
Responsable: Xavier Rodet
Chargés de recherche et de développement: G. Peeters,
P. Tisserand, A. Roebel et une personne à recruter
Chargés de développement : A. Lefèvre et D. Ralley
Stagiaires et étudiants
Wanderley M., Thèse, DEA ATIAM, Université Paris-6
Schwarz D., Thèse, DEA ATIAM, Université Paris-6
Corson F., Thèse, DEA ATIAM, ENS-ULM
Hélie T., Thèse DEA ATS, Paris XI-Orsay
D'Haes W., Thèse , Université d'Anvers
Almeida A., Thèse , Université Paris-6
Stagiaire ICA
Stagiaire Fréquence fondamentale
Stagiaire Matlab/C/C++
Stagiaire PSOLA
Stagiaire Xspect