3. Analyse et synthèse des sons

Responsable : Xavier Rodet

L'équipe Analyse et Synthèse des sons a pour objectifs de répondre aux besoins des musiciens et de proposer de nouvelles voies conceptuelles ou applicatives de traitement du signal sonore. C'est de cette circulation de demandes et de d'explorations que se nourrit la recherche et le développement que mène l'équipe en continuité entre invention et mise en oeuvre. De même, les modalités scientifiques et musicales concourrent à l'évolution des moyens théoriques et des idées de la pratique concrète. Le terme Analyse recouvre tous les moyens d'extraire de l'information sur le signal sonore, depuis des caractéristiques spécifiques comme la hauteur du son ou fréquence fondamentale, jusqu'à l'ensemble des paramètres permettant de reconstruire (synthéthiser) un son, une phrase dans un modèle donné. La manipulation de tels paramètres offre alors de grandes possibilités de traitement du continuum sonore.

L'année 2001 a vu l'aboutissement de travaux importants avec la thèse de
M. Wanderley dans le domaine du contrôle et du geste instrumental, et la
thèse de G. Peeters consacrée au traitement du signal musical adapté à son
contenu, qui conjugue analyse à forme d'onde élémentaire et analyse
sinusoidale dans le modèle SINOLA. L'année 2001 verra donc des
développements de ces résultats dans de nouvelles applications étudiées
avec les musiciens et compositeurs en recherche notamment, ainsi que des
recherches plusavancées sur des aspects sensibles des modèles de
signaux, comme l'anayse additive ou l'estimation de fondamentaux
multiples. De plus, en continuité avec l'effort commencé pendant l'année
2001, l'année 2002 verra un travail important consacré a un domaine
assez vaste que l'on peut nommer caractérisation des sons. Il regroupe
des étude sur la reconnaissance et la classification des sons,
particulièrement en vue d'indexation, des études sur la navigation dans
des bases de données sonores, par exemple pour les créateurs et
désigneurs sonores et l'utilisation de descripteurs du son, depuis les
bas niveaux  jusqu'aux niveaux élévés de charactérisation des sons.
Enfin les travaux sur les modèles physiques seront poursuivis, et plus
spécialement sur l'inversion de modèles qui est indispensable pour leur
utilisatin musicale.
 
 

3.1. Activités de recherche

3.1.1. Modèles de signaux

Analyses sinusoidale et trajets de paramètres en splines (Pbench)

Pbench permets de modéliser des groupes des sinusoïdes par une partiel
modulé en fréquence et amplitude. Actuellement les paramètres de
l'algorithme d'apprentissage doivent être ajustés par l'utilisateur qui doit
décider si il veut modéliser les sinusoïdes par une modulation rapide en
fréquence ou par des groupes des sinusoïdes. Pour automatiser et adapter
l'apprentissage aux deux cas on se propose d'essayer d'analyser le niveau
de modulation de l'amplitude du partiel et d'utiliser ce résultat pour adapter l'algorithme d'apprentissage. Il est donc prévu d'utiliser automatiquement le mode fréquence rapide en cas
de modulation faible de l'amplitude et le mode sinusoïdes groupées si la
modulation de l'amplitude est forte. Concernant les modification d'un son,
le modèle optimal pour transformer le son en hauteur ou en durée dépend du type de
transformation et de la perception auditive.
En utilisant la nouvelle méthode  qui permet de transformer un groupe de
partiels en un partiel modulé plus fortement, on peut étudier quelle
représentation est optimale pour les différents cas  et on pourrait éventuellement
trouver un moyen de transformer le modèle automatiquement  avant que la
transformation soit appliquée.

Participant : A. Roebel
 

Etude des méthodes Basis Pursuit et Matching Pursuit

Les méthodes Basis Pursuit et Matching Pursuit ont montré des
possibilités interessantes en traitement du signal Audio. De plus, une analyse
en Formes d'Ondes Formantiques (FOF) serait un complément essentiel pour la
synthèse Chant. Mais ces méyhodes nécessitent en général d'énormes dictionnaires.
On étudiera cetaines techniques
pour réduire la complexité et le coût de calcul. Par exemple, un dictionnaire
réduit peut être sélectionné sur une courte portion représentative du signal.
Ce dictionnaire réduit permet alors d'analyser le son en entier. Le problème
initial est alors le choix de la portion représentative à analyser. La similarité
du signal avec des siganux connus peut également être utilisée dans
cette étape préliminaire.

Participant :  B. Dittmer-Roche (stagiaire, bourse Fulbright) et un stagiaire de DEA
 

Traitement des régions transitoires dans un vocodeur de phase

Un problème général du vocodeur de phase est la traitement des
régions transitoires. Afin d'améliorer les résultats obtenus par superVP et
Pbench dans le traitement des transitoires, une détection des régions transitoires
dans la représentation  temps/fréquence a été développée en 2001. La méthode
utilise les opérateurs de réassignement pour trouver les parties transitoires. Si l'on compare
avec d'autres méthodes de détection de transitoires, le plus grand avantage est que
la méthode ne dépend pas du niveau énergétique relatif du transitoire et que
lorsque la fenêtre d'analyse est choisie, il n'y a qu'un seul paramètre à régler.
En utilisant cette méthode, un nouveau mode de transformation doit être
établi qui permet de préserver les régions transitoires dans une transformation du
sons.

Participant : A. Roebel
 

Estimation de F0 robuste et de F0 multiples

Des travaux menés en 2001 sur la ré-écriture et la compréhension de l'algorithme
de B. Doval pour l'estimation de la fréquence fondamentale (F0) par A. Roebel et deux stagiaires.
L'une des principales conclusion est que cet algorithme souffre de la très grande difficulté d'estimer la distribution des partiels non-harmoniques et du bruit. En conséquence, on se propose de construire un nouveau modèle moins sensible à cette distribution et permettant d'adapter les
paramètres d'analyse automatiquement. L'algorithme de maximum de vraisemblance correspondant à ce modèle sera conçu et implanté en Matlab.  De plus, il prévu d'étudier le
comportement de l'algorithme face à un mélange de plusieurs fondamentaux dans le signal
analyse et de développer un méthode pour évaluer la probabilité de l'existence
de plusieur sources.
Enfin ce programme
sera testé sur une base de donnée de sons musicaux et de trajets de fréquence fondamentale de référence vérifiés manuellement.

Participants : A. Roebel et stagiaire
Collaboration interne : G. Peeters, A. De Cheveigné (équipe PCM)
 

Synthèse concaténative par sélection d'unités sonores

Ce travail regroupe des recherches dans les directions suivantes: estimation,
classification et structuration de paramètres, utilisation d'une base de donnés
hétérogènes de sons et de caractéristiques, recherche sur la conception et
l'architecture logicielles fondées sur des composants réutilisables. En effet,
il s'avère qu'une nouvelle technologie pour la partie synthèse des systèmes de
synthèse à partir du texte appelée "sélection d'unités" peut être, aussi bien,
appliquée à la composition en musique et à la synthèse sonore de haute qualité.
En utilisant une base de données hétérogènes de bruits, de notes isolées ou de
phrases musicales, et des caractéristiques classées et segmentées selon des
paramètres estimés à partir du signal sonore, le meilleur candidat pour un
segment de la sortie sonore est trouvé par des méthodes efficaces d'extraction
de données et un algorithme de sélection d'unités. Le segment sonore choisi
dans la base de données est transformé pour correspondre aux paramètres de
synthèse désirés, par des techniques temporelles ou fréquentielles de
resynthèse telles que PSOLA, la resynthèse additive, le vocodeur de phase, etc...
    Le segment sonore ainsi transformé est enchaîné avec les segments trouvés pour
les autres parties de la sortie désirée, en appliquant par exemple des
techniques d'interpolation (crossfade) pour éviter les discontinuités, ou des
transformations de niveau plus élevé.  L'analyse de la base de données
(segmentation et classification automatiques), et l'extraction de paramètres
sont faites au moyen de méthodes de traitement du signal avancées.  Des
interfaces et les formats d'échange ouverts, normalisés, tel que SDIF
(cf. section développement), où SQL pour l'accès au système de gestion de la
base de données, seront développés et utilisés.
    La clé du développement réussi d'un système logiciel complexe comme celui
proposé, repose sur les principes de l'ingénierie logicielle.  L'architecture
logicielle sera établie selon une conception orientée-objet et des composants
réutilisables pour favoriser la flexibilité, l'expansibilité, et la
maintenance.

Participants : D. Schwarz (thèse), stagiaire
 

Séparation de signaux audio et analyse en sous-espaces indépendants

La séparation aveugle de sources (BSS) désigne les techniques visant
à retrouver des signaux inconnus appelés sources à partir de
plusieurs observations de leur mélange, dont les caractéristiques ne
sont pas données. Ce travail de thèse s'attache à la séparation de sources dans le
cadre du signal monophonique, c'est-à-dire avec une seule
observation. Il est alors possible de définir un concept de source et de
démixer en s'appuyant sur la théorie de l'analyse de scènes
auditives. Cependant, les techniques classiques de BSS ne peuvent
s'appliquer directement. Approché sous des angles divers, ce problème
reste très difficile, surtout lorsque le mélange varie, et en
présence de filtrages et d'échos.
    Étudiée au cours du stage de DEA, la technique d'analyse en
sous-espaces indépendants (ISA) sur le spectrogramme, dérivée de
l'analyse en composantes indépendantes (ICA) et développée
récemment par Michael Casey, apparait très prometteuse. La
méthode consiste à séparer le signal en plusieurs composantes de
spectres "indépendants", puis à les regrouper selon des critères de
distance entre ces spectres.
De bons résultats ont été obtenus pour l'analyse de bruits ou
l'extraction d'attaques. Mais le modèle reste insuffisant pour une
extraction de qualité des instruments d'un extrait musical.
    Le but de ce travail de thèse est de trouver des méthodes permettant
d'utiliser des connaissances a priori sur les instruments pour extraire
des sources proches de la réalité. En effet, le spectre approximatif
des sources, leur localisation temporelle ou des modèles de mixage
apportent des informations souvent négligées. On cherchera par exemple
à étudier et exploiter les applications de l'ISA à la
reconnaissance et la classification d'instruments, les informations
fournies par d'autres techniques comme l'ICA directement sur des portions
de signal (Dubnov) ou le Matching Pursuit (Gribonval), et les algorithmes
de regroupement des sources après la phase de séparation.
Des collaboration sont envisagées avec Cardoso, Jutten (Grenoble),
Gribonval (Inria), l'Université de Nantes et P. Deville, Université. de Toulouse.
La formation  d'un groupe de travail et l'organisation
d'un workshop à l'Ircam sont à l'étude.

Participants : Emmanuel Vincent (thèse, ENS-Ulm)
 

Conception d'un système de synthèse sonore d'orgue

 En parallèle à la construction de l'orgue du Palais des Beaux-Arts de
Bruxelles par Georg Westenfelder et la société Syncordia, l'IRCAM a
été chargé de concevoir le prototype  d'un système de synthèse sonore
pouvant s'adjoindre à l'orgue (de facture classique) et fonctionner
sous divers modes:
- mode répétition: l'interprète peut répéter son concert en utilisant
des sons échantillonnés et spatialisés.
- mode jeux (temps réel):
        o des sons de synthèse sont appelés de façon transparente par l'organiste.
        o filtres et effets peuvent également être appelés.
        o les sons peuvent être spatialisés (enceintes électroacoustiques multicanaux).
- mode harmonisation / synthèse (temps différé) permettant un travail
fin des échantillons et sons de synthèse.
La technologie du prototype repose donc essentiellement sur des
techniques numériques nécessitant l'emploi d'un micro-ordinateur
dédié.

Participant : V. Rioux
Collaboration interne : Equipe Acoustique des Salles

Serveur et service télématique  musical sur les mobiles

Le but du projet MUSIMOBILE (RIAM) est la conception et le développement d'un
serveur et d'un service télématique pour la reconnaissance automatique de titres musicaux, la
recherche par similarité, la composition de séquences et le développement de jeux musicaux
sur les mobiles. Il s'agit de développer un serveur
clé en main intégrant les technologies les plus récentes en extraction
automatique du contenu audio et gestion des métadonnées musicales. Ce
serveur est destiné aux opérateurs et fournisseurs de service sur les
mobiles pour mettre en oeuvre les fonctionnalités suivantes :
- reconnaissance automatique d'un titre musical capté sur le mobile
- quizz, jeux promotionnels et jeux musicaux.

Participant : Chercheur/développeur
Collaboration exérieure : Société MusiWap
 

3.1.2. Caractérisation des sons

Projet CUIDADO

Au sein du projet CUIDADO, l'équipe analyse/synthèse est en charge du développement des
technologies permettant la classification automatique des données
et la reconnaissance (identification) d'extraits musicaux.
     La classification automatique, développée dans le cadre de l'application
"Sound Palette", s'effectue soit pour un ensemble d'index préalablement définis,
soit pour un ensemble d'index définis par l'utilisateur. Dans les deux cas,
l'opération de classification s'effectue par extraction d'un ensemble de
descripteurs suivie d'une phase d'apprentissage (recherche d'un algorithme
permettant de retrouver la classe d'appartenance de chaque son).
Dans le deuxième cas cependant, cet apprentissage s'effectue "en ligne".
Lors de l'année 2002, les meilleures stratégies d'apprentissage "en ligne"
seront étudiés. Concernant la description du signal, l'année 2002 abordera
les problèmes relatifs à une description dynamique du son,
en particulier la description de séquence sonore (suite continue d'échantillons),
ainsi que les problèmes relatifs à la caractérisation des sons mixtes (plusieurs sources).
    La reconnaissance (identification) d'extraits musicaux, développée
dans le cadre de l'application "Web Music Monitoring System" du "Music Browser",
s'effectue par définition d'une signature sonore obtenue à partir du contenu
du signal sonore. Lors de l'année 2002, les aspects robustesse des algorithmes
développés et comparaison avec d'autres technologies existantes seront étudiés.
    Ces deux technologies nécessitent la définition de schémas d'extraction/matching
ainsi que la définition de librairies interchangeables et des spécifications d'un
format de données permettant l'inter-opérabilité entre applications.

Participant : G. Peeters
Collaboration interne : équipes PCM et Système en ligne
 

Projet ECRINS : Calcul de descripteurs, classification et transformations de sons.

Le projet ECRINS concerne l'indexation et la classification d'échantillons sonores ou musicaux.
Ce projet se donne comme objectif de fournir à des
professionnels du son (post-production, assistants musicaux,
compositeurs) un outil leur permettant de gérer de larges collections
d'échantillons sonores. Le logiciel ECRINS devra permettre à terme de
faciliter cette gestion en proposant une taxonomie des objets
sonores, une classification automatique (fondée sur des descripteurs
calculés) et une intégration de la subjectivité de la perception de
chaque utilisateur. L'équipe analyse-synthèse est chargée des recherches
et du développement des logiciels de calcul de descripteurs, de modification des
sons et de classification dee échantillons sonores.

Participant : P. Tisserand
Collaboration interne : équipes PCM, Design Sonore, Système en ligne et assistants musicaux.
Collaborations externes: INA-GRM, société Digigram
 

Classification et Indexation de Documents MultiMédia
par la collaboration du Son, de l'Image et du Texte

L'indexation et la recherche d'information dans une base de données multimédia
pour un médium spécifique (tel que image, texte, son, etc.) est un sujet de
recherche en lui-même qui est déjà abordé par de nombreux projets, laboratoires
et par quelques industriels. Le but de cette thèse s'inscrit dans le projet de
comprendre les mécanismes qui relient les informations contenues dans
les différents média d'un document multimédia.
    Dans le contexte d'une base de données multimédia, on cherchera à caractériser
ces relations de sorte à permettre l'indexation et la recherche des contenus par la
fusion d'information multi-critères, basés sur le Son, le Texte et l'Image. Pour ce
faire, la thèse devra analyser chacun des médias retenus au moyen de différents
critères, de les modéliser au moyen de schémas conceptuels analogues de sorte à
permettre la fusion des informations. Il faudra également concevoir des outils
conceptuels pour extraire automatiquement ces relations entre média.
L'indexation des documents sera faciliter par la classification des contenus
respectivement aux catégories de chacun des médias.
    Dans une deuxième partie les relations entre les média et les schémas qui les sous-
tendent devront être adaptés pour produire des algorithmes de recherche
d'information applicables dans le contexte pratique de bases de documents
Dans une troisième partie, différentes expérimentations seront menées sur ces
algorithmes pour évaluer la qualité des méthodes retenues et pour les améliorer.
Ces expérimentations doivent aboutir à une plus grande compréhension de la
répartition de l'information entre les différents média et suivant les différents
critères. Cette compréhension sera formalisée dans le contexte de cette thèse par
les algorithmes de "mise-en-correspondance" entre les schémas conceptuels.

Participant : B. Delezoide (thèse, bourse CEA)
Collaborations externes : CEA
 
 

3.1.3. Modèles physiques

Etude et modélisation des écoulements dans
les anches doubles pour les modèles physiques

Bien que le principe de fonctionnnement des anches doubles (hautbois)
soit similaire aux autres instruments à anche, elles présentent des particularités
qui rendent leur étude plus complexe. Les modèles à anche simple doivent
alors être modifiés pour inclure les détails physiques responsables
des différences de son entre les deux types d'anche. Cependant, les modèles
conçus jusqu'à présent pour les anches doubles semblent n'avoir réussi
qu'à mettre en évidence la difficulté théorique et pratique posée par ces
instruments et par les écoulements prenant place à l'intérieur.
Le but de cette thèse est d'arriver à un modèle physique pour les instruments
à anche double, l'étude physique de l'instrument se portant en particulier
sur les caractéristiques de l'écoulement d'air entre
les deux anches. Cela nous permettra d'identifier les structures
et phénomènes décisifs dans le fonctionnement de l'instrument
et d'extraire des paramètres réalistes à appliquer dans le modèle.
    Jusqu'à présent, une étude bibliographique a été faite des modèles
utilisés pour les anches simples, et des recherches d'explication
pour le comportement particulier des anches doubles. Les idées les plus
prometteuses indiquent que les différences se situent au niveau du couplage
entre le jet et la colonne d'air de l'instrument, notamment au niveau du
recollement éventuel du jet, de la récupération partielle de
pression ou de la dissipation turbulente et/ou visco-thermique le long des parois de l'anche.
    Une expérience préliminaire a été montée à l'IRCAM. Elle permet
de faire quelques observations générales sur le comportement de l'anche
et de l'écoulement à l'intérieur. Suite à ces démarches, une collaborer envisagée
avec des instiutions extérieures à l'IRCAM pour faire
des expériences plus précises, qui permettront, par example, d'étudier
l'écoulement sans que les instruments de mesure le modifient trop.
L'expérience étant toujours affecté par des problèmes
pratiques, une vision plus globale de l'écoulement devra aussi utiliser des
simulations numériques, elles aussi résultant d'une coopération à l'exterieur.
    Simultanément à ces études, un modèle physique assez simple pour être
utilisé dans la synthèse va être dérivé des modèles déjà construits, et de ceux
existants pour les anches simples. Sa mise au point utilisera les résultats
des expériences et des simulations, et indiquera les questions
importantes à étudier en priorité.

Participant : André Almeida (Thése, bourse Portuguaise)
Collaboration interne : Equipe Acoustique instrumentale, R. Caussé, C. Vergez
 

Méthodes d'inversion de systèmes dynamiques,
modèles de la production de la voix et d'instruments de musique

Durant la première année de thèse, nous nous étions concentrés sur une étude
bibliographique de la modélisation physique des vents et de la théorie
des systèmes dynamiques. Ceci nous avait poussé à mettre notre système
sous la forme de modèles paramétriques et particulièrement de
systèmes différentiels non linéaires à retards (S.A.R.), bien adaptés
à l'inversion. L'échec lors de l'identification sur un modèle de Prony, nous avait
conduit à refaire une étude physique des résonateurs des vents : d'abord sur
le rayonnement (de type sphérique), puis sur le résonateur en
l'approchant par une concaténation de tronçons de cônes.
Durant la deuxième année de thèse, nous avons eu l'idée d'un
principe de changement de coordonnées implicites qui transforme une
E.D.P. d'une grandeur scalaire X(x,y,z,t) en une autre E.D.P.
d'une grandeur X(s,t) de façon équivalente.
L'application de cette méthode à l'équation des ondes permet donc
d'améliorer sensiblement les méthodes trouvées dans la littérature,
ainsi que celle précédemment étudiée, tout en conservant une faible complexité
algorithmique pour la simulation (permettant d'envisager à terme le temps-réel).
Cette méthode nous a également permis de trouver des résultats physiques
plus fondamentaux (systèmes de coordonnées particuliers, nouvelles
justifications d'approximations). Enfin, ce modèle permettra aussi
certainement de modéliser des phénomènes acoustiques
de type «non résonants» imposés par des variations temporelles brusques
du profil du guide d'onde (a priori utilisable pour les plosives et dentales pour la
modélisation de la voix).
    Après ces résultats, il restera à discrétiser ce modèle «économique»
de résonateur, puis appliquer les algorithmes d'inversion étudiés au
départ sur les modèles paramétriques complets (i.e. incluant l'excitateur).

Participant : T. Hélie, Stagiaire
Collaboration interne : C. Vergez

Méthodes d'estimation automatique des paramètres d'un modèle physique à partir d'enregistrements de signaux mesurés sur l'instrument naturel

La synthèse par modèle physique génère un son à partir d'une description de tous
les phénomènes mécaniques et acoustiques d'un instrument. Ceci permet de synthétiser
un son d'une haute qualité tout en contrôlant des paramètres ressemblant aux gestes de
l'instrumentiste. Le problème qui se pose dans ce contexte est qu'on sait pas comment
faire évoluer ces parametres afin d'obtenir un son qui ressemble à un vrai instrument
joué par un expert. Le but du travail est de mettre au point des outils d'estimation
automatique des paramètres d'un modèle physique à partir d'enregistrements de signaux
mesurés sur l'instrument naturel. Puisque les équations mathématiques sur
lesquelles le modèle repose sont non-linéaires et très difficiles à inverser, une autre
solution est d'utiliser des techniques issues de l'intelligence artificielle nommées
apprentissage par machine (machine learning). L'avantage de cette approche
est qu'elle peut être généralisée facilement à d'autres modèles physiques
ou algorithmes de synthèse que le modèle de trompette qui a été considéré jusqu'à présent.
La technique qui a été utilisée dans le stage de DEA de W. d'Haes est nommée apprentissage par
table (instance-based learning) et consiste en une étape d'apprentissage et une étape de
simulation. D'abord un ensemble de sons représentant l'espace sonore du modèle est produit,
qui comprend tous les notes joués avec toutes les intensités et variations de timbre. Pendant
l'apprentissage, les caractéristiques du son (fréquence fondamentale, enveloppe spectrale ...)
et les paramètres de contrôle (pression dans la bouche, longeur du tube ...) sont enregistrés
dans une table de vecteurs. Pour la simulation d'un son donné, les mêmes caractéristiques du
signal sont estimées et les caractéristiques les plus ressemblantes sont cherchées
dans la table. Les paramètres du contrôle qui y correspondent sont extraits
et utilisés pour la resynthèse. Un algorithme de recherche rapide a été réalisé,
utilisant la méthode de séparation-évaluation (branch and bound).
Ceci suppose que l'ensemble des données soit décomposé hiérarchiquement en un arbre. L'algorithme de recherche parcourt cet arbre évitant les noeuds qui sont trop loin du
vecteur cherché. Plusieurs amélioriations seront introduites, notamment une décomposition
hiérarchique fondée sur PCA qui permet des recherches beaucoup plus efficaces
(intéressantes aussi dans le context d'indexation sonore).
Cette méthode donne des bons résultats mais a aussi quelque limitations:
 - limitation par la base de données
 - il est difficile d'imposer des contraints sur le contrôle fondées sur la physique
   de l'instrument réel.
Des bases de données plus complètes seront construites, qui contiennent tous les
timbres, intensités et fréquences fondamentales. Des méthodes d'interpolation seront
proposées qui assurent la continuité des paramètres de contrôle et respectent
ses constraints physisques. Pendant les transitoires, des problèmes supplémentaires
apparaissent parceque,  à ces endroits, le signal est très difficile à caractériser.
On proposera des méthodes d'extrapolation qui permettent d'estimer les paramètres de contrôle
en contexte. Finalement, afin de pouvoir comparer le son original et sa resynthèse, on envisage
de développer de meilleurs critères de distance qui intègrent mieux la perception humaine.

Participant : W. D'Haes  (thèse, Université d'Anvers)
Collaboration extérieure : Université d'Anvers
 

3.1.4. Contrôle de la synthèse et applications musicales

Technique vocale pour les chorales

Cette recherche concerne la technique vocale pour les chorales, plus
précisément l'application des principes de la méthode dite "bel canto" au
chant choral. Il s'agit de tester d'une façon scientifique les résultats de cette méthode.
Du point de vue de l'analyse vocale, le défi sera l'analyse de plusieurs voix
simultanément pour pouvoir prouver que, par example, l'utilisation de la
résonance chiaroscuro (brillant-riche) a un effet positif sur la justesse
du principe de inalare la voce (inspirer la voix) et peut donner une plus
grande ampleur au son de l'ensemble par l'augmentation des harmoniques et
du "singer's formant".

Participant : Laurier Fagnan, Bourse de la Fondation Baxter et Alma Ricard
 

Projet de Plate forme Haptique d'Aide à Synthèse et à l'Eveil musical (PHASE)

Le système visé permet de générer des applications multimédias ludo-éducatives et
professionnelles, faisant intervenir l'immersion sonore, le geste avec retour haptique et
l'immersion visuelle (RIAM). La cohérence de ces interactions sera assurée au sein d'un modèle
et de méthodes objets centralisant les différents comportements physiques et sensoriels. L'objectif
du démonstrateur musical proposé, sous la forme d'une borne interactive pour musées, est
éducatif et culturel. Il vise d'une part la découverte et l'apprentissage de l'espace sonore et
de  la musique grâce à l'immersion de l'utilisateur dans un environnement visuel, sonore et
haptique, et d'autre part la formation des professionnels. Ce système offre un moyen très
riche, pédagogique-ludique et intuitif pour créer et transformer des sons et musiques (e.g.
design sonore) et les spatialiser. Ce processus a priori abstrait et difficile pour les non-
spécialistes, sera largement facilité par une représentation graphique élaborée et une
commande haptique. Une commande haptique est le moyen d'accès privilégié aux objets
sonores et musicaux qu'il s'agit d'observer et de modifier pour explorer l'espace multi-
dimensionnel du timbre. La scène sonore et la scène visuelle interagissent entre elles et avec
le dispositif haptique. Ce système s'adresse d'abord à un grand public (expositions ; musées ;
etc.) et aussi à des utilisateurs experts dans des studios de composition. Il préfigure des
systèmes de plus large diffusion (écoles, conservatoires, etc.) et même à plus long terme des
systèmes grand public (synthétiseurs avec commande haptique).

Participant : Chercheur-développeur
Collaboration interne : Département Pédagogie
Collaborations extérieures : sociétés ONDIM, CEA et HAPTION
 

Implémentation des processus compositionnels dans le programme AudioSculpt 2.0.
...
Hans Tutschku, compositeur en recherche
 

Transformations du son, de la parole en relation avec les émotions

Utilisation de Super VP, Sinola, Diphone Studio-Additive pour
étudier ce type de transformations et leur applicabilité.
Travail sur un texte d'O. Cadio, préparation d'un
spectacle pour 2002 avec une étape intermédiaire au festival Agora.

G.Grand, compositeur en recherche
Collaboration interne : Département Pédagogie, Projet CUIDADO (G. Peeters)
 

3.2. Activités de développement

3.2.1. Développements généraux

Développement d'un logiciel de traitement de la voix

A la suite de la thèse de G. Peeters en 2001 et des travaux d'analyse/synthèse
de la voix dans le cadre de l'opéra K de P. Manoury, on développera un ensemble
de logciels permettant  l'analyse, la modification et la synthèse de la voix. Les applications
visées seront bien entendues les productions musicales de l'Ircam, mais aussi
les traitements en studio, la post-production (par exemple pour le ciéma). On développera
en  aprticulier une application d synthèse temps-rée avec un interface graphique permettant
à l'utilisateur de mettre au point les modifications de façon interactive et précise à l'échelle
des segments de parole.

Participant : G. Peeters, stagiaire
Collaboration interne : Equipe systèmes temps-réel (N. Schnell), S. Lemouton (département Production)
 

Développement du standard SDIF et de ses applications

La bibliothèque SDIF (Sound Description File Format) est de plus en
plus utilisée dans les recherches et développements à l'Ircam
comme dans d'autres centres de recherche. Le développement
de cette bibliothèque et son utilisation dans de nouveaux logiciels
sera donc poursuivi en collaboration avec d'autres institutions comme le CNMAT
de l'université de Berkeley.

Participant : A. Roebel, D. Schwarz
 

Développement du logiciel Xspect

Le logiciel Xspect est utilisé dans la pluspart de nos recherches.
Un certains nombre de développements sont nécessaire pour
améliorer ses possiblités et son efficacité. Parmi ces dévelopements, on traitera la
gestion des synchronisations, leur désactivation en cas de changement
de buffer, la lecture et l'écriture automatiques des break-point-functions
en format SDIF, l'optimisation de sonagrams et l'affichage des
trajets de partiels.

Participant : stagiaire
Collaboration interne : A. Roebel
 

Opérateurs de réassignement

Les méthodes de réassignement sont bien adaptées pour l'analyse et
l'estimation des paramètres dans les modèles sinusoïdaux. Pour améliorer
les résultats de la méthode Additive en rapport dans les parties transitoires, les
opérateurs de réassignement seront utilisés. Il est donc prévu
d'implémenter une méthode nouvelle fondée sur les opérateur de réassignements.
Cette méthode sera intégrée dans le logiciel Additive.

Participant : A. Roebel

Super Vocodeur de Phase

De nouveaux types d'analyse et de synthèse,  synthèse croisée notamment
seront développés. De même seront implantés de
nouveaux types de filtres variables sur une surface du plan
temps fréquence. La library audiofile remplacera la library STtools pour Super VP
et pour tous les programmes de l'équipe.

Participant : A. Roebel

3.2.2. Développement sur Macintosh

Logiciel AudioSculpt-2

Le développement de la nouvelle version, AudioSculpt-2, sera poursuivi pendant
l'année 2002. Le principal objectif sera d'inclure dans cette version toutes les
fonctionnalités qui se trouvaient dans la version 1. D'autres aspects de l'interface
graphique en particulier seront améliorés comme le déplacement des filtres
avec contrainte x ou y, la sélection des filtres par attribut, l'edition des filtres
dans la fenêtre de spectre et l'étirement/compression directement sur
le sonagramme.

Participants : D. Ralley, autre développeur
Collaboration interne : A. Roebel