Caractérisation des signaux sonores
S. Rossignol continuera son travail de thèse (contrat CNET)
sur la Caractérisation des signaux sonores pour les applications
Multimedia. Durant l'année 1997, nous avons étudié
les paramètres pertinents pour la segmentation des signaux sonores
(musique, parole, bruits,....). Pour l'année 1998, dans un premier
temps, le principal du travail portera sur la séparation de sources
(en se limitant à deux sources). Quand cette partie sera assez avancée,
le travail sera poursuivi à Metz, dans le cadre de notre collaboration
avec l'école Supélec-Metz. Ceci correspond à la deuxième
phase de la thèse. Dans le même temps nous prévoyons
la finalisation des outils de segmentation existants (prise de décision
classique ou par Réseaux de Neurones, inclusion d'autres fonctions
d'observation...). Ceci pourra être l'objet d'un stage sur la segmentation
des signaux sonores en utilisant les résultats de S. Rossignol,
avec en vue un programme en C/C++ opérationnel. Dans un second temps,
à Metz, sera entamée la construction de bases de données
à accès hiérarchique par paramètres perceptifs
et la définition des outils de gestion et d'accès pour ces
bases de données (troisième phase de la thèse). Dans
ce cadre une collaboration avec la Faculté polytechnique de Mons
(Caroline Traube) est également possible.
Responsables: P. Depalle, X. Rodet
Participant: S. Rossignol
Collaborations externes: Ecole Supélec-Metz, J. Soumagne,
Faculté polytechnique de Mons, Caroline Traube
Analyse-Synthèse PSOLA
Le travail de thèse G. Peeters sur l'Analyse-Synthèse
PSOLA (Pitch Synchronous Overlap Add) sera continué. Le développement
de la méthode FD-PSOLA (Frequency Domain PSOLA), sera poursuivi.
On étudiera en particulier l'amélioration de l'interpolation
fréquentielle par repositionnement des fenêtres grâce
à une analyse de l'évolution des spectres de phase au cours
du temps. Ceci conduira à la mise au point d'un modèle de
phase et à l'estimation automatique des paramètres de ce
modèle sur des signaux de parole et de musique. Les modèles
de phases pourront être appliqués également en analyse/synthèse
Additive (collaboration avec M. Oudot). Le passage en LP-PSOLA (Linear
Prediction PSOLA) permettra de concentrer les pseudo-réponses impulsionnelles
sur un support temporel étroit de façon à minimiser
la distorsion inhérente au fenêtrage PSOLA. La méthode
PSOLA sera appliquée aux sons des instruments de musique. L'étude
de cet ensemble de méthodes sera également orientée
vers leur lien possible avec l'analyse/synthèse Additive grâce
à une répartition fréquentielle de l'information du
signal selon un critère de périodicité/non-périodicité.
Responsable: X. Rodet
Participant: G. Peeters
Collaborations internes:M. Oudot
Analyse-Synthèse Additive
Le travail de thèse de M. Oudot (contrat CNET) sera poursuivi
à l'Ircam après deux ans passés à l'école
Télécom-Paris dans le cadre d'une collaboration fructueuse.
M. Oudot a développé de nouvelles méthodes d'analyse/synthèse
additive et leur application au codage de la parole à bas débit.
La recherche se portera désormais vers la synthèse de la
voix de très haute qualité. En particulier, on étudiera
les changements d'enveloppe spectrale qui accompagnent les variations de
fréquence fondamentale. Ces changements sont partiellement connus
pour la voix chantée mais peu étudiés pour la parole.
L'étude sera donc intéressante à ce double titre.
La transformation de voix de haute-qualité sera également
abordée. Il s'agit, à partir d'une voix unique codée
dans le modèle Additif, de générer plusieurs voix
de timbres et d'articulations distinctes utilisables dans les services
de réponse par ordinateur sans avoir à enregistrer et coder
toutes ces voix différentes (collaboration avec G. Peeters).
Responsable: X. Rodet
Participant: M. Oudot
Collaborations internes: G. Peeters
Collaborations externes: Télécom-Paris, E. Moulines.
Applications des Statistiques d'Ordres Supérieurs
Les travaux de S. Dubnov sur les applications des Statistiques d'Ordres Supérieurs (HOS) seront continués. En particulier, nous approfondirons nos recherches sur les distributions des phases des partiels sinusoidaux dans les sons musicaux entretenus. On commencera également une recherche sur la classifications des sons au moyen de Modèles de Markov appliqués à l'évolution temporelle du son (collaboration avec le projet SOL). De façon à simplifier la représentation de ces évolutions, on réduira le nombre de spectres du vocabulaire grâce à la technique de Quantification Vectorielle. La classification sera menée d'abord sur les spectres d'amplitude. Dans un deuxième temps d'autres critères, tels que les statistiques d'ordres supérieurs seront ajoutés. En cours d'année, le travail sera poursuivi à Hebrew University dans le cadre de notre collaboration avec l'Institute for Computer Science.
Responsable: X. Rodet
Participant: S. Dubnov
Collaborations internes: Projet SOL
Collaborations externes: Hebrew University
Analyse par Matching Pursuit et Arbres de Décision
L'année 1998 doit voir la fin de la thèse de R. Gribonval (Ecole Polytechnique) sur l'Analyse-Synthèse par Matching Pursuit et la caractérisation des attaques et transitoires. En utilisant les techniques d'analyse temps-fréquence adaptative par Matching Pursuit développées lors des premières années de thèse, on s'intéressera à la classification et à la caractérisation de transitoires de signaux musicaux par des Arbres de Décision. On pourra par exemple essayer de distinguer automatiquement l'attaque d'un violon de celle d'un clarinette. Ces méthodes peuvent s'appliquer à l'analyse-transformation-synthèse, à la classification, à la reconnaissance et donc à la recherche dans les bases de données également.
Responsable: X. Rodet
Participant: R. Gribonval
Collaborations externes: Ecole Polytechnique, S. Mallat, E. Bacry
Fenêtres infinies et Transformée de Fourier à Court
Terme
Nous nous proposons d'étudier une méthode permettant d'appliquer des fenêtres d'analyse et de synthèse de taille infinie (donc de haute-résolution fréquentielle et sans lobes secondaires) dans le calcul de la Transformée de Fourier à Court Terme. Dans un premier temps, ce sujet mené par S. Tassart fera l'objet d'une étude théorique et expérimentale visant à définir la portée et les champs d'application possible de la méthode avec en vue la soumission d'un article dans une revue telle que Signal Processing ou IEEE Audio and Speech Processing. Plusieurs applications sont enviseageables suivant les résultats, sonagrams, détection de partiels sinusoidaux, analyse en Formes d'Ondes Formantiques, intégration dans le Super Vocodeur de Phase, etc.. .
Responsables: X. Rodet, S. Tassart
Retards Fractionnaires
Au cours de la rédaction de la thèse de S. Tassart, (Variables d'Etat, Délais fractionnaires et Estimation des paramètres) la théorie des retards fractionnaires sera développée, permettant d'assoir les bases théoriques du problème (propositions de définitions, définitions des systèmes dynamiques linéaires discrets fractionnaires) en tenant compte qu'il doit exister des liens entre la théorie discrète des retards fractionnaires et celle, continue, des dérivées fractionnaires (D. Matignon). La rédaction de la thèse sera également le moment de mettre au propre toutes les implémentations de retard fractionnaire qui ont étées proposées et utilisées pendant le travail de thèse (implémentation des LIF et des passe-tout), ainsi que les nombreuses applications surprenantes qui peuvent en découler (propagation non-linéaire par exemple).
Responsables: X. Rodet, S. Tassart
Participant: S. Tassart
Collaborations internes:Equipe Acoustique Instrumentale, R. Masallam
Estimation de Paramètres
La fin de la thèse de S. Tassart abordera les problèmes
d'estimation de paramètres dans quelques cas simples de modèles
physiques, en particulier les paramètres d'une fonction non-linéaire
sigmoide couplée à un guide d'onde linéaire, siège
d'une auto-oscillation. Il s'agit de montrer que, comme dans le cas des
modèles de signaux, des méthodes d'analyse-synthèse
sont possibles. Elles permettraient d'obtenir de façon optimale
les paramètres de jeu de modèles physiques d'instruments
à partir d'enregistrement de ces instruments par des musiciens experts,
alors que les mesures directes de ces paramètres sont extrêmement
difficiles ou même impossibles.
Responsables: X. Rodet, S. Tassart
Participant: S. Tassart
Collaborations internes: C. Vergez, T. Hélie
Portage de Modeles Physiques sur FTS
Pour mettre à la disposition des musiciens, et en version temps
réel, divers modèles de synthèse de l'IRCAM, nous
proposons d'encadrer un stagiaire afin de porter les principaux modèles
physiques non-linéaires de l'IRCAM (trompette de C. Vergez, clarinette
simplifiée, flûte de M.-P. Verge, violon,...) dans le cadre
unifié du moteur de calcul temps-réel FTS. Cela permettra
également un contrôle gestuel de ces modèles (Cf. études
du geste de M. Wanderley, et V. Hayward).
Responsable: X. Rodet, S. Tassart
Participant: Stagiaire
Collaborations internes: C. Vergez, M. Wanderley, S. Serafin, V.
Hayward et équipe Systèmes temps réel, Equipe Acoustique
Instrumentale, M.-P. Verge
Améliorations du modèle physique de trompette
La première direction sera la poursuite des travaux entrepris
en 1997 sur le projet ``Bouche Artificielle''. A partir des mesures simultanées
de la pression dans la bouche, de la pression dans l'embouchure, du débit
acoustique dans l'embouchure, et de l'ouverture des lèvres, nous
préciserons la relation non-linéaire liant ces variables.
Nous modifierons en conséquence les équations liant ces grandeurs
dans le modèle physique. Nous souhaitons également enregistrer
un trompettiste professionnel, la pression étant mesurée
dans le pavillon pour s'affranchir de l'influence de la salle et de la
propagation en champ libre. La fonction de transfert de l'instrument étant
mesurée, nous calculerons par filtrage inverse de la pression dans
le pavillon, la pression acoustique dans l'embouchure du trompettiste.
Cela nous permet d'envisager une comparaison entre la pression acoustique
mesurée dans l'embouchure d'un trompettiste, celle mesurée
lors d'un jeu avec la bouche artificielle, et enfin celle calculée
lors d'une simulation par le modèle physique.
La seconde direction sera l'optimisation des paramètres du modèle.
Nous souhaitons parvenir à une optimisation automatique des paramètres
du modèle (collaboration avec S. Tassart). Le but est d'estimer
les valeurs des paramètres du modèle minimisant la distance
entre des enregistrements réalisés sur un trompettiste professionnel
et le résultat de nos simulations. Ce travail pourra donner lieu
a un stage de DEA ATIAM (T. Hélie).
La troisième direction sera l'amélioration du contrôle
de la synthèse Nous souhaitons pouvoir contrôler la position
des pistons. Avec les contrôleurs du commerce (du type saxophone
MIDI WX7), cela n'est pas réalisable. Notre projet consiste à
utiliser un système à base de capteurs à effet Hall
pour mesurer l'enfoncement des clés. Une collaboration avec V. Hayward
est envisagée pour l'élaboration d'un système de contrôle
efficace mais adapté aux musiciens.
Responsable: X. Rodet
Participant: C. Vergez, T. Hélie
Collaborations internes: S. Tassart, V. Hayward
Oscillateur non-linéaire modèle du violon
Il est prévu de continuer les travaux effectués dans
l'équipe par A. Ward en 1996. Une stagiaire ATIAM (S. Serafin) sera
chargée de développer ce modèle non-linéaire
de violon et son contrôle gestuel. Ce travail s'inspirera étroitement
du travail sur la trompette mais avec le système temps réel
FTS, ce qui facilitera largement l'implémentation et le contrôle.
Les résultats du stage de DEA ATIAM de G. Peeters (1996)
sur les retards fractionnaires et dynamiques seront utilisés. De
plus, le violon présente un cas particulièrement intéressant
de problème de contrôle et donc pourra aussi bénéficier
d'une collaboration avec V. Hayward et M. Wanderley qui travaillent sur
le geste musical. En particulier, on étudiera pour simuler l'archet,
divers dispositifs gestuels, tablette Wycom, souris tri-dimensionnelle
ou dispositif à retour d'effort. Une prolongation en thèse
de doctorat est envisagée.
Responsable: X. Rodet
Participant: S. Serafin
Collaborations internes: C. Vergez, G. Peeters, V. Hayward et M.
Wanderley
Dispositif expérimental de contrôle
Ce travail sera mené par V. Hayward, chercheur de
l'université McGill en année sabbatique dans l'équipe.
On construira un site expérimental qui associera une méthode
de synthèse (existante et déja bien comprise) à un
ensemble de dispositifs de contrôle comprenant au moins un dispositif
"haptique" conçu pour stimuler des sensations kinestésiques
et tactiles. Le but premier est de réaliser, non un "instrument
virtuel" destiné à remplacer ou à imiter des
instruments existants, mais véritablement un instrument articiel qui aura
des caractéristiques pertinentes d'instruments mécano-acoustiques
connus sans en avoir les limitations dues à leur principe. Ces caractéristiques
incluent par exemple la nécessité pour un instrumentiste
de fournir de l'énergie mécanique (résultante d'un
mouvement dissipatif) afin de produire un son et d'en percevoir l'effet
par des sensations auditives et kinestésiques/tactiles. Le but second
est de fournir un site expérimental programmable pour explorer l'importance
du geste au cours de l'exécution musicale, et l'adéquation
de divers types de gestes à divers types de contrôle.
Responsable: X. Rodet, V. Hayward
Participant: V. Hayward
Collaborations internes:M. Wanderley, B. Rovan
Collaborations externes: Université McGill
Etude du geste musical
M. Wanderley a commencé une thèse en 1997 sur le sujet: "Définition, modélisation et implémentation de méthodes d'acquisition de gestes et ses applications à la synthèse sonore". Après avoir dédié les premiers mois de thèse à une étude sur les possibilités des systèmes de capture gestuel existants et sur les environements de synthèse temps-réel les plus courants, nous nous concentrons sur l'influence des gestes de l'instrumentiste qui joue d'un instrument du type anche simple sur le signal sonore produit. Après avoir analysé des échantillons sonores d'une clarinette issus du projet SOL, nous avons trouvé des annulations de partiels qui peuvent être le résultat d'une combinaison entre l'effet de la salle et des mouvements de l'instrumentiste en train de jouer son instrument. Nous travaillons maintenant dans le but de modéliser cette influence et ensuite d'appliquer ce modèle avec le "Spatialisateur" dans FTS. Ce travail sera mené en collaboration avec le compositeur B. Rovan et V. Hayward (recherche sur les dispositifs gestuels et ses applications), dans le cadre du Groupe de Discussion sur le Geste interne à l'IRCAM et avec des chercheurs externes sur les aspects théoriques du contrôle gestuel.
Responsables: Ph. Depalle, X. Rodet
Participant: M. Wanderley
Collaborations internes: B. Rovan, S. Dubnov, Equipe SOL, Equipe
Acoustique de Salles
Collaborations externes: A. Camurri (DIST - Genova), A. Mulder (ATR
- Kyoto), T. Marrin (Media Lab - MIT), R. Vertegaal (Twente Univ. - Enschede)
AudioSculpt
De nombreuses incertitudes pèsent sur l'avenir des plateformes micro-informatiques pour les musiciens. En attendant que des solutions stables se dégagent, le développement d'AudioSculpt sera poursuivi seulement dans le sens du debugging, de la maintenance et de quelques améliorations simples comme le traitement commun des phases des pics spectraux pour améliorer les possibilités de dilatation temporelle et en réduire le coût. Par ailleurs une réflexion de fond sera entreprise sur l'avenir d'AudioSculpt, sa structure et les plateformes cibles.
Responsable: P. Depalle et X. Rodet
Participant: développeur
Diphone & Chant
L'année 1998 sera consacrée des améliorations substantielles
de Diphone en attendant que les incertitudes sur l'avenir des plateformes
micro-informatiques pour les musiciens soient levées:
- Amélioration de la qualité de l'analyse de fréquence
fondamentale par l'intégration d'un nouvel algorithme.
- Gestion des enveloppes spectrales et de la composante bruitée
dans Additive.
- Langage de création des séquences, fabrication d'un Parser.
- Lois récursives de propagation des scalaires lors de la modification
d'un Composite-Segment.
- Importation et Exportation pour la Synthèse en fichiers binaires
au format SDIF.
- Portage de HMM sur Macintosh et mise en place d'un "crible"
pour utiliser les résultats d'analyse dans Diphone.
- Développement externe de plugins.
Enfin, un stagiaire (D. Schwarz) travaillera sur les Enveloppes Spectrales et le Bruit.
Responsable: X. Rodet
Participant: A. Lefevre et D. Schwarz
Collaborations internes: R. Woehrmann
Xspect
Un stagiaire sera affecté à l'amélioration du logiciel de visualisation et d'analyse de signaux Xspect, en particulier pour implanter les Sonagrams et les Trajets de Partiels en OpenGL (collaboration avec R. Woehrman).
Responsable: X. Rodet
Participant: stagiaire
Collaborations internes: R. Woehrmann
Responsables:
X. Rodet, P. Depalle
Contractuels:
A. Lefèvre
S. Rossignol
S. Tassart
développeur AudioSculpt
Chercheurs invités:
S. Dubnov, postdoc, Hebrew University-Jerusalem
V. Hayward, année sabbatique, université Mcgill
Thésards:
S. Rossignol, DEA Rennes, Thèse Université Paris-6
G. Peeters, DEA Atiam, Thèse Université Paris-6
M. Oudot, DEA Atiam, Thèse Télécom-Paris
M. Wanderley, Thèse Université Paris-6
S. Tassart, DEA Atiam, Thèse Université Paris-6
C. Vergez, DEA Rouen, Thèse Université Paris-6
R. Gribonval, DEA Atiam, Thèse Ecole Polytechnique
Stagiaires:
D. Schwarz, Université de Stuttgart
S. Serafin, DEA Atiam
T. Hélie, DEA Atiam
Stagiaire portage sur FTS
Stagiaire Xspect