Programme des journées

Toutes les sessions ont lieu dans l'amphi B 310 à l'ENST (46, rue Barrault, 75013 PARIS).

 

JEUDI 23 OCTOBRE

10h30-11h30 Accueil des participants

11h30-12h Présentation des sponsors et des modalités de remboursement

12h-14h Repas (cafétéria ENST)

14h-16h SESSION 1 - AUDITION 1

Géraldine LEBRUN, Jérémy Marozeau, Anne Caclin, Christian Füllgrabe, Maëva Garnier.

16h-18h SESSION 2 - ACOUSTIQUE DES SALLES

Sylvain Busson, Sébastien MOREAU, Guillaume Pellerin, Etienne Corteel.

Repas libre
 

 

VENDREDI 24 OCTOBRE

9h30-12h30 SESSION 3 - ANALYSE ET SYNTHESE SONORE

Grégory Pallone, Irina Zhekova, Lorcan Mc Donagh, Sylvain LESAGE, Laurent Benaroya, Emmanuel Vincent, Thomas Fillon.

12h-14h Repas (cafétéria ENST)

14h-17h SESSION 4 — AUDITION 2

Gilles Malherbe, Isabelle Boullet, Gaetan Gilbert, Thibaut Ehrette, Olivier Houix, Julien TARDIEU, Vincent Koehl, Jérémie Brocard.

18h Soirée (au restaurant "Monsieur Sans Gêne", 122 rue Oberkampf, 75011 PARIS)

 

SAMEDI 25 OCTOBRE

9h30-12h30 SESSION 5 - MUSIC INFORMATION RETRIEVAL, CONTROLE GESTUEL

Miguel ALONSO, Slim Essid, Aymeric ZILS, Jean-Julien AUCOUTURIER, Kasper Souren, Bertrand Delezoide, Loic Kessous, Jean-Michel Couturier.

12h-14h Repas libre (Butte aux Cailles)

14h-17h SESSION 6 - ACOUSTIQUE INSTRUMENTALE

André ALMEIDA, Vincent DEBUT, Claudia FRITZ, Emilie POIRSON, Florence DEMIRDJIAN.

 

 

JEUDI 23 OCTOBRE 14h-16h

SESSION 1 - AUDITION 1 (prés. : Julien Tardieu)

Géraldine LEBRUN (CNRS, Lyon) (voir PPT)

Intégration des dimensions de hauteur et de temps dans les séquences d'accords en mémoire.

La perception de la musique tonale repose sur le traitement de deux principales dimensions : la hauteur (relations harmoniques entre les notes) et le temps (rythme et métrique). Notre étude analyse si ces deux dimensions sont traitées†de manière indépendante ou en interaction au niveau de la représentation en mémoire. Dans cet objectif, les deux dimensions ont été manipulées dans des séquences de huit accords, et un paradigme ´†même-differentª a été utilisé. Dans des paires de séquences la hauteur seule, le temps seul, ou la hauteur et le temps étaient manipulés. Deux groupes de sujets ont participé, l'un devant se focaliser sur la hauteur en ignorant les changements sur la dimension temporelle, l'autre devant se focaliser sur le temps en ignorant les changements sur la dimension de hauteur. Les pourcentages de réponses correctes et les temps de réponses correctes montrent que le traitement d'une dimension est influencé par la manipulation de l'autre dimension à ignorer. Pour les séquences d'accords, la hauteur et le temps ne semblent pas être traités de manière indépendante en mémoire comme cela avait été observé pour les mélodies. La comparaison de ces résultats avec ceux issus d'autres t‚ches expérimentales (par ex. jugements subjectifs d'achèvement) suggère que, pour des séquences d'accords, les deux dimensions sont d'abord traitées de manière indépendante puis intégrées en mémoire.

 

Jérémy Marozeau (Ircam, Paris) (voir PPT)

Effet de la fréquence fondamentale sur la perception du timbre

L'effet de la fréquence fondamentale (f0) sur le timbre des instruments de musique a été étudiée à travers une expérience psycho-acoutique. Dans cette expérience, un ensemble de 9 instruments de musique ont été choisis: le saxophone, la clarinette, le cor, la guitare, la harpe, le hautbois, la trompette, le violon joué à l'archet, le violon pizzicato. Trois notes de hauteur différente (B2, C#3, et Bb3), mais de même durée: 1,5 sec, et de même nuance: mezzo-forte, ont été extraites de chacun de ces instruments, totalisant 27 stimuli. Cette expérience se divise en deux sessions. Dans la première session, seuls les stimuli ayant une hauteur de : B2 et C#3, correspondant à des f0s de 247 et 277 Hz, ont été utilisés (totalisant donc 18 stimuli). Dans la seconde session, seuls les stimuli ayant une hauteur de: B2 et Bb3 (466 Hz) ont été utilisés. Soit une différence de hauteur (df0) d'une seconde majeure et d'une septième majeure. Pour chaque session, 22 sujets ont jugé le taux de similarité entre les 18 sons presentés par paires. Ils avaient pour t‚che de prendre en compte uniquement les différences de timbre, et non les différences éventuelles de hauteur. Les resultats prennent la forme de deux matrices de simililarité. De ces matrices ont pu être extraits deux espaces perceptifs de timbre, ou chaque distance représente la similarité entre deux timbres. Ces deux espaces montrent que la perception du timbre reste stable malgré des différences de f0.

 

Anne Caclin (Ircam, Paris) (voir PPT)

Étude de la perception du timbre musical : de la psychophysique a l'imagerie cérébrale

Les travaux en psychoacoustique ont montré que le timbre est un attribut perceptif multidimensionnel des sons complexes. Le but de ce travail est de rechercher les corrélats cérébraux de la perception des différentes dimensions du timbre, en utilisant les techniques d'imagerie cérébrale fonctionnelle chez le sujet humain sain. Dans un premier temps, un espace tridimensionnel de timbres synthétiques a été mis au point. L'étude psychophysique de cet espace nous a permis de sélectionner des timbres pour deux études d'imagerie, en IRMf (Imagerie par Résonance Magnétique fonctionnelle) et en EEG (ElectroEncéphaloGraphie). Ces études ont révélé un rôle du cortex auditif secondaire bilatéral dans la perception du timbre musical, ainsi qu'une indépendance partielle du traitement de différentes dimensions du timbre.

 

Christian Füllgrabe (Université Paris V) (voir PPT)

Auditory sensitivity to temporal envelope cues

Auditory sensitivity to temporal envelope cues is traditionally assessed by measuring the temporal modulation transfer function (TMTF). Inspired by the linear system analysis approach, this method attempts to predict the internal or sensory representation of complex temporal envelopes from the listener's response to single-component modulations. However, doubts have been raised about the validity of the assumption that the auditory processing of complex temporal envelopes follows the principles of superposition and homogeneity.

Electrophysiological data by Shofner et al. (1996) have shown that neurons in the auditory system synchronize to the beat in the waveform of two-component temporal envelopes, i.e., a slow cyclic increase and decrease in the envelope depth at a frequency equal to the modulation difference frequency. However, the modulation spectrum of such a stimulus shows no spectral energy at the envelope beat frequency. Thus, auditory nonlinearities may enrich the internal representation of the stimulus with an audible distortion product. Recent psychoacoustic studies seem to confirm such a distortion hypothesis showing that (i) the detection of a probe modulator is degraded by the addition of a two-component masker modulator beating at the probe frequency (Moore et al., 1999), and (ii) multi-component (i.e., 2nd-order) amplitude modulation detection thresholds are increased when a masker was introduced at the frequency region of the envelope beat (Lorenzi et al., 2001). In summary, the perception of complex temporal envelopes -such as speech and animal vocalization sounds- may partially be based on the perception of a distortion product. In a series of experiments, this hypothesis was further tested, and the nature of the auditory nonlinearity investigated.

 

Maëva Garnier (LAM, Paris) (voir PPT)

Approche de la qualité vocale dans le chant lyrique : Perception, Verbalisation et Corrélats acoustiques

Les messages que nous exprimons sont loin d'être véhiculés uniquement par les mots mais aussi, et parfois bien plus, par la qualité de la voix. Mais quest-ce que la qualité vocale ? Tout ce qui diffère du contenu sémantique ou bien l'équivalent du timbre d'un instrument de musique ? L'intérêt du chant lyrique dans cette étude réside dans la priorité accordée dans ce domaine au contrôle subtil de la qualité vocale par rapport à la recherche plus habituelle d'intelligibilité dans nos échanges verbaux courants.

La méthodologie que nous avons adoptée se base sur le principe que si toute l'information est contenue dans le signal sonore, c'est en partant de l'avis des auditeurs que nous pourrons accéder à la partie de cette information qui est pertinente du point de vue perceptif. L'analyse linguistique de la verbalisation de chanteurs lyriques puis d'experts de ce domaine a ainsi permis de dégager un vocabulaire de la qualité vocale lyrique pertinent pour les auditeurs de ce domaine, de mettre en évidence plusieurs conceptions de la qualité vocale et d'identifier les critères qui traduisent les variations de qualité vocale perçues par les auditeurs. La qualité vocale ne semble pas se résumer à la notion de timbre, qui n'est pour les auditeurs experts qu'un indice de la qualité vocale, dans le sens où il renseigne sur la maîtrise de certaines techniques vocales. L'évaluation de voix lyriques selon des échelles bipolaires (dont les termes sont issus de la verbalisation des chanteurs) a mis en évidence de fortes corrélations entre certains critères de la qualité vocale et fourni des premières pistes pour la recherche de corrélats acoustiques. L'analyse spectrale a montré un lien entre la notion de clarté, de brillance ou de timbrage et les rapports entre différentes zones formantiques, en particulier les deux premiers formants de la voyelle [A] et la zone du formant du chanteur.

Ce sujet n'ayant jamais encore été abordé, cette première étude contribue par sa méthodologie originale à apporter des premières éléments de réflexion et offre encore matière à de nombreux approfondissements.

 

JEUDI 23 OCTOBRE 16h-18h

SESSION 2 - ACOUSTIQUE DES SALLES (prés. : André Almeida)

Sylvain BUSSON (France Télécom R&D) (voir PPT)

Synthèse binaurale individualisée: Application aux services de télécommunication

Dans le contexte des futurs services de télécommunications, les techniques de spatialisation sonore, qui permettent de positionner des sources sonores dans tout l'espace autour de l'auditeur, constituent un axe de recherche majeur pour enrichir et varier les contenus audio proposés aux usagers.

La technique de spatialisation sonore choisie ici est la synthèse binaurale qui présente l'avantage d'offrir une spatialisation étendue à tout l'espace avec un nombre réduit de signaux.

Cependant la synthèse binaurale possède l'inconvénient de reposer sur des indices de spatialisation qui dépendent fortement de l'individu et notamment de sa morphologie.

L'objet de ce travail de thèse, qui fait l'objet d'une collaboration entre FTR&D et l'IRCAM, vise la mise au point d'une procédure simple permettant d'offrir à un usager quelconque une synthèse binaurale individualisée, sans recourir à des dispositifs de mesure lourds ou contraignants.

Un état des lieux sur le problème de l'individualisation de la synthèse binaurale sera d'abord proposé. Il s'agira de faire le point entre les éléments qui sont aujourd'hui connus et maÓtrisés et les questions qui restent à résoudre. Dans un second temps, seront présentés les principaux axes de recherche qu'on se propose d'explorer avec ce travail de thèse, notamment autour du calcul et de la modélisation d'un ITD individualisé, ainsi qu'une campagne d'évaluation subjective de la synthèse binaurale individualisée. La plate-forme de tests utilisée à cet effet sera décrite.

 

Sébastien MOREAU (France Télécom R&D) (voir PPT)

Nouveaux outils d'encodage spatial et de restitution de champ sonore. Prise de son à haute résolution spatiale.

Afin de représenter une scène sonore indépendamment d'un système d'acquisition/restitution particulier et sous une forme relativement flexible, une description physique du champ sonore basée sur sa décomposition en harmoniques sphériques en un point semble appropriée. Cette description est à la base de la technologie Ambisonics dont les outils d'acquisition/manipulation/restitution de scène sonore 3D, objets de travaux actuels, restent encore limités.

Parmi les outils conÁus à France Telecom R&D, un microphone ambisonique à haute résolution spatiale est actuellement en cours de validation. Le prototype comprend 32 capteurs répartis sur une boule. Un traitement approprié des signaux captés (matriÁage et égalisation) permet d'estimer les composantes harmoniques sphériques du champ sonore (ou encore ses dérivées spatiales) jusqu'à l'ordre 4, sous la forme de 25 "signaux ambisoniques".

Des considérations pratiques comme l'espacement entre les capteurs (donc la taille du dispositif) au regard de la longueur d'onde, impliquent un compromis entre deux types d'artefact prédits par la théorie: l'aliasing spatial (en haute-fréquence) et l'amplification du bruit de mesure (en basse-fréquence). Ils font l'objet d'estimations quantitatives (mesures) et d'appréciation qualitative (décodage et écoute au casque).

 

Guillaume PELLERIN (LAM, Paris) (voir PPT)

Etude du haut-parleur aux grands déplacements

Quelles que soient les applications acoustiques faites à partir d'enceintes munies de haut-parleurs, un système de reproduction de précision doit rayonner la même énergie à toutes les fréquences pour pouvoir rendre une image fiable du signal source. Il apparaÓt cependant que la "qualité sonore" globale perÁue par le sens auditif dépend aussi, et de manière importante, de la précision des transitoires et de la stabilité de la réponse en phase. Or, Dans le domaine des basses fréquences, c'est-à-dire pour de grandes amplitudes de déplacement particulaire, les lois physiques qui régissent le comportement du fluide au voisinage de l'émetteur sonore sont liées à des phénomènes aérodynamiques - de nature souvent non linéaires d'un point de vue acoustique - comme la diffusion, la convection, la turbulence ou les effets de vortex. Dans cette approche où apparaissent des effets quasi-périodiques et chaotiques, une description unidimensionnelle purement volumique pour la géométrie et harmonique pour le signal atteint rapidement ses limites.

Il sera donc montré comment les outils temporels comme les espaces des phases permettent d'accéder à une image qualitative du système de reproduction et, à partir des données expérimentales, aux causes déterministes des transitions dynamiques, entre les régimes propagatifs linéaires et turbulents par exemple. Une étude numérique à partir des équations de Navier-Stokes appuiera enfin la modélisation et l'optimisation de nouvelles formes de sources à fréquence de coupure basse comme les évents à profil de tuyère dont les caractéristiques géométriques favorisent la stabilité dynamique du fluide et ainsi l'obtention de taux de distorsion extrêmement faibles.

 

Etienne CORTEEL (IRCAM, Paris) (voir PPT)

Egalisation multicanal pour la reproduction holophonique, application à l'égalisation des tranducteurs et à la compensation de l'effet de salle de la pièce de restitution

 

La reproduction sonore holophonique permet la synthèse des propriétés physiques d'un champ sonore à l'aide du banc de haut parleurs (synthèse de front d'ondes correspondant à des sources virtuelles). Contrairement aux techniques classiques de reproduction sonores, basées sur une illusion perceptive valable uniquement au centre du dispositif (stéréophonie), la reproduction holophonique assure une synthèse d'un champ sonore correctement reproduit dans une large zone dépendant uniquement de la taille du réseau de haut parleurs utilisé.

L'égalisation d'un tel dispositif ou la compensation de l'effet de la salle de restitution doit donc être valable dans toute la zone de reproduction. Ceci nécessite de mettre en place des procédures permettant de décrire le champ sonore produit par le banc de haut parleurs dans une zone étendue. Cette description est utilisée afin d'optimiser la reproduction d'un champ sonore donné (reproduction d'une source virtuelle) par le calcul d'un jeu de filtres à appliquer à chacun des canaux du banc de haut parleurs lors de la restitution à l'aide de méthodes d'inversion multicanal. Cette "égalisation multicanale" est appliquée afin de prendre en compte les propriétés de rayonnement des transducteurs utilisés et/ou de compenser l'effet de la salle de restitution.

 

VENDREDI 24 OCTOBRE 9h30-12h30

SESSION 3 - ANALYSE ET SYNTHESE SONORE (prés. : Bertrand Delezoide)

Grégory Pallone (Post Doc INRIA, thèse LMA, Marseille) (voir PPT)

Tutoriel sur les méthodes de dilatation et de transposition

De nombreuses applications nécessitent la manipulation indépendante de la durée et de la fréquence d'un signal musical. Malheureusement, la transformation simple qui consiste à rééchantillonner le signal numérique affecte simultanément ces deux dimensions perceptives. Il est donc nécessaire d'appliquer une transformation différente, pour laquelle les défauts introduits doivent rester le plus inaudible possible.

De nombreuses méthodes ont ainsi été développées, permettant soit l'accélération ou le ralentissement des sons sans modification du timbre ni des formants, soit le changement de hauteur tonale sans modification du tempo. Je limiterai ici l'étude aux méthodes utilisant des représentations non-paramétriques du signal, les seules qui semblent être adaptées à la transformation d'un signal arbitraire. J'exposerai ainsi sous un formalisme commun, les méthodes temporelles, les méthodes fréquentielles et les méthodes temps-fréquence, en indiquant leurs avantages et inconvénients et en accompagnant l'exposé d'exemples sonores.

 

Irina Zhekova (LMA, Marseille) (voir PPT)

Analyse et synthèse des bruits de voiture

Les bruits dans une voiture ont des origines physiques complexes, avec trois contributions principales : le groupe moto-propulseur, le roulement et l'écoulement de l'air.

Afin de pouvoir mieux répondre aux exigences de confort acoustique dans l'habitacle, la compréhension de ces bruits, particulièrement ceux émis par la source majeure constituée du groupe moto-propulseur, est d'un très grand intérêt pour les constructeurs automobile.

Les objectifs de cette étude sont tout d'abord d'analyser les bruits du groupe moto-propulseur à l'aide de méthodes de type temps-fréquence pour détecter les différents phénomènes physiques dans un cycle moteur et les associer aux événements sonores. La décomposition du signal en fonctions élémentaires, localisées à la fois en temps et en fréquence va permettre ensuite de modéliser ces événements. Les méthodes de réallocation permettent quant à elles d'estimer les paramètres pour la synthèse granulaire. La synthèse en temps réel des bruits de moteur peut ainsi être utilisée en vue d'étudier l'influence des paramètres physiques du moteur sur le bruit engendré et la sensation qu'il procure.

 

Lorcan Mc Donagh (IRISA, Rennes) (voir PPT)

Modèle granulaire pour les signaux sonores

Notre but est d'apprendre un dictionnaire de vecteurs (ou 'grains') avec lequel on procèdera à une resynthèse approximative d'un signal d'analyse (supposé 'monophonique' dans un premier temps). Le modèle de synthèse utilise un vecteur de données (un grain, p.ex un élément d'une Table d'Ondes) auquel on fait subir une transformation paramètrique (changement d'amplitude, décalage temporel, filtrage ...) pour resynthétiser un fragment de signal.

Nous nous sommes inspiré des concepts de synthèse granulaire et des descriptions "SCORE + ORCHESTRA" (CSound, SAOL) pour mettre au point une méthode d'analyse/synthèse des signaux audio avec un dictionnaire adaptatif. Nous avons défini un cadre formel pour ensuite rechercher des solutions pratiques au problème de l'apprentissage du dictionnaire. Notre choix s'est porté sur une classification des trames du signal à l'aide d'une mesure de distance adaptée au modèle considéré.

Nous avons à cette occasion élaboré des algorithmes de classification qui, dans le contexte qui nous intéresse, se révèlent être plus performants que les algorithmes existants, auxquels nous les avons comparés. Nous présenterons les résultats obtenus sur une application courante: la compression de signaux audio avec pertes. D'autres applications sont à l'étude, comme la séparation de sources en aveugle, la segmentation automatique/ reconnaissance de notes, la resynthèse dans un contexte musical ...

 

Sylvain LESAGE (IRISA, Rennes) (voir PPS)

Représentations adaptatives pour la description et la séparation de signaux sonores

Dans l'analyse classique, un signal (vecteurs y successifs de taille N) est représenté sur la base canonique, ou sur une base classique (Fourier, Dirac, ...) commune à tous les signaux. Si on note B la base, et w le vecteur des coefficients, la représentation w de y est : y = B.w. Mais on peut tirer avantage de la représentation en adaptant la base, ou le dictionnaire D (contenant K>N vecteurs colonnes, ou atomes) à chaque signal en fonction de l'utilisation souhaitée. Ainsi, en optimisant un critère de parcimonie, on obtient une base sur laquelle la représentation est creuse, c'est-à-dire que beaucoup de coefficients sont nuls, et que chaque vecteur de signal est représenté par seulement quelques atomes.

Une représentation parcimonieuse est intéressante en compression, car il suffit de transmettre peu de coefficients pour décrire le signal, mais aussi pour d'autres t‚ches comme la séparation de sources, où des dictionnaires adaptés à chaque source permettent de reconstruire des sources estimées à partir d'un seul signal capté.

Dans le cas d'un dictionnaire redondant (ie de grande dimension), la représentation n'est pas unique. On introduit alors le critère de parcimonie dans le choix des coefficients.

Dans la présentation, après avoir établi le formalisme utilisé, nous exposerons des méthodes d'optimisation de la représentation pour un dictionnaire fixé, puis de construction d'un dictionnaire optimisé au sens de la parcimonie. Enfin nous présenterons la méthode de séparation de sources à base de dictionnaires adaptés.

 

Laurent Benaroya (IRISA, Rennes) (voir PPT)

Séparation de sources sonores avec un seul capteur

La séparation de sources sonores avec moins de capteurs que de sources est un problème difficile et un thème en vogue dans la communauté du traitement du signal. Nous nous intéressons dans cet exposé à la séparation de sources avec un seul capteur ou microphone, à partir de modèles statistiques des sources.

Notre approche se situe dans le cadre de l'estimation bayésienne et utilise une modélisation des sources sonores par modèles de mélange de gaussiennes à matrices de covariance diagonales dans le domaine fréquentiel. Dans une phase préliminaire, les paramètres des modèles de sources sont estimés sur des exemples de sources séparés. Pour la phase de séparation proprement dite, nous avons établi des formules pour l'estimateur de l'espérance conditionnelle, qui généralisent les formules du filtrage de Wiener au cas de DSP caractéristiques multiples pour chaque source sonore.

Enfin, nous présenterons des exemples sonores réels (standard de Jazz) sur lesquels nous avons testé l'algorithme de séparation de sources présenté ici et nous le comparerons avec le filtrage de Wiener classique.

 

Emmanuel Vincent (IRCAM, Paris) (voir PDF)

Modélisation des sons musicaux pour la séparation de sources

La séparation de sources audio (SSA) consiste à retrouver les sources sonores sous-jacentes à un mélange, soit en décrivant ces sources à l'aide de paramètres physiques (hauteur, volume, timbre, etc) soit en extrayant les signaux sources du mélange. Les applications vont de l'extraction et du débruitage des voix dans un "cocktail party" à l'indexation de bases de données sonores.

Lorsque le mélange est complexe (moins de canaux que de sources, mélange convolutif), les méthodes classiques de SSA basées sur des informations spatiales sont limitées par leur modèle trop général des sources. Dans ce travail, nous utilisons des modèles de sources musicales appris sur des bases de données pour améliorer la SSA.

Nous présentons un modèle de source musicale original combinant l'Analyse en Composantes Indépendantes (ACI) et les Modèles de Markov Cachés (MMC). Nous expliquons comment l'appliquer à la SSA et nous montrons quelques exemples de séparation de mélanges complexes et de mélanges monocapteur.

 

Thomas FILLON (ENST, Paris) (voir PDF)

Annulation d'écho acoustique dans les prothèses auditives

Le traitement du signal acoustique dans le cadre des prothèses auditives connait un essor très important gr‚ce à l'utilisation des techniques de traitements numériques qui offrent des possiblités demeurées longtemps inaccessibles. D'autres part, le contexte technologique est en constante évolution, au rythme des progrès de la miniaturisation des microprocesseurs et des transducteurs électro-acoustiques.

Ce travail a permi de vérifier l'efficacité des techniques numériques du signal notamment face aux problèmes d'annulation d'écho acoustique. En effet, la présence d'un chemin de retour acoustique entre l'écouteur et le microphone d'une prothèse induit la sensibilité de l'appareil à l'effet Larsen. La mise en place d'un algorithme d'annulation d'écho adaptatif de type LMS permet d'identifier le chemin d'écho et de réduire le signal réinjecté à l'entrée de l'appareil, au niveau du microphone.

L'emploi de techniques adaptatives dans ce contexte est très récent et prometteur. L'originalité de ce travail est de proposer un algorithme travaillant dans le domaine de la transformée de Hartley (transformée réelle proche de la transformée de Fourier) et qui décompose la réponse impulsionelle à identifier en plusieurs sous-blocs adjacents.

On améliore ainsi de manière significative le gain d'amplification du signal que la prothèse peut apporter afin de pallier le déficit auditif.

 

VENDREDI 24 OCTOBRE 14h-17h

SESSION 4 - AUDITION 2 (prés. : Jérémy Marozeau)

Gilles Malherbe (MXM, Vallauris & I3S, Sophia-Antipolis) (voir PPT)

Reconstruction acoustique et méthode d'évaluation de techniques de traitement de la parole pour implants cochléaires

L'évaluation de la chaine entière regroupant le traitement électronique (implant cochléaire) et le processus physiologique qui s'en suit peut être réalisée efficacement à partir d'un modèle auditif inverse. L'avantage d'une telle méthode réside dans l'appréciation de la qualité du traitement de la parole de l'implant sans faire intervenir de patients implantés. Cette étude présente donc une technique de reconstruction acoustique inverse à partir des informations de stimulation de l'implant ainsi qu'une méthode d'évaluation sur patients entendants et implantés.

 

Isabelle Boullet (LMA, Marseille) (voir PPT)

Etude comparative de 4 méthodes de mesure de la sonie pour des sons stationnaires, des sons impulsionnels et des trains d'impulsions

Le but de cette expérimentation était de déterminer la méthode de mesure de la sonie la mieux appropriée en fonction du type de son (son stationnaire, son impulsionnel, son constitué de plusieurs impulsions) et de la précision désirée. En effet, il semblait important de valider les méthodes de mesure de la sonie afin d'avoir une référence fiable autour de laquelle construire un estimateur de sonie pour des sons impulsionnels, objectif de la thèse. On voulait aussi connaÓtre les avantages et les inconvénients de chaque méthode en fonction de chaque type de sons. Quatre types de tests ont alors été mis en place pour mesurer la sonie. Le premier test était une estimation directe de la sonie, le second une méthode dégalisation, le troisième une méthode adaptative (2 down 1 up et 1 down 2up), et enfin la quatrième méthode testée était un tracking multiple. Je décrirai donc tout d'abord les stimuli ainsi que chaque type de test. Je présenterai ensuite les avantages et inconvénients de chaque méthode sachant que nous avons retenu, pour la suite des tests de mesure de la sonie, la méthode dégalisation pour son rapport précision/durée.

 

Gaëtan Gilbert (Université Claude Bernard, Lyon) (voir PPT)

Nouvelle approche pour la mesure par une méthode corrélationnelle des fonctions d'importance pour la compréhension de la parole

L'objectif du présent travail de recherche est de proposer une nouvelle approche pour déterminer les fonctions d'importance fréquentielles pour la compréhension de la parole. Cette approche est inspirée d'un travail précèdent [K. Doherty et C. Turner, J. Acoust. Soc. Am. 100, 3769-3773 (1996)], qui démontre qu'il est possible de déterminer de telles fonctions d'importance sur la base d'une méthode corrélationnelle [V. Richards et S. Zhu, J. Acoust. Soc. Am. 95, 423-434 (1994); R. Lutfi, J. Acoust. Soc. Am. 97, 1333-1334 (1995)].

La méthode corrélationnelle appliquée aux signaux de parole consiste classiquement à injecter un bruit d'intensité variable au sein de chaque bande spectrale et à recueillir les scores d'identification des sujets. Le niveau du bruit est fixé à partir d'un rapport signal/bruit (RSB) déterminé aléatoirement dans chaque bande. La corrélation entre les RSB imposés dans une bande spectrale et le score d'identification reflète l'importance qu'affecte le sujet aux informations fournies par la bande. Le RSB, dans l'application traditionnelle de la méthode corrélationnelle, constitue ce qu'on appelle une variable de décision.

L'originalité de ce travail repose sur l'utilisation de variables de décision plus précises que le RSB. En effet, des variables de décision dÓtes ´†perceptives†ª, parce qu'elles proviennent de la simulation du traitement du système auditif périphérique (simulation des patterns d'excitations), sont utilisées dans cette étude.

Les données d'une étude précédente, dans laquelle 15 auditeurs devaient identifier des signaux de parole après qu'ils aient été dégradés par adjonction de bruit indépendamment dans 5 bandes de fréquence [Gilbert et Micheyl, soumis], ont été utilisés pour valider cette nouvelle approche.

Les résultats indiquent†: 1) l'utilisation des variables de décision ´†perceptives†ª augmente légèrement la précision des corrélations. 2) l'allure des fonctions d'importance est substantiellement différente selon le type de variable de décision considérée. Avec l'utilisation des variables de décision ´†perceptives†ª alors qu'on observe une émergence des poids sur la seconde et cinquième bande (respectivement 250-750 et 3750-7750 Hz), le poids sur la première bande s'effondre (100-250 Hz).

 

Thibaut Ehrette (France Télécom R&D) (voir PPT)

Prédiction de portraits perceptifs par sélection de paramètres physiques.

La perception de l'identité vocale est d'une grande importance pour la conception de services telecoms dans lesquels la voix est majoritairement utilisée. Ce travail presente un outil permettant de definir automatiquement le portrait vocal d'une voix grace a l'analyse acoustique de son signal. Dans un permier temps, un vingtaine de critères subjectifs a été identifiée par la conduite d'expériencesperceptives auprès de sujets naifs. Toutes les sequences vocales à disposition (100 voix de femmes, 50 voix d'hommes) ont été ensuite jugées sur une echelle graduée de 1 a 7 sur chacun des vingt critères. Dans un second temps, les séquences ont été analysées selon plus de 200 paramètres acoustiques représentant la prosodie, la distribution spectrale de l'énergie, l'articulation et la forme d'onde.

Pour construire les modèles de prédiction, on utilise une méthode simple de régression linéaire sur la base d'une sélection de paramètres acoustiques. Les résultats montrent que l'erreur de prédiction est tres inférieure a la variance des sujets.

 

Olivier Houix (Ircam, Paris) (voir PPT)

Catégorisation auditive des sources sonores

La plupart des travaux sur l'audition se focalisent sur les dimensions perceptives des sons telles que la sonie, la hauteur, le timbre ..., ou sur les processus de base qui traitent le signal sonore codé dans le nerf auditif, mais indépendamment des sources qui produisent ces sons.

Dans cette étude, nous orientons l'étude de ces dimensions perceptives vers la description des sources sonores, ici des barres de métal frappées, en termes de propriétés audibles. Ces propriétés audibles spécifient les caractéristiques physiques des sources telles que la géométrie, le matériau, le type d'interaction avec d'autres objets. C'est sur la perception de la géométrie d'une famille de sources sonores simples que nos travaux se sont focalisés.

Deux séries d'expériences ont été effectuées. Une première série a mis en jeu la classification de sons de barres de métal excitées en différents points. Notre but était de savoir si les auditeurs arrivent à extraire des invariants perceptifs propres à chaque barre, spécifiant leurs propriétés géométriques. Une deuxième série d'expériences a utilisé un paradigme d'appariement intermodal entre la représentation visuelle de paires de sources sonores (la section de 2 barres de métal présentées graphiquement) et le son produit par celles-ci. Grâce à l'utilisation de sons de synthèse, nous avons cherché à tester dans cette seconde partie, quelles informations acoustiques liées aux modes de vibration permettent de spécifier la perception de la géométrie des barres.

Les résultats de la première série d'expériences suggèrent que les auditeurs utilisent les hauteurs spectrales proéminentes liées aux modes vibratoires d'une dimension géométrique privilégiée (largeur ou épaisseur de la barre) afin de comparer et classifier ces sons. Il n'apparaît pas que les auditeurs utilisent l'information acoustique brute afin d'extraire des invariants perceptifs propres à une barre, bien que ces informations soient présentes et pourraient être utilisées à cette fin. La seconde série d'expériences montre que les auditeurs mettent en place des stratégies perceptives afin d'associer un son avec sa représentation visuelle. Il n'existe pas une association directe entre les sons et la perception de leurs formes géométriques.

Ces résultats n'étayent pas l'hypothèse selon laquelle il existe une perception directe des propriétés géométriques de ces sources. Les auditeurs élaborent des stratégies perceptives et décisionnelles afin de juger les dimensions des sources sonores plutôt que de saisir les invariants perceptifs spécifiant les sources.

 

Julien TARDIEU (Ircam, Paris) (voir PPT)

Design de l'ambiance sonore dans les gares.

Lorsque l'on pénètre dans une gare, on peut être frappé par la quantité et la diversité des sons que l'on peut entendre. Certains de ces sons facilitent notre usage du lieu comme les annonces qui sont porteuses d'informations alors que d'autres peuvent nuire à notre usage, comme le bruit des trains qui peut masquer les annonces. La question soulevée ici est comment faire en sorte que tous ces sons soient en accord avec les activités de chacun, et de manière plus globale comment faire en sorte que l'ambiance sonore participe à un meilleur fonctionnement de la gare.

La démarche que nous avons choisie d'aborder est celle du design sonore, c'est-à-dire une démarche en amont du projet de réalisation. Nous allons montrer, en nous appuyant sur la bibliographie (Murray Schafer, Bernard Delage, Ute Jekosh, etc.), que le design sonore a pour objectif d'améliorer la fonction d'un objet tout en jouant sur sa qualité sonore d'une part et sur son identité sonore d'autre part. Or une gare est composée de plusieurs espaces qui ont chacun des fonctions bien distinctes†: espaces de transit, espaces de vente de la SNCF, espaces d'attente ou bien encore espaces commerciaux.

La qualité sonore des espaces a fait l'objet de plusieurs études à la SNCF qui ont montré que l'intelligibilité des annonces est le principal critère de qualité sonore. Cette intelligibilité est fortement dépendante du niveau de bruit ambiant et de la qualité de la sonorisation. Des solutions techniques ont donc été proposées.

L'identité sonore des espaces fait l'objet d'une étude en cours. L'objectif de cette étape est de déterminer quels sont les indices sonores qui permettent aux personnes d'identifier dans quel type d'espace ils sont. Plusieurs gares vont donc êtres enregistrées (prises de son au format ambisonique) et une expérience de type psychoacoustique sera organisée.

L'objectif final de la thèse est de proposer des solutions de design sonore qui pourront être intégrées dans la construction d'une nouvelle gare. Ces solutions seront de plusieurs types†: architectural, signalétique sonore, ou bien design des sources sonores.

 

Vincent Koehl (INSA, Lyon) (voir PPT)

Qualité sonore des machines électriques

L'objectif de cette étude est de savoir s'il est possible d'utiliser la méthode des plans d'expérience pour évaluer l'influence sur la perception de paramètres dispersifs d'une machine électrique. Six paramètres, chacun d'eux prenant trois niveaux, sont sélectionnés; ces paramètres sont mécaniques (alignements angulaires des axes de rotation, équilibrage dynamique de ces axes, entraxe d'engrenages, etc). L'objet du test est l'évaluation de la similarité de chaque son par rapport à un son de référence. Un premier plan d'expérience a permis de dégager les facteurs les plus importants et de mettre en évidence des interactions, qui sont quantifiées par un second plan d'expérience. Il est alors possible de construire un modèle fiable de la similarité de chaque bruit avec le son de référence, ce qui montre que les plans d'expérience ont permis de bien mesurer les effets de chaque paramètre dispersif.

 

Jérémie BROCARD (INSA, Lyon) (voir PPT)

Qualité sonore des aspirateurs

Dans le cas de l'aspirateur il important de conserver l'information subjective liée à l'impression de puissance, tout en minimisant l'inconfort dû à d'autres critères dont le niveau sonore global.

L'objectif de cette étude perceptive est de déterminer comment l'auditeur juge de ces deux points : la puissance-efficacité et l'inconfort.

Une première série de test perceptif a montré que chaque modèle d'aspirateur possède un timbre qui lui est propre, et que la position du mannequin acoustique lors de l'enregistrement des sons influait peu sur sa signature sonore. Nous avons donc pu fixer celle ci pour l'enregistrement des différents modèles.

Au cours d'une deuxième série de test le sujet est invité à évaluer 8 sons différents sur une échelle absolue. Il leur est demandé de juger de l'agrément et de l'impression d'efficacité (L'aspirateur permet il de nettoyer la surface sur laquelle le suceur est posé) . Ces deux parties sont présentées dans un ordre alterné pour chacun des 61 sujets.

Nous avons notamment pu mettre en évidence un effet d'ordre de présentation des questions dans la stratégie adoptée par le candidat pour juger de l'efficacité de l'aspirateur.

 

SAMEDI 25 OCTOBRE 9h30-12h30

SESSION 5 - MUSIC INFORMATION RETRIEVAL, CONTROLE GESTUEL (prés. : Emmanuel Vincent)

Miguel ALONSO (ENST, Paris) (voir PDF)

Application des méthodes haute résolution à l'estimation du tempo musical

L'estimation automatique du rythme dans un signal de musique est un domaine de recherche en plein essor depuis quelques années.

L'un des aspects les plus importants dans la perception du rythme est la notion de battement, caractérisée par une personne qui claque des doigts pour accompagner la musique. Il existe de nombreuses applications nécessitant l'estimation du tempo, parmi lesquelles l'analyse automatique de contenu musical, l'accompagnement automatique d'un soliste par un ordinateur, l'alignement rythmique de plusieurs instruments, les effets speciaux, etc. Dans ce travail, nous proposons une nouvelle méthode d'estimation du tempo. Le signal est d'abord décomposé en sous-bandes. Ensuite, l'originalité de notre approche repose sur l'utilisation de méthodes à haute résolution qui permettent de décomposer aisément chaque signal de sous-bande en une partie déterministe, contenant les sons harmoniques, et une partie stochastique, contenant le signal résiduel. L'estimation du tempo proprement dite est ensuite effectuée sur la partie stochastique. Cette approche nous permet d'atteindre un taux de reconnaissance de 96% sur une base de 55 enregistrements, à comparer aux 76 % atteints par la méthode classique de Scheirer sur cette même base.

 

Slim ESSID (ENST, Paris) (voir PPT)

Etude de paramètres pour la reconnaissance automatique des instruments de musique

L'indexation automatique d'un signal audio consiste à extraire du signal une représentation symbolique. Dans le cas d'un signal musical, cette représentation est matérialisée soit par la partition musicale soit par l'obtention de descripteurs hauts-niveau tels que la mélodie, le tempo, le nombre d'instruments en présence, le style de musique jouée, etc... L'identification, ou la reconnaissance, automatique des instruments de musique à partir du signal musical apparaÓt ainsi comme un des points clés de l'indexation automatique. La plupart des travaux en reconnaissance instrumentale suivent d'assez près les méthodologies utilisées en reconnaissance vocale. Cependant, le domaine de la reconnaissance des instruments de musique est moins bien connu et n'est pas parvenu par exemple à une paramétrisation consensuelle du signal acoustique qui permette d'obtenir de forts taux de reconnaissance. Dans le cadre d'un système basé sur une modélisation statistique par mélange de Gaussiennes (GMM), nous proposons une étude de différentes paramétrisations construites autour de la représentation cepstrale. Les résultats obtenus pour une douzaine d'instruments de musique sur des bases de données publiques (Iowa, Ircam Studio on Line, Mc Gill) seront discutés et repositionnés par rapport à l'état de l'art.

 

Aymeric ZILS (Sony CSL, Paris) (voir PPT)

Extraction Automatique de Descripteurs Musicaux de Haut-Niveau à partir de Signaux Acoustiques

Les descripteurs musicaux de haut-niveau sont les clés des nouveaux systèmes de recherche de musique. La longue tradition de l'extraction d'information musicale à partir du signal audio a montré que ce champ est par nature extrêmement heuristique. Nous présentons un système complet, appelé EDS (Extractor Discovery System), permettant de construire automatiquement des extracteurs de descripteurs musicaux de haut-niveau à partir du signal audio brut.

Ce système utilise une approche générique basée sur l'utilisation d'heuristiques dans le cadre d'un algorithme génétique, qui permet dans une première étape d'extraire des paramètres (features) pertinents liés à un problème donné de description musicale, sous formes de fonctions combinant des opérateurs mathématiques et de traitement du signal. Les heuristiques utilisées sont la transcription d'un savoir empirique concernant l'utilisation et la combinaison de ces fonctions de traitement du signal.

Des règles de réécriture sont également introduites pour simplifier les expressions et éviter les redondances, et un système de cache permet d'optimiser les temps de calcul. Une deuxième étape permet de synthétiser automatiquement des extracteurs optimaux des descripteurs considérés à partir des meilleurs paramètres sélectionnés par l'algorithme génétique, en utilisant différentes méthodes d'apprentissage.

Nous présenterons une description du système global, ainsi qu'une comparaison de ses performances à celles d'approches utilisant des paramètres de l'état de l'art de la description musicale (du type Mpeg7).

 

Jean-Julien AUCOUTURIER (Sony CSL, Paris) (voir PPT)

Modélisation du timbre de morceaux de musique polyphoniques, et application pour la recherche de musique en ligne

La distribution de musique en ligne (voir le récent service iTunes de Apple) est basée sur l'idée d'une description automatique de la musique pour pouvoir l'indexer. Au delà du nom du morceau, de son genre, un des attributs les plus naturels pour décrire la musique est l'appréciation holistique du "son" global d'un morceau. ("Les Beatles, Áa sonne un peu comme les Rolling-Stones, mais pas comme Mozart"). Or, ce "timbre global" se situe dans un double no man's land. Celui de la musicologie classique tout d'abord, qui ne nous apporte pas d'ontologie utilisable pour étudier la perception des instruments (un clavecin sonne-t-il plus proche d'une épinette ou d'une guitare ? et quid de textures polyphoniques plus complexes ?). Celui de l'étude du signal musical ensuite. La plupart des études jusqu'à présent ont portés sur des échantillons d'instruments isolés. Leurs conclusions, qui sont primordiales pour des domaines comme la synthèse sonore, ne sont plus valables dés que l'on considère des signaux polyphoniques. Nous présentons une approche capable de capturer le "son" global d'un signal, basée sur la modélisation statistique des distributions d'enveloppes spectrales. Nous proposons ensuite une mesure de similarité timbrale avec laquelle nous construisons un "Napster intelligent" à qui on peut dire "j'aime ce morceau, trouve moi tous les morceaux qui sonnent pareil". Nous discuterons des résultats, encourageants, et proposerons plusieurs directions pour la suite de l'étude.

 

Kasper SOUREN (IRCAM, Paris) (voir PDF)

Finding Structure in Musical Pieces (using Python)

My PhD thesis is about the finding of structure in musical pieces. The goal is to create methods that can recognize repetition, transformations and discontinuities on a micro and macro-temporal scale. Larger scale similarity and discontinuities are derived using processing techniques based on the similarity matrix presentation of the principal components of the power spectrum of the power spectrum.

FfAA, a Framework for Audio Analysis, is based on Python and other free software (like Numeric Python, SciPy, PyClimate, PyQt). It is a free, expandable and embeddable framework. An unorthodox methods under investigation is the continuation of the results from the structural information theory, in particular by the modification of a genetic algorithm previously used to find structure in linear line patterns.

 

Bertrand Delezoide (IRCAM, Paris) (voir PPT)

Apprentissage des descricipteurs optimaux pour la classification audio

De nos jours, une quantité importante d'information audio est disponible par le biais de bases de données publiques ou privées et par la radio ou la télévision. C'est pourquoi, les recherches en indexation audio ont pour but de fournir des outils (semi-)automatiques pour la description du contenu audio. Cette description implique la classification du signal audio en plusieurs types (ou classes) prédéfinies, l'indéxation et la production de résumé permettant une lecture accéléré du document.

Cet article propose un système optimal pour la discrimination du signal audio en une taxonomie spécifique et simple: parole, musique et le mélange de ces deux types. Plusieurs techniques existantes de description du signal, de modélisation de classes et de clasification ont été étudiées et implémentées. La contribution de cet article comprend des tests sur ces techniques la combinaison de celles-ci afin de former un système complet d'indexation audio. Des tests sur une grande variété de séquences sonores prouvent l'efficacité de ce syst`me.

 

Loic Kessous (LMA, Marseille) (voir PPT)

Instruments de musique électroniques alternatifs et bi-manualité

Depuis les prémices de l'évolution humaine les mains de l'homme ont toujours été pour lui des outils d'expression privilégiés, que ce soit pour sa survie, la communication ou la création artistique. Nous présentons ici des travaux traitant du contrÙle bi-manuel appliqué à la synthèse sonore. cette étude prend en compte les capacités de coordination, de coopération et l'habileté de nos mains dans le contexte musical. Nous décrivons des exemples d'instruments réalisés utilisant de la synthèse soustractive, de la synthèse par balayage de table d'onde dynamique ainsi que des synthétiseurs logiciels commerciaux par le protocole de communication MIDI. Les périphériques qui ont été utilisés sont soit des périphériques détournés de leurs usages habituels en l'occurrence des tablettes graphiques et des joysticks soit des gants équipés de capteurs de mesure de force, de flexion et d'orientation. Ces instruments ont été conÁus en accord avec un modèle en trois couches, de mise en correspondance entre données issues de contrÙleurs gestuels et paramètres de synthèse sonore. Ce modèle permet au concepteur de l'instrument de considérer d'une part les choix, de mise en correspondance, relatifs aux règles qui régissent le système moteur humain, d'autre part les choix relatifs à l'expressivité désirée de l'instrument, et pour finir ceux qui sont relatifs au modèle de synthèse sonore utilisé. Il permet une conception modulaire d'instrument pouvant ainsi offrir à un musicien qui ne soit ni programmeur ni électronicien la possibilité de réaliser un instrument adapté à ces besoins musicaux. Ces instruments ont également été utilisés en situation de concert et des considérations scéniques sont également discutées.

 

Jean-Michel Couturier (LMA, Marseille) (voir PPT)

Utilisation d'une interface tactile multi-points pour l'interpolation 2D entre paramètres de synthèse

L'interpolation 2D, développée notamment pour le système Syter du GRM, permet de contrÙler un grand nombre de paramètres de synthèse de toutes sortes à partir d'un jeu réduit de valeurs. L'utilisateur déplace un point dans un plan où sont représentés des cercles correspondant à des configurations particulières de paramètres ; l'interpolateur calcule la valeur des paramètres en fonction des distances entre le point et les cercles et des rayons des cercles. Cet interpolateur a néanmoins des limites, notamment le fait que passer continûment d'une configuration de paramètres à une autre dépend de la position des cercles dans le plan.

Nous présenterons ici un interpolateur augmenté pour Max/MSP, contrÙlé par une surface tactile multi-points (captant la position et la pression de 5 doigts). Ce Système permet de naviguer dans le plan d'interpolation en y déplaÁant plusieurs points simultanément . Le système effectue une interpolation 2D classique pour chaque point ; les résultats de ces interpolations sont ensuite pondérés par les poids (pressions des doigts sur le capteur) de chaque point. Cet interpolateur conserve les avantages du premier et permet en plus de passer continûment d'une configuration particulière à une autre indépendamment de la disposition des cercles dans le plan. Comme exemple d'application, nous présenterons l'utilisation de notre système pour la navigation dans un plan de voyelles, intégré à un instrument numérique (le Voicer) et montrerons le gain d'expressivité obtenu par rapport à une interpolation classique.

 

 

SAMEDI 25 OCTOBRE 14h-17h

SESSION 6 - ACOUSTIQUE INSTRUMENTALE (prés. : Guillaume Pellerin)

André ALMEIDA (IRCAM, Paris) (voir PPT)

Etude des écoulements dans les instruments à anche double

Les principes de fonctionnement des instruments à anche sont biens connus et ils produisent des synthèses de bonne qualité pour les cas d¥instruments à anche simple comme la clarinette. Les instruments à anche double présentent néanmoins des caractéristiques particulières qui les rendent plus compliqués à modéliser. Entre autres hypothèses, l'écoulement dans les anches doubles et dans le conduit en aval, semble être un facteur capable de produire des comportements qualitativement différents des autres instruments à anche.

Dans cette présentation je montrerai comment la géométrie particulière des anches simples peut induire un nouveau comportement de l'anche et de l'instrument. Je montrerai aussi des expériences qui indiquent qu'une telle hypothèse pour l'écoulement peut être valide pour un instrument réel.

 

Vincent DEBUT (LAM, Marseille) (voir PPT)

Formulation modale des auto-oscillations pour les intruments de type clarinette

L'etude du fonctionnement des instruments a vent a anche comme la clarinette passe par l'analyse des auto-oscillations du systeme anche/resonateur. Dans ce travail, nous nous interessons tout pariculierement a l'evolution au cours du temps du spectre du signal de pression a l'interieur de l'instrument. Partant du modele classique de l'instrument, on decompose le champ de pression sur les modes lineaires du tuyau ce qui nous permet d'aboutir a une mise en equation du probleme originale. Une premiere etude est la reduction a un mode qui reduit le probleme a une equation de type Van der Pol et dont la solution en echelles multiples est recherchee. Ensuite, afin de mettre en evidence et de comprendre le couplage non-lineaire, nous considererons le cas pour lequel 2 modes sont excites et presenterons les resultats obtenus.

 

Claudia FRITZ (IRCAM, Paris) (voir PPT)

Influence du conduit vocal sur la clarinette

Plusieurs études qualitatives (Mooney, Benade, Hoekje) confirment l'opinion des clarinettistes en ce qui concerne l'influence du conduit vocal sur le timbre et la hauteur du son. Johnston, Troup et Clinch modélisent le conduit vocal par un résonateur à un pic, qui, s'il est accordé au fondamental de la clarinette, fo, donne une fréquence de jeu fo. Mais ce résultat dépend en réalité d'un choix particulier d'impédance du conduit vocal, réelle pour tous les harmoniques de fo. En général, la fréquence de jeu est déplacée.

Nous présenterons tout d'abord un modèle physique de la clarinette tenant compte du conduit vocal. Le flux et la différence de pression au niveau de l'anche sont liés par l'équation usuelle de Bernoulli dans le domaine temporel et dans le domaine fréquentiel, les impédances du conduit vocal et de la clarinette sont en série. Une méthode de mesure de l'impédance du conduit respiratoire de clarinettistes en situation de mime sera ensuite détaillée. Les mesures seront présentées et utilisées pour résoudre les équations afin d'expliciter le déplacement de la fréquence de jeu.

Nous suggérons que l'accord du conduit vocal à fo est rare et non nécessaire.

 

Emilie POIRSON (IRCCyN, Nantes) (voir PPT)

Differentiation de sons de trompette. Etude experimentale avec une embouchure à volume variable.

L'étude de la qualité des instruments de musique est particulièrement intéressante mais très complexe. En effet, elle oblige à prendre en compte deux type de variables : d'un cÙté des variables objectives, caractéristiques mesurables de l'instrument et de l'autre subjectives, qui dépendent du jugement du musicien. Notre objectif est de trouver une relation entre ces variables. Le problème est de pouvoir isoler un des critères physiques pour observer son influence sur la perception des auditeurs.

Pour cela, une embouchure spéciale a été développée, dont le volume varie facilement et continuellement de relevé à profond. Avec cette embouchure et la même trompette, nous avons pu enregistrer des collections de sons, suivant deux méthodes : la bouche artificielle et le musicien.

Grâce à ces sons, nous avons pu réaliser plusieurs séries de tests perceptifs pour étudier la sensibilité de la réponse subjective à la variation de géométrie. Par ces expériences, nous vérifierons également si pour un panel de sujets donné, la réponse subjective évolue dans le même sens pour le musicien et pour la bouche artificielle.

 

Florence DEMIRDJIAN (LAM, Marseille) (voir PPT)

Analyse auditive comparative de sons de plaques d'épaisseurs constantes et variables

Cette recherche est composée d'une combinaison d'études psychoacoustiques et vibroacoustiques. Au cours de cette étude, nous avons tenté de répondre à la question suivante : un son de plaque d'épaisseur variable peut-il être similaire à un son de plaque d'épaisseur constante ? Pour cela, nous avons synthétisé des sons de plaques. Notre but était de savoir si on peut simplifier un modèle de plaque complexe par un autre, plus simple, équivalent, tout en conservant la qualité de la simulation. Les sons ont été soumis à des tests auditifs au cours desquels les sujets devaient évaluer le degré de similarité entre un même son de plaque d'épaisseur variable et plusieurs sons de plaques d'épaisseurs constantes. La hauteur tonale a été le critère perceptif utilisé par les sujets. D'un point de vue physique, ce critère est déterminé par la concordance des fréquences propres des deux types de plaques.