Rapport de stage du DEA ATIAM
effectué au printemps 2000
au sein de l ’équipe de Perception et Cognition Musicales de l ’IRCAM

Les interactions entre le timbre
et la fréquence fondamentale
des sons musicaux

Écrit par Jeremy Marozeau
étudiant de l’université de Paris VI
dirigé par Alain de Cheveigné et Stephen McAdams

Rendu le 6 juillet 2000

 

I) Introduction
II) Expériences
III ) Résultat
IV) Discussion
V) Conclusion
VI) Bibliographie
VII) Webographie

 

 

I) Introduction

Menu


Ce rapport décrit le travail effectué lors de mon stage au sein de l’équipe de Perception et Cognition Musicales de l'IRCAM, encadré par Alain de Cheveigné et Stephen McAdams. Ce stage avait pour but de mieux comprendre les interactions perceptives entre timbre et hauteur, et la dépendance du timbre sur la fréquence fondamentale des sons musicaux. Le sujet commence par résumer la problématique :


"Le timbre est une dimension perceptive qui est par définition orthogonale à celle de hauteur tonale. Pour des sons à structure harmonique, la hauteur dépend de la fréquence fondamentale (F0) alors que le timbre dépend surtout de la forme de l'enveloppe spectro-temporelle (forme du spectre et son évolution au cours du temps). En première approximation, ces facteurs, et les dimensions perceptives qui leur correspondent peuvent être manipulés de façon indépendantes. En deuxième approximation, on constate des interactions.
Il est par exemple difficile de situer dans un espace de timbre des sons qui diffèrent trop par leur F0, car la dimension hauteur prend une importance démesurée. On sait cependant que certaines classes de sons(par exemple les voyelles) ont une unité de timbre qui résiste à de grandes variations de F0. On connaît assez mal les mécanismes perceptifs qui sous-tendent cette invariance.
"


Puis il propose des expériences :


"Un point de départ pour étudier ces interactions peut consister à répliquer des expériences de caractérisation du timbre, réalisées dans notre laboratoire et ailleurs, en introduisant de façon contrôlée la dimension F0 dans la définition des stimulis. Par exemple pour la mesure de dissemblance de timbre, les comparaisons se feront entre paires de stimulis de F0 différentes (plutôt qu'identiques). On regardera alors les différences entre les espaces de timbre obtenus pour différentes valeurs de cette différence de F0."


Le travail s'est déroulé en quatre temps:
- Etude bibliographique sur le timbre musical.
- Analyse acoustique de différents instruments, et étude du comportement de certains de leurs attributs physiques ( centroïde spectral, attaque) en fonction de la fréquence fondamentale.
- Expériences psychoacoustiques de "ressemblance-dissemblance" entre des sons musicaux naturels, en faisant intervenir (prudemment) le paramètre fréquence fondamentale.
- Analyse des résultats et confrontation avec les analyses acoustiques.


Le Dictionnaire du Grand Robert (version électronique, 1993) accompagne l'article Timbre de la citation suivante:


"Timbre. Qualité spécifique du son, qui nous permet indépendamment de la hauteur, de l'intensité, de la durée, de distinguer par exemple une note de flûte d'une note de clairon, un a d'un o, un e ouvert d'un e fermé, etc. Les nuances de timbre des voyelles sont fonction des modifications subies par le résonateur que constitue l'appareil vocal, en particulier du point d'articulation et du degré d'aperture.
J. MAROUZEAU, [sic] Lexique de la terminologie linguistique, Timbre"


Cette définition couvre l'usage linguistique plutôt que musical du terme, mais elle souligne l'idée que le timbre est une qualité indépendante de la hauteur d'un son. Cette idée est à la base de la définition du timbre par l'American National Standards Institute (ANSI), qui fait actuellement office de référence :


"Timbre is that attribute of auditory perception in terms of which a subject can judge that two sounds similarly presented and having the same loudness and pitch are dissimilar".


Cette définition est accompagnée d'une note:


" Timbre depends primarily upon the spectrum of the stimulus, but it also depends upon the waveform, the sound pressure, the frequency location of the spectrum, and the temporal characteristics of the stimulus".


qui souligne que le timbre dépend des caractéristiques physiques du son, mais sans expliquer lesquelles (Hajda et al. 1996). En particulier elle ne permet pas de distinguer les corrélats physiques du timbre de ceux qui déterminent la hauteur ou la sonie.
Seashore (1938/1967), cité par Hajda (96) définit le timbre ainsi :

"The characteristic of a tone which depends upon harmonic structure as modified by absolute pitch and total intensity".


Cette définition ne peut s'appliquer qu'aux seuls sons périodiques. La structure harmonique détermine aussi, comme on le sait, la hauteur, et cette définition ne dit pas comment reconnaître quels aspects de cette structure déterminent le timbre.
Helmholtz fut l'un des premiers à s’intéresser aux rapports entre les caractéristiques physiques de sons musicaux et leurs qualités perceptives. En 1850, il a analysé grâce à ses fameux résonateurs le contenu spectral de la partie entretenue des sons, et a donné le nom de "timbre musical" à la qualité correspondante. Il a aussi mentionné à plusieurs reprises l'importance du début et de la fin des sons, mais n'ayant pas de moyens pour les analyser, il ne les a pas étudiés (cité par Castellengo, 1994). Il faut attendre les années 1940 pour que les premières méthodes électroniques d’analyse spectrale apparaissent et permettent une étude plus approfondie des paramètres physiques qui déterminent le timbre.

Parmi les études récentes sur le timbre, il est possible de distinguer deux classes principales :
- Les études sémantiques, qui tentent de classifier un son par des qualificatifs appropriés (Von Bismarck, 1974a)
- Les études psychophysiques, en particulier les études d'analyse multidimensionnelle, qui mesurent la proximité perceptive des sons et tentent de les placer dans un espace approprié selon leur degré de similarité.
Nous ne parlerons que de la deuxième classe, à laquelle se rattache notre étude.


Les études de similarité


Les premières études ont été faites par Plomp(1970), Wedin et Goude (1972) et Wessel (1973). Plomp a utilisé des sons de synthèse continus, créés d'après la partie entretenue de 9 sons naturels d'instruments de musique: 3 cuivres, 3 bois et 3 instruments à cordes. Les sons étaient joués à la même hauteur tonale, 349 Hz (env Fa 4), avec la même durée et la même sonie. Il a demandé à ses sujets d'évaluer la distance de entre les sons sur une échelle de ressemblance/dissemblance. A partir des réponses et avec l'aide de méthodes statistiques, il est arrivé à représenter tous les instruments dans un espace à deux dimensions. Les instruments proches "métriquement" dans cet espace représentaient des timbres proches perceptivement. Cette expérience ne manipulait qu'une partie des caractéristiques physiques pouvant affecter le timbre : l'enveloppe spectrale de la partie entretenue. L'enveloppe temporelle (en particulier l'attaque) n'était pas prise en compte.

Wessel (1973, cité par Hajda et al., 1996), refit ces expériences en gardant les mêmes types d'instruments, mais en prenant les sons dans leur intégralité. Il arriva à démontrer une corrélation entre les deux dimensions perceptives trouvées et deux attributs physiques :
- Les caractéristiques des composantes harmoniques en hautes et basses fréquences durant les transitoires
- le centre de gravité spectral, correspondant à la dimension perceptive de "brillance".
Grey (1977) a effectué une large série d'expériences sur le timbre, qui fait encore référence aujourd'hui. Il a synthétisé 16 sons brefs (environ 0,3 s), joués à une fréquence de 311 Hz (mi bémol 3). Des jugements de dissimilarité, il a déduit une représentation à trois dimensions perceptives, qu'il a tenté de faire correspondre à des caractéristiques physiques.
La première dimension correspondait à la brillance, déjà évoquée par Wessel. Cette dimension distingue par exemple la trompette du hautbois. La seconde dimension distinguait par exemple les instruments à cordes des cuivres, et dépendait apparemment de la synchronisation relative des harmoniques élevés dans les transitoires d'attaque. La troisième dimension distinguait les cuivres, le basson, et le cor, de la clarinette, des cordes, de la flûte et du saxophone. Elle était corrélée plus ou moins bien avec la présence d'énergie de fréquence haute et amplitude faible dans les transitoires d'attaque.


L'étude de Grey a mis en avant une représentation tridimensionnelle du timbre, et a ouvert la porte à de nombreuses autres études. Elle fait référence, mais à l'écoute des stimuli utilisés, on remarque qu'ils sont extrêmement courts et d'assez mauvaise qualité. Il est donc préférable de se baser sur des expériences plus récentes.
Krumhansl (1989) a effectué des mesures de dissemblance avec 21 sons de timbre différent, synthétisés sur un Yamaha TX802 FM Tone Generator, développés par Wessel Bristom et Settel (1987). Quatorze de ces stimuli etaient des imitations de sons naturels ayant la même hauteur, sonie et durée que les sons de Grey (311 Hz, mezzoforte, 300 mseconde)



Figure 1: L’espace de Krumhansl(1989) BSN = basson; CAN = cor anglais; CNT = clarinette; GTR = guitare; GTN = guitarnet ( un instrument hybride GTR/CNT); HCD = clavecin; HRN = cor; HRP = harp; OBO = hautbois; OBC = obocord (OBO/HCD); OLS = oboleste (OBO/celeste); PNO = piano; STG = string; SNO = striano (STG/PNO); POB = bowed Piano; SPO = sample piano; TBN = trombone; TPR = trumpar (TPT/GTR); TPT = trompette; VBN = vibrone (VBS/TBN); VBS = vibraphone.


Krumhansl a également trouvé pour son espace trois dimensions perceptives. La première distinguait les instruments à son entretenu de ceux à excitation impulsive. Elle était corrélée très fortement (r = 0,99) avec une mesure de durée de transitoire d'attaque. La seconde correspondait à la brillance, et était corrélée (r = 0,94) avec le centre de gravité spectral. La troisième dimension était corrélée, mais moins fortement (r = 0,85) avec les irrégularités du spectre.

Krimphoff, McAdams, et Winsberg (1994) ont effectué des analyses acoustiques des stimuli musicaux afin de trouver les paramètres physiques les mieux corrélés avec l'espace perceptif trouvé par Krumhansl. Les études précédentes avaient certes étudié la question, mais sans trop s'interroger sur la définition des paramètres physiques. Le centre de gravité spectral, par exemple, peut être calculé de plusieurs façons, et les résultats de différentes méthodes de calcul se ressemblent sans être équivalents. Les chercheurs prenaient à chaque fois la définition la mieux adaptée à leurs résultats ce qui rend difficile les comparaisons entre études. Krimphoff et al. ont étudié la question de près, et proposé des méthodes de mesure de centre de gravité spectral, qualité d'attaque et irrégularité spectrale, chacune bien corrélée avec l'une des trois dimensions de l'espace perceptif.
En parallèle, McAdams, Winsberg, Donnadieu, de Soete et Krimphoff (1995) refirent les expériences de Krumhansl avec les mêmes stimuli. Ils trouvèrent comme lui un espace à trois dimensions, dont les deux premières étaient bien corrélées avec les dimensions de Krumhansl (r = 0,98 pour la première, correspondant à l’attaque, et r = 0,95 pour la seconde, correspondant au centroïde). Mais ils ne trouvèrent pas une bonne corrélation entre leur troisième dimension perceptive et celles de Krumhansl. En revanche ils ont trouvé une bonne corrélation entre cette dimension et la mesure physique de flux spectral de Krimphoff et al. (1994)



Figure 2: L’espace de McAdams et al. (1994), les abréviations sont les mêmes que pour Krumhansl, à l’exception du EHN = cor anglais


Cette expérience étant la plus récente, et méthodologiquement la plus solide, nous l'utilisons comme référence en ce qui concerne l'espace de timbre. Une particularité de ces études réside dans le fait qu'elles ont toutes été réalisées à fréquence fondamentale constante. Miller et Carterette (1975) ont demandé à des sujets d'estimer le taux de "ressemblance/dissemblance" entre plusieurs stimulis non appariés en hauteur, mais ont trouvé que leurs réponses étaient dominées par la différence de F0, qui produisait une différence de hauteur. Les dimensions du timbre étant "écrasées" par la hauteur, il n'était pas possible de les estimer de façon fiable. C'est cela qui explique que la plupart des études sur le timbre ont utilisé des stimulis appariés en hauteur (Wessel, 1973; Grey, 1977; Krumhansl, 1989; McAdams et al., 1995).
L'absence du paramètre fréquence fondamentale dans les études sur le timbre limite leur portée. Sans faire varier ce paramètre, il est impossible de caractériser les éventuelles interactions entre les dimensions perceptives du timbre et de la hauteur. Il est aussi impossible d'étudier l'évolution du timbre des instruments en fonction de la note jouée. L'hypothèse a été avancée, par Wessel, que certains instruments sont reconnus précisément au travers des variations de leur timbre à travers leur tessiture.
Il y a de bonnes raisons de penser que le timbre des instruments varie (en même temps que leur hauteur) en fonction de la note jouée. Informellement, si nous écoutons une clarinette nous nous rendons compte que son timbre évolue le long de sa tessiture. Plus formellement, nous pouvons constater des variations, en fonction de la note, des paramètres physiques dont nous savons depuis Krimphoff (1993) et d'autres qu'elles sont corrélées avec les dimensions du timbre. Un ensemble de sons fut extrait de la base de données "Studio On Line" de l'Ircam (www.ircam.fr/sol) et analysé pour déterminer la variation de ces paramètres physiques en fonction de la F0. Les résultats détaillés figurent en annexe. On remarque par exemple que le centre de gravité spectral du cor est quasi-stationnaire, alors que celui de la harpe évolue quasi-linéairement. Autre dimension physique importante, le temps d'attaque varie selon la note jouée, mais d'une manière différente selon l'instrument. Dans le cas de la flûte, la longueur de la partie résonnante du tube varie avec les clés jouées. Plus les clés ouvertes se trouvent pres du bec, plus le tube résonateur est petit, plus la note est aiguë. Parallèlement, le temps de la mise en résonance du tube étant proportionnel a sa longueur, le temps d’attaque varie aussi avec la note. Lorsque l’instrument change de registre, à l’octave pour la flûte et à la quinte pour la clarinette, la discontinuité de la longueur du résonateur risque de produire une discontinuité du temps d'attaque. Un raisonnement semblable peut-être fait avec les instruments à corde, pour lesquels on s'attend en outre à un amortissement plus rapide de la note pour une corde courte. Le flux spectral, corrélé avec la troisième dimension perceptive du timbre (Krimphoff et al. 1994), dépend lui aussi de la note, et cette dépendance est différente selon les instruments.
Il faut cependant apporter un bémol à cette discussion : ces paramètres physiques n'ont été validés qu'à une seule fréquence fondamentale. On peut imaginer (mais cela n'a pas été prouvé) qu'ils restent pertinents à d'autres fréquences fondamentales. En revanche il n'est pas sûr que leurs poids respectifs restent les mêmes. Surtout, rien ne permet d'affirmer que la correspondance entre échelles physiques et perceptives reste la même lorsque la fréquence fondamentale varie.
Si on arrivait à contourner les difficultés rencontrées jusqu'ici pour incorporer le paramètre fréquence fondamentale dans les études de timbre, on pourrait apporter des réponses à toutes ces interrogations. On comprendrait mieux les interactions entre les dimensions perceptives de hauteur et timbre, et leur dépendance sur les paramètres physiques. On pourrait élaborer des prédicteurs physiques "corrigés" en fonction de la fréquence fondamentale. On pourrait aborder l'étude des variations du timbre en fonction de la note caractéristique d'un instrument, et étudier l'hypothèse selon laquelle ce sont précisément ces variations qui font le "timbre" d'un instrument.
Les expériences décrites dans ce rapport constituent une première tentative pour introduire le paramètre F0 dans l'analyse multidimensionnelle du timbre. Sachant les difficultés rencontrées dans les études précédentes, le paramètre est introduit de façon progressive. Une première série de trois expériences (notées 1, 2, 3) mesure la ressemblance/dissemblance entre sons d'instruments de même fréquence fondamentale, comme dans les études précédentes. Ce qui est nouveau, c'est que l'expérience est répétée avec les mêmes instruments et les mêmes sujets à trois fréquences fondamentales différentes. Une deuxième série de deux expériences (notées 1-2, 1-3) mesure la ressemblance/dissemblance entre sons de fréquence fondamentale différente, la différence de F0 étant fixe. Les fréquences des notes sont celles utilisées dans la première série, et les instruments et les sujets sont les mêmes.
Les stimuli utilisés sont pour la plupart des sons d'instruments naturels. Pour ces sons, les effets sur le timbre dus aux variations spécifiques de chaque instrument sont donc confondus avec les effets éventuels d'interaction entre timbre et hauteur, ou de dépendance du timbre sur la F0. Cependant nous avons aussi inclus deux sons synthétiques dont le comportement "physique" en fonction de la F0 est précisément contrôlé (leur enveloppe spectrotemporelle ne varie pas avec F0). Les expériences permettent donc d'aborder ces deux aspects intéressants de la dépendance du timbre sur la F0. Nous espérons les étudier avec encore plus de détail dans des expériences futures.
Nous pouvons déjà avancer deux hypothèses quand à l'issue des expériences:
1) Les sujets identifient ou classent les sons comme des catégories, établies par le nom ou leur famille (deux sons de violon semblent proches car ils proviennent du même instrument, un violon est proche du violoncelle car il appartiennent tous deux à la même famille). Dans cette hypothèse, les espaces devraient être invariants en fonction de F0, mis à part de petites variations aléatoires dues au bruit de l'expérience.
2) Les sujets jugent le timbre sur des dimensions perceptuelles abstraites qui dépendent de paramètres telles que l'enveloppe temporelle et spectrale, sa régularité et son évolution.Dans ce cas, on peut s'attendre à des variations avec F0 de deux types: celles produites par des interactions éventuelles des dimensions perceptuelles du timbre avec la dimension perceptuelle de hauteur (ou par leur dépendance sur F0), et celles produites par l'évolution des paramètres physiques en fonction de la F0 (évolution qui dépend de chaque instrument). On ne peut cependant exclure que ces variations soient plus faibles que les distances entre instruments, et donc négligeables comme le prédit la première hypothèse.
Si les différences entre les espaces sont grandes, et varient en fonction de F0 de façon chaotique, cela démontrera que la notion de timbre est indissociable de celle de hauteur fondamentale. La généralité des expériences antérieures sur le timbre sera alors remise en question. Si au contraire les différences sont minimes, ou prévisibles physiquement, alors cela voudra dire que le timbre est stable, voire invariant vis-à-vis de la F0.
En ce qui concerne les différences entre espaces à F0 différents on peut faire les prévisions suivantes:
- Dans la mesure où le timbre dépend de la forme de l'enveloppe spectrale, et que celle-ci est moins finement échantillonnée à F0 élevée, on pourrait s'attendre à l'affaiblissement du poids de l'enveloppe spectrale (caractérisée par son centre de gravité, ou par une mesure d'irrégularité ou de flux spectral) par rapport aux aspects purement temporels (par exemple le temps d'attaque. On pourrait ainsi s'attendre à une "contraction" de l'espace des timbres à F0 élevée.
- Si les dimensions du timbre ne varient pas avec la F0, les jugements de dissimilarité devraient être les mêmes pour les expériences 1, 2 et 3, et les espaces obtenus identiques (au bruit d'expérience près). Si ces dimensions varient, mais de façon identique pour tous les instruments, on s'attend au même résultat. Si les dimensions sont constantes pour tous les instruments sauf un (ou si elles varient de concert), on s'attend à ce que la configuration reste à peu près constante à l'exception de cet instrument particulier.
- Si les dimensions du timbre varient avec la F0, on s'attend à ce que les jugements de dissemblance à hauteur différente (exp. 1-2 et 1-3) soient asymétriques (c'est-à-dire que la dissemblance entre instruments devrait dépendre de l'ordre de leurs F0). Si ces dimensions ne varient pas avec la F0, on s'attend au contraire à ce que les matrices de dissemblance soient symétriques.

suite