Rapport
de stage du DEA ATIAM
effectué au printemps 2000
au sein de l équipe de Perception et Cognition Musicales de
l IRCAM
Les
interactions entre le timbre
et la fréquence fondamentale
des sons musicaux
Écrit par Jeremy Marozeau
étudiant de luniversité de Paris VI
dirigé par Alain de Cheveigné et Stephen McAdams
Rendu le 6 juillet 2000
Ce rapport décrit le travail effectué lors de mon stage au sein
de léquipe de Perception et Cognition Musicales de l'IRCAM, encadré
par Alain de Cheveigné et Stephen McAdams. Ce stage avait pour but de
mieux comprendre les interactions perceptives entre timbre et hauteur, et la
dépendance du timbre sur la fréquence fondamentale des sons musicaux.
Le sujet commence par résumer la problématique :
"Le timbre est une dimension perceptive qui est par définition
orthogonale à celle de hauteur tonale. Pour des sons à structure
harmonique, la hauteur dépend de la fréquence fondamentale (F0)
alors que le timbre dépend surtout de la forme de l'enveloppe spectro-temporelle
(forme du spectre et son évolution au cours du temps). En première
approximation, ces facteurs, et les dimensions perceptives qui leur correspondent
peuvent être manipulés de façon indépendantes.
En deuxième approximation, on constate des interactions.
Il est par exemple difficile de situer dans un espace de timbre des sons qui
diffèrent trop par leur F0, car la dimension hauteur prend une importance
démesurée. On sait cependant que certaines classes de sons(par
exemple les voyelles) ont une unité de timbre qui résiste à
de grandes variations de F0. On connaît assez mal les mécanismes
perceptifs qui sous-tendent cette invariance."
Puis il propose des expériences :
"Un point de départ pour étudier ces interactions peut
consister à répliquer des expériences de caractérisation
du timbre, réalisées dans notre laboratoire et ailleurs, en
introduisant de façon contrôlée la dimension F0 dans la
définition des stimulis. Par exemple pour la mesure de dissemblance
de timbre, les comparaisons se feront entre paires de stimulis de F0 différentes
(plutôt qu'identiques). On regardera alors les différences entre
les espaces de timbre obtenus pour différentes valeurs de cette différence
de F0."
Le travail s'est déroulé en quatre temps:
- Etude bibliographique sur le timbre musical.
- Analyse acoustique de différents instruments, et étude du comportement
de certains de leurs attributs physiques ( centroïde spectral, attaque)
en fonction de la fréquence fondamentale.
- Expériences psychoacoustiques de "ressemblance-dissemblance"
entre des sons musicaux naturels, en faisant intervenir (prudemment) le paramètre
fréquence fondamentale.
- Analyse des résultats et confrontation avec les analyses acoustiques.
Le Dictionnaire du Grand Robert (version électronique, 1993) accompagne
l'article Timbre de la citation suivante:
"Timbre. Qualité spécifique du son, qui nous permet
indépendamment de la hauteur, de l'intensité, de la durée,
de distinguer par exemple une note de flûte d'une note de clairon, un
a d'un o, un e ouvert d'un e fermé, etc. Les nuances de timbre des
voyelles sont fonction des modifications subies par le résonateur que
constitue l'appareil vocal, en particulier du point d'articulation et du degré
d'aperture.
J. MAROUZEAU, [sic] Lexique de la terminologie linguistique, Timbre"
Cette définition couvre l'usage linguistique plutôt que musical
du terme, mais elle souligne l'idée que le timbre est une qualité
indépendante de la hauteur d'un son. Cette idée est à la
base de la définition du timbre par l'American National Standards Institute
(ANSI), qui fait actuellement office de référence :
"Timbre is that attribute of auditory perception in terms of which
a subject can judge that two sounds similarly presented and having the same
loudness and pitch are dissimilar".
Cette définition est accompagnée d'une note:
" Timbre depends primarily upon the spectrum of the stimulus, but it
also depends upon the waveform, the sound pressure, the frequency location
of the spectrum, and the temporal characteristics of the stimulus".
qui souligne que le timbre dépend des caractéristiques physiques
du son, mais sans expliquer lesquelles (Hajda et al. 1996). En particulier elle
ne permet pas de distinguer les corrélats physiques du timbre de ceux
qui déterminent la hauteur ou la sonie.
Seashore (1938/1967), cité par Hajda (96) définit le timbre ainsi
:
"The characteristic of a tone which depends upon harmonic
structure as modified by absolute pitch and total intensity".
Cette définition ne peut s'appliquer qu'aux seuls sons périodiques.
La structure harmonique détermine aussi, comme on le sait, la hauteur,
et cette définition ne dit pas comment reconnaître quels aspects
de cette structure déterminent le timbre.
Helmholtz fut l'un des premiers à sintéresser aux rapports
entre les caractéristiques physiques de sons musicaux et leurs qualités
perceptives. En 1850, il a analysé grâce à ses fameux résonateurs
le contenu spectral de la partie entretenue des sons, et a donné le nom
de "timbre musical" à la qualité correspondante. Il
a aussi mentionné à plusieurs reprises l'importance du début
et de la fin des sons, mais n'ayant pas de moyens pour les analyser, il ne les
a pas étudiés (cité par Castellengo, 1994). Il faut attendre
les années 1940 pour que les premières méthodes électroniques
danalyse spectrale apparaissent et permettent une étude plus approfondie
des paramètres physiques qui déterminent le timbre.
Parmi les études récentes sur le timbre, il est possible de distinguer
deux classes principales :
- Les études sémantiques, qui tentent de classifier un son par
des qualificatifs appropriés (Von Bismarck, 1974a)
- Les études psychophysiques, en particulier les études d'analyse
multidimensionnelle, qui mesurent la proximité perceptive des sons et
tentent de les placer dans un espace approprié selon leur degré
de similarité.
Nous ne parlerons que de la deuxième classe, à laquelle se rattache
notre étude.
Les études de similarité
Les premières études ont été faites par Plomp(1970),
Wedin et Goude (1972) et Wessel (1973). Plomp a utilisé des sons de synthèse
continus, créés d'après la partie entretenue de 9 sons
naturels d'instruments de musique: 3 cuivres, 3 bois et 3 instruments à
cordes. Les sons étaient joués à la même hauteur
tonale, 349 Hz (env Fa 4), avec la même durée et la même
sonie. Il a demandé à ses sujets d'évaluer la distance
de entre les sons sur une échelle de ressemblance/dissemblance. A partir
des réponses et avec l'aide de méthodes statistiques, il est arrivé
à représenter tous les instruments dans un espace à deux
dimensions. Les instruments proches "métriquement" dans cet
espace représentaient des timbres proches perceptivement. Cette expérience
ne manipulait qu'une partie des caractéristiques physiques pouvant affecter
le timbre : l'enveloppe spectrale de la partie entretenue. L'enveloppe temporelle
(en particulier l'attaque) n'était pas prise en compte.
Wessel (1973, cité par Hajda et al., 1996), refit ces expériences
en gardant les mêmes types d'instruments, mais en prenant les sons dans
leur intégralité. Il arriva à démontrer une corrélation
entre les deux dimensions perceptives trouvées et deux attributs physiques
:
- Les caractéristiques des composantes harmoniques en hautes et basses
fréquences durant les transitoires
- le centre de gravité spectral, correspondant à la dimension
perceptive de "brillance".
Grey (1977) a effectué une large série d'expériences sur
le timbre, qui fait encore référence aujourd'hui. Il a synthétisé
16 sons brefs (environ 0,3 s), joués à une fréquence de
311 Hz (mi bémol 3). Des jugements de dissimilarité, il a déduit
une représentation à trois dimensions perceptives, qu'il a tenté
de faire correspondre à des caractéristiques physiques.
La première dimension correspondait à la brillance, déjà
évoquée par Wessel. Cette dimension distingue par exemple la trompette
du hautbois. La seconde dimension distinguait par exemple les instruments à
cordes des cuivres, et dépendait apparemment de la synchronisation relative
des harmoniques élevés dans les transitoires d'attaque. La troisième
dimension distinguait les cuivres, le basson, et le cor, de la clarinette, des
cordes, de la flûte et du saxophone. Elle était corrélée
plus ou moins bien avec la présence d'énergie de fréquence
haute et amplitude faible dans les transitoires d'attaque.
L'étude de Grey a mis en avant une représentation tridimensionnelle
du timbre, et a ouvert la porte à de nombreuses autres études.
Elle fait référence, mais à l'écoute des stimuli
utilisés, on remarque qu'ils sont extrêmement courts et d'assez
mauvaise qualité. Il est donc préférable de se baser sur
des expériences plus récentes.
Krumhansl (1989) a effectué des mesures de dissemblance avec 21 sons
de timbre différent, synthétisés sur un Yamaha TX802 FM
Tone Generator, développés par Wessel Bristom et Settel (1987).
Quatorze de ces stimuli etaient des imitations de sons naturels ayant la même
hauteur, sonie et durée que les sons de Grey (311 Hz, mezzoforte, 300
mseconde)

Figure 1: Lespace de Krumhansl(1989) BSN = basson; CAN = cor anglais;
CNT = clarinette; GTR = guitare; GTN = guitarnet ( un instrument hybride GTR/CNT);
HCD = clavecin; HRN = cor; HRP = harp; OBO = hautbois; OBC = obocord (OBO/HCD);
OLS = oboleste (OBO/celeste); PNO = piano; STG = string; SNO = striano (STG/PNO);
POB = bowed Piano; SPO = sample piano; TBN = trombone; TPR = trumpar (TPT/GTR);
TPT = trompette; VBN = vibrone (VBS/TBN); VBS = vibraphone.
Krumhansl a également trouvé pour son espace trois dimensions
perceptives. La première distinguait les instruments à son entretenu
de ceux à excitation impulsive. Elle était corrélée
très fortement (r = 0,99) avec une mesure de durée de transitoire
d'attaque. La seconde correspondait à la brillance, et était corrélée
(r = 0,94) avec le centre de gravité spectral. La troisième dimension
était corrélée, mais moins fortement (r = 0,85) avec les
irrégularités du spectre.
Krimphoff, McAdams, et Winsberg (1994) ont effectué des analyses acoustiques
des stimuli musicaux afin de trouver les paramètres physiques les mieux
corrélés avec l'espace perceptif trouvé par Krumhansl.
Les études précédentes avaient certes étudié
la question, mais sans trop s'interroger sur la définition des paramètres
physiques. Le centre de gravité spectral, par exemple, peut être
calculé de plusieurs façons, et les résultats de différentes
méthodes de calcul se ressemblent sans être équivalents.
Les chercheurs prenaient à chaque fois la définition la mieux
adaptée à leurs résultats ce qui rend difficile les comparaisons
entre études. Krimphoff et al. ont étudié la question de
près, et proposé des méthodes de mesure de centre de gravité
spectral, qualité d'attaque et irrégularité spectrale,
chacune bien corrélée avec l'une des trois dimensions de l'espace
perceptif.
En parallèle, McAdams, Winsberg, Donnadieu, de Soete et Krimphoff (1995)
refirent les expériences de Krumhansl avec les mêmes stimuli. Ils
trouvèrent comme lui un espace à trois dimensions, dont les deux
premières étaient bien corrélées avec les dimensions
de Krumhansl (r = 0,98 pour la première, correspondant à lattaque,
et r = 0,95 pour la seconde, correspondant au centroïde). Mais ils ne trouvèrent
pas une bonne corrélation entre leur troisième dimension perceptive
et celles de Krumhansl. En revanche ils ont trouvé une bonne corrélation
entre cette dimension et la mesure physique de flux spectral de Krimphoff et
al. (1994)

Figure 2: Lespace de McAdams et al. (1994), les abréviations sont
les mêmes que pour Krumhansl, à lexception du EHN = cor anglais
Cette expérience étant la plus récente, et méthodologiquement
la plus solide, nous l'utilisons comme référence en ce qui concerne
l'espace de timbre. Une particularité de ces études réside
dans le fait qu'elles ont toutes été réalisées à
fréquence fondamentale constante. Miller et Carterette (1975) ont demandé
à des sujets d'estimer le taux de "ressemblance/dissemblance"
entre plusieurs stimulis non appariés en hauteur, mais ont trouvé
que leurs réponses étaient dominées par la différence
de F0, qui produisait une différence de hauteur. Les dimensions du timbre
étant "écrasées" par la hauteur, il n'était
pas possible de les estimer de façon fiable. C'est cela qui explique
que la plupart des études sur le timbre ont utilisé des stimulis
appariés en hauteur (Wessel, 1973; Grey, 1977; Krumhansl, 1989; McAdams
et al., 1995).
L'absence du paramètre fréquence fondamentale dans les études
sur le timbre limite leur portée. Sans faire varier ce paramètre,
il est impossible de caractériser les éventuelles interactions
entre les dimensions perceptives du timbre et de la hauteur. Il est aussi impossible
d'étudier l'évolution du timbre des instruments en fonction de
la note jouée. L'hypothèse a été avancée,
par Wessel, que certains instruments sont reconnus précisément
au travers des variations de leur timbre à travers leur tessiture.
Il y a de bonnes raisons de penser que le timbre des instruments varie (en même
temps que leur hauteur) en fonction de la note jouée. Informellement,
si nous écoutons une clarinette nous nous rendons compte que son timbre
évolue le long de sa tessiture. Plus formellement, nous pouvons constater
des variations, en fonction de la note, des paramètres physiques dont
nous savons depuis Krimphoff (1993) et d'autres qu'elles sont corrélées
avec les dimensions du timbre. Un ensemble de sons fut extrait de la base de
données "Studio On Line" de l'Ircam (www.ircam.fr/sol) et analysé
pour déterminer la variation de ces paramètres physiques en fonction
de la F0. Les résultats détaillés figurent en annexe. On
remarque par exemple que le centre de gravité spectral du cor est quasi-stationnaire,
alors que celui de la harpe évolue quasi-linéairement. Autre dimension
physique importante, le temps d'attaque varie selon la note jouée, mais
d'une manière différente selon l'instrument. Dans le cas de la
flûte, la longueur de la partie résonnante du tube varie avec les
clés jouées. Plus les clés ouvertes se trouvent pres du
bec, plus le tube résonateur est petit, plus la note est aiguë.
Parallèlement, le temps de la mise en résonance du tube étant
proportionnel a sa longueur, le temps dattaque varie aussi avec la note.
Lorsque linstrument change de registre, à loctave pour la
flûte et à la quinte pour la clarinette, la discontinuité
de la longueur du résonateur risque de produire une discontinuité
du temps d'attaque. Un raisonnement semblable peut-être fait avec les
instruments à corde, pour lesquels on s'attend en outre à un amortissement
plus rapide de la note pour une corde courte. Le flux spectral, corrélé
avec la troisième dimension perceptive du timbre (Krimphoff et al. 1994),
dépend lui aussi de la note, et cette dépendance est différente
selon les instruments.
Il faut cependant apporter un bémol à cette discussion : ces paramètres
physiques n'ont été validés qu'à une seule fréquence
fondamentale. On peut imaginer (mais cela n'a pas été prouvé)
qu'ils restent pertinents à d'autres fréquences fondamentales.
En revanche il n'est pas sûr que leurs poids respectifs restent les mêmes.
Surtout, rien ne permet d'affirmer que la correspondance entre échelles
physiques et perceptives reste la même lorsque la fréquence fondamentale
varie.
Si on arrivait à contourner les difficultés rencontrées
jusqu'ici pour incorporer le paramètre fréquence fondamentale
dans les études de timbre, on pourrait apporter des réponses à
toutes ces interrogations. On comprendrait mieux les interactions entre les
dimensions perceptives de hauteur et timbre, et leur dépendance sur les
paramètres physiques. On pourrait élaborer des prédicteurs
physiques "corrigés" en fonction de la fréquence fondamentale.
On pourrait aborder l'étude des variations du timbre en fonction de la
note caractéristique d'un instrument, et étudier l'hypothèse
selon laquelle ce sont précisément ces variations qui font le
"timbre" d'un instrument.
Les expériences décrites dans ce rapport constituent une première
tentative pour introduire le paramètre F0 dans l'analyse multidimensionnelle
du timbre. Sachant les difficultés rencontrées dans les études
précédentes, le paramètre est introduit de façon
progressive. Une première série de trois expériences (notées
1, 2, 3) mesure la ressemblance/dissemblance entre sons d'instruments de même
fréquence fondamentale, comme dans les études précédentes.
Ce qui est nouveau, c'est que l'expérience est répétée
avec les mêmes instruments et les mêmes sujets à trois fréquences
fondamentales différentes. Une deuxième série de deux expériences
(notées 1-2, 1-3) mesure la ressemblance/dissemblance entre sons de fréquence
fondamentale différente, la différence de F0 étant fixe.
Les fréquences des notes sont celles utilisées dans la première
série, et les instruments et les sujets sont les mêmes.
Les stimuli utilisés sont pour la plupart des sons d'instruments naturels.
Pour ces sons, les effets sur le timbre dus aux variations spécifiques
de chaque instrument sont donc confondus avec les effets éventuels d'interaction
entre timbre et hauteur, ou de dépendance du timbre sur la F0. Cependant
nous avons aussi inclus deux sons synthétiques dont le comportement "physique"
en fonction de la F0 est précisément contrôlé (leur
enveloppe spectrotemporelle ne varie pas avec F0). Les expériences permettent
donc d'aborder ces deux aspects intéressants de la dépendance
du timbre sur la F0. Nous espérons les étudier avec encore plus
de détail dans des expériences futures.
Nous pouvons déjà avancer deux hypothèses quand à
l'issue des expériences:
1) Les sujets identifient ou classent les sons comme des catégories,
établies par le nom ou leur famille (deux sons de violon semblent proches
car ils proviennent du même instrument, un violon est proche du violoncelle
car il appartiennent tous deux à la même famille). Dans cette hypothèse,
les espaces devraient être invariants en fonction de F0, mis à
part de petites variations aléatoires dues au bruit de l'expérience.
2) Les sujets jugent le timbre sur des dimensions perceptuelles abstraites qui
dépendent de paramètres telles que l'enveloppe temporelle et spectrale,
sa régularité et son évolution.Dans ce cas, on peut s'attendre
à des variations avec F0 de deux types: celles produites par des interactions
éventuelles des dimensions perceptuelles du timbre avec la dimension
perceptuelle de hauteur (ou par leur dépendance sur F0), et celles produites
par l'évolution des paramètres physiques en fonction de la F0
(évolution qui dépend de chaque instrument). On ne peut cependant
exclure que ces variations soient plus faibles que les distances entre instruments,
et donc négligeables comme le prédit la première hypothèse.
Si les différences entre les espaces sont grandes, et varient en fonction
de F0 de façon chaotique, cela démontrera que la notion de timbre
est indissociable de celle de hauteur fondamentale. La généralité
des expériences antérieures sur le timbre sera alors remise en
question. Si au contraire les différences sont minimes, ou prévisibles
physiquement, alors cela voudra dire que le timbre est stable, voire invariant
vis-à-vis de la F0.
En ce qui concerne les différences entre espaces à F0 différents
on peut faire les prévisions suivantes:
- Dans la mesure où le timbre dépend de la forme de l'enveloppe
spectrale, et que celle-ci est moins finement échantillonnée à
F0 élevée, on pourrait s'attendre à l'affaiblissement du
poids de l'enveloppe spectrale (caractérisée par son centre de
gravité, ou par une mesure d'irrégularité ou de flux spectral)
par rapport aux aspects purement temporels (par exemple le temps d'attaque.
On pourrait ainsi s'attendre à une "contraction" de l'espace
des timbres à F0 élevée.
- Si les dimensions du timbre ne varient pas avec la F0, les jugements de dissimilarité
devraient être les mêmes pour les expériences 1, 2 et 3,
et les espaces obtenus identiques (au bruit d'expérience près).
Si ces dimensions varient, mais de façon identique pour tous les instruments,
on s'attend au même résultat. Si les dimensions sont constantes
pour tous les instruments sauf un (ou si elles varient de concert), on s'attend
à ce que la configuration reste à peu près constante à
l'exception de cet instrument particulier.
- Si les dimensions du timbre varient avec la F0, on s'attend à ce que
les jugements de dissemblance à hauteur différente (exp. 1-2 et
1-3) soient asymétriques (c'est-à-dire que la dissemblance entre
instruments devrait dépendre de l'ordre de leurs F0). Si ces dimensions
ne varient pas avec la F0, on s'attend au contraire à ce que les matrices
de dissemblance soient symétriques.