QUANTIFICATION ET CREATION MUSICALE

G.Assayag, G.Bloch

Colloque Modèles : esthétique, analyse, sémiotique. Université des Sciences Humaines de Strasbourg. 22 Avril 1995.

Quantification : selon Robert, il s'agit de la "fragmentation d'une valeur physique en valeurs discrètes, multiples d'un quantum et exclusive de toute autre valeur".

Qui donc quantifie fait deux choix : décider de n'utiliser que des valeurs distinctes, discontinues, et définir la méthode (le quantum) qui permet d'éliminer les valeurs non permises. En ce qui concerne la musique occidentale, le phénomène de quantification est banal : l'utilisation post-pythagoricienne de nombres entiers ou rationnels pour définir les valeurs de hauteurs permises répond en effet aux deux critères de quantification. On choisit bien des hauteurs distinctes dans l'espace continu de la division d'une corde, ainsi qu'un quantum (l'unité et les divisions harmoniques) permettant d'éliminer les hauteurs indésirables.

En musique, il y aura quantification, par exemple, dès qu'il y aura transcription. La transcription de chants populaires par Tiersot ou Bartòk en est un exemple. Quelle que soit l'échelle choisie, les notes sur la portée quantifient les hauteurs en multiples de demi-tons, même si ceux-ci peuvent être inégaux [figure 1]. Mais la quantification ne passe pas obligatoirement par la transcription : si l'on tente de recréer un certain type de son de vent à partir de bruit blanc et d'un égaliseur graphique, la fragmentation des hauteurs produite par les bandes de l'égaliseur s'applique directement à la valeur physique considérée, en l'occurence le son qui va sortir au travers d'un haut-parleur.

Figure 1. Sur le pont d'Avignon, extrait du livre de Davenson

Des valeurs discrètes : l'hypothèse de catégories

Choisir des valeurs discrètes, pourquoi ? Pour des raisons pratiques de transcription, aussi pour des raisons volontaires (de choix de catégories). Dans tous les cas, le résultat donne des catégories que l'auditeur ou le musicien peuvent distinguer. Par exemple François-Bernard Mâche explique que la plupart des transcriptions qu'il a réalisées ont été en demi-tons, puis en quart-de-ton, pour des raisons pratiques : il fallait que les musiciens soient capables de les lire et de les utiliser.

On peut quand même penser qu'à cet aspect pratique s'ajoutent un certain nombre d'hypothèses perceptives, acceptées sinon désirées : tout d'abord, qu'un certain nombre de paramètres musicaux sont perçus indépendamment ; ensuite, que pour un même paramètre musical, la perception des différences définit des catégories distinctes. On se trouve donc dans une hypothèse de perception catégorielle.

Jean Petitot-Cocorda, dans son ouvrage sur "Les catastrophes de la parole" [Petitot-Cocorda 85], établit une relation entre les caractéristiques de la perception catégorielle telles qu'elles ont été établies par Liberman [Liberman 67] et les applications de la Théorie des catastrophes aux phénomènes de morphogenèse et de différentiation telles qu'elles ont été explorées par Thom et Zeeman [Thom 80]. Rappelons en les grands traits.

La perception catégorielle

Le phénomène de perception catégorielle a été défini par A.Liberman en 1957. Pour le mettre en évidence, on construit artificiellement entre deux stimuli A et B (deux couleurs, deux phonèmes) un "continuum" de stimuli en faisant varier un paramètre donné. On se livre à un premier test d'identification : en choisissant aléatoirement les stimulis on demande au sujet de les ranger vers A ou vers B. Dans un deuxième test, de discrimination, on présente des triplés XYZ ou X est le stimulus n du "continuum" entre A et B, Y le stimulus n+1, et Z est soit A soit B. On demande alors si Z est égal à X ou à Y. Si l'on obtient 50% de Z =A et 50% de Z=B, les sujets ne discriminent pas entre X et Y. Si l'on a une forte prédominance pour l'une des deux réponses, il y a discrimination. On s'aperçoit alors que dans le cas des couleurs la discrimination est fine et pratiquement constante. Quelle que soit la paire de stimuli choisie sur le trajet de A à B, les sujets différencient les nuances de couleur "A" et "B". Dans le cas des phonèmes, la discrimination intra-catégorielle est nulle, c'est à dire que dans la région du continuum qui est près de A ou près de B, on ne sait pas ranger les paires de stimuli. La discrimination inter-catégorielle est, elle, "catastrophique", c'est à dire que dans la zone d'interface à mi-chemin de A et de B, le sujet bascule soudainement d'une perception de type A à une perception de type B[figure 2]. On a donc perception catégorielle pour les phonèmes et pas pour les couleurs.

perception type "couleur" non catégorielle perception type "phonème" catégorielle

Figure 2. La perception catégorielle selon Liberman [Liberman 67]

Les caractéristiques de la perception catégorielle sont donc:

1. absence de discrimination intra-catégorielle.

2. discrimination inter-catégorielle catastrophique.

La discrimination est alors subordonnée à l'identification: les sujets ne discriminent que des phénomènes d'abord identifiés comme différents. La discrimination se fait sur des bases absolues et non pas relatives. D. Pisoni parle de "Quantal regions" dans l'espace de contrôle.

Petitot-Cocorda montre que la modélisation catastrophiste des phénomènes de morphogenèse et de différentiation opère une géométrisation de catégories taxinomiques-structurales auxquelles on n'accordait auparavant qu'un contenu logique. Elle permet de construire des espaces de contrôle dans lesquels les interfaces entre catégories apparaissent sous la forme de discontinuité de trajectoires.

Soit S un système contrôlé par des paramètres de contrôle variant dans un espace de contrôle W. Pour chaque variable w dans W, le système manifeste une qualité, une "couleur", qw. Lorsque w varie dans W, qw varie de manière continue ou discontinue. Il y a donc deux types de points de W : des points réguliers autour desquels la couleur varie continûment, et des points catastrophiques ou singuliers s autour desquels la trajectoire saute d'une couleur à une autre [figure 3].

Dans cet espace paramétrique, il existe différentes dynamiques d'évolution :

1. évolution lisse

2. transition catastrophique.

3. hystérésis

4. retour lisse

5. bifurcation (viol du principe selon lequel la continuité des causes implique une continuité des effets).

On voit bien dans la deuxième partie du schéma (une projection sur un plan) que le manque de dimensions paramétriques masque les discontinuités et donc les basculements de catégories.

Figure 3. Catastrophe de type cusp d'après [Thom 80]

Application aux hauteurs

Si l'on regarde le mécanisme historique de la quantification des hauteurs, il y a deux étapes :

1. l'univers des sons à hauteur définie est ramené à un son prototype, par exemple le la 440. Un certain nombre de proportions de nombres entiers définissant les relations entre harmoniques de ce son sont extraites et ramenées à la fondamentale de ce son pour construire de proche en proche une échelle. Le mécanisme et appliqué récursivement, puisque des hauteurs issues de ce premier traitement sont à nouveau considérées comme fondamentales, leurs harmoniques analysées etc. La grille complexe issue de ce traitement est une sélection quantifiée du continuum sonore qui peut être déplacée dans son ensemble, par exemple en appliquant le traitement à La 441.

2. Cet espace strié n'a pas la propriété de stabilité pour la transposition interne. Une deuxième quantification est alors obtenue par le procédé du tempérament, qui nous fait sortir du système des proportions rationnelles, mais permet de récupérer les propriétés d'un système formel dont Balzano [Balzano 80] a montré qu'il avait des caractéristiques d'optimalité pour un certain nombre d'opérations musicales -- dont la transposition-- efficaces.

La raison du premier traitement est probablement que, s'il n'y a pas perception catégorielle dans le continuum des hauteurs, il en va différemment des intervalles formés par la superposition ou la consécution des hauteurs. Si l'on fait varier continument la note supérieure d'une paire formant un intervalle de tierce mineure vers la tierce majeure, on a alors un phénomène plus proche de la discrimination des phonèmes que de celle des couleurs. Le premier traitement a alors pour effet de relativiser le système des hauteurs en passant au système des intervalles, soit à un système catégoriel. Le deuxième traitement a pour effet de réduire le nombre de catégories (une tierce majeure reste la même quelle que soit sa position dans l'échelle). La valeur ajoutée (si l'on peut dire) de la double transformation est la catégorisation des hauteurs absolues, qui n'a pas de nécessité tant qu'on ne pense pas en termes d'intervalles. C'est en cela une situation différente de la situation phonologique, et qui explique probablement le côté artificiel de la quantification musicale, par opposition au coté "naturel" de la catégorisation des phonèmes.

Choix des quanta

Le choix des quanta se rajoute à l'hypothèse de perception discrète, d'une manière quasi-indépendante : on peut admettre que l'on a une perception catégorielle des relations de hauteurs discrètes, mais cela ne présuppose pas le type de division employé (équidistante ou non, si équidistante, demi-tons ou quarts-de-tons, etc.). Par exemple, dans Circle de Luciano Berio, il y a discrétisation des modes de jeu en fonction d'un modèle phonologique. L'analyse phonétique du poème de e e Cummings détermine le choix des instruments de percussion, auxquels ne s'applique qu'un mode de jeu, et le choix des modes de jeu de la harpe. Mais on ne peut en aucun cas parler de quantum, ni pour l'espace de départ (phonétique), ni pour l'espace d'arrivée (orchestration).

La gamme pythagoricienne, par contre, est un bon exemple de quantification, moins banal qu'il n'y paraît a priori. En effet il ne s'agit pas, comme dans le tempérament égal, d'une division des hauteurs par un intervalle étalon. Néanmoins il y a quantum (ou plutôt deux quanta) puisque la corde est uniquement divisée par multiples de puissances de 3 et 2. La quantification, tout en restant le phénomène multiplicatif de la définition, résulte d'une opération autre que la division pure et simple des intervalles de base. En plus, et c'est là le plus intéressant, ces divisions sont choisies a priori pour leur repérabilité perceptive. Donc, et c'est là une nouvelle hypothèse, la quantification est toujours perçue. (Ceci, par ailleurs, distingue la quantification de l'échantillonnage). Dans ce cas pythagoricien, c'est d'autant plus évident que non seulement les intervalles sont toujours perçus, mais le comma pythagoricien, intervalle que le système considère "imperceptible", est lui aussi perçu.

Donc le quantum apporte quelque chose de plus que la discrétisation : la possibilité de mesurer l'espace. On peut donc appliquer un certain nombre de règles de distance à cet espace mesuré, ne serait-ce que, dans le cas de la transcription musicale, la possibilité de tranposer. Les sons réels, quantifiés par demi-tons ou quarts-de-tons, peuvent l'être parce que c'est pratique (pour les instrumentistes) ou parce que cela correspond au projet de départ du compositeur : dans tous les cas, les catégories impliquées par la perception sont reconnues et acceptées comme telles.

Dans le cas de la création musicale, nous admettrons donc que la quantification est volontaire ou au moins acceptée.

Nous parlons donc de processus de création musicale dans lesquels il y a transformation de valeurs physiques continues en valeurs discrètes, et ou, de plus, le type d'infidélité de cette transformation définit une mesure qui dépend assez précisément du type de quantum choisi. L'infidélité de cette transformation est acceptée dès le départ par le créateur.

Modèle naturel : le cas de la musique de F.-B. Mâche.

La transcription de phénomènes sonores sous forme d'écriture musicale est un des axes les plus évidents de quantification. L'écriture occidentale comportant des signes de divisions discrètes des hauteurs et des durées implique une quantification des phénomènes naturels, généralement plus continus. L'imitation notée de sons de la nature couvre toutes les histoires de toutes les musiques, des bâtons de pluie aux musiques dites spectrales. Cette notation peut couvrir des aspects de hauteur et de spectre, des aspects rythmiques. Mais la quantification peut aussi s'appliquer aux résultats de processus formels : le processus stochastique qui génère Metastasis de Xenakis peut être considéré comme continu, et la notation résultante peut être considérée comme une quantification de ce résultat. Le résultat de la quantification d'une sinusoïde amortie utilisé comme fondement rythmique, exemple que nous verrons plus loin, en est un autre. Dans tous les cas, nous passons d'une représentation de type signal à une représentation de type langage.

Pour en revenir aux transcriptions de phénomènes sonores naturels, l'oeuvre de François-Bernard Mâche en est probablement un des exemples les plus intéressants. Ce compositeur s'est posé la questin des modèles issus de sons naturels depuis longtemps, et la transcription n'est qu'un des aspects de cette approche. Dès 1962, Mâche, utilisant une technologie ancienne (le dual mis au point à Cornell University) permettant de faire une transcription schématique d'un enregistrement, en extrayait les durées.

Le son d'une voix, 1964

Le son d'une voix, de 1964, et dont la revue musicale a déjà présenté une analyse, est un exemple fort intéressant. Tout d'abord parce que François-Bernard Mâche n'admet faire de quantification que pour des raisons pratiques (lisibilité de la partition). Il assimile donc la quantification à un échantillonnage, tout en acceptant l'infidélité du résultat. Un autre aspect intéressant, et relativement constant dans l'oeuvre de Mâche, est que, dans le processus compositionnel, la quantification proprement dite et l'attitude postérieure vis-à-vis de cette quantification sont parfaitement distinguées, et pas seulement dans le temps : l'extraction est faite le plus scientifiquement possible, le résultat étant utilisé comme une base extrêmement ductile. On a donc un système d'extraction, dont nous pourrrons mesurer les limites et surtout les contraintes, et une attitude du compositeur vis-à-vis de ce système. La division temporelle du système d'écriture en deux étapes permet, dans le cas de cette oeuvre, de bien distinguer les deux attitudes.

On peut utiliser, pour définir ces deux attitudes, les deux termes de perméabilité et ductilité.

Le terme de perméabilité est repris d'un article célèbre de Ligeti dans die Reihe [Ligeti 58]. La critique du système sériel présentée par Ligeti dans cet article est fondée sur la trop grande imperméabilité du système. Le système est trop contraignant, provoquant une musique dont la signature est trop reconnaissable. On peut rapprocher cette critique de la critique contemporaine faite par Robert Venturi [Venturi 72] à propos de l'architecture moderne qui, selon Venturi, ressemble à un duck (drive-in en forme de canard dans lequel on vend des sanwiches au canard) puisque son trop grand formalisme ne finit par représenter que lui-même.

L'im-perméabilité dans le cas de la quantification correspondra aux limites imposées par le modèle sous-jacent au système de quantification.

La ductilité est l'attitude vis-à-vis de l'utilisation du système. Elle concerne donc l'utilisateur. C'est l'exploitation créative des degrés de liberté. Casser le système, mais aussi le prendre a contrepied, ou même le prendre peu au sérieux sont des attitudes ductiles. Chez Mâche, par exemple, l'oreille l'emporte toujours sur le résultat de l'analyse scientifique, et la composition va parfois confronter les deux.

Dans Le son d'une voix, le processus d'extraction et de quantification proprement dit comporte trois étapes et se termine par un schéma précis de quantification du poème de Clément Marot :

1- lecture du poème. Cette lecture est réalisée par le compositeur lui-même les intonations qui lui paraissent appropriées, puis enregistrée.

2- à partir de l'enregistrement, réalisation d'un sonagramme [figure 4].

3- analyse préliminaire. Cette analyse est faite, à l'époque, "à la main" en lisant le sonagramme. Elle est néanmoins tout-à-fait précise. On se rend compte sur la figure que la quantification des hauteurs par demi-tons est faite dès l'extraction, puisque la notation utilisée pour les hauteurs est celle de la notation musicale. Par compte, les rythmes sont tout d'abord échantillonnés au 100ème de seconde, puis véritablement quantifiés, sous forme de multiples de la double croche. On remarque dans cette étape de nombreuses approximations. Une blanche peut correspondre à 9,5 (ou de "pour"), 10 (ai de "baiser"), 10,5 (eu se "seul") ou 11 (a de "la") [figure 5].

Figure 4. Sonagramme du poème, le son d'une voix, F.B. Mâche, 1964

Figure 5. Le son d'une voix, analyse du sonagramme

C'est sur ces résultats que vont être appliqués les processus de composition musicale proprement dits. Notamment il s'agit de systèmes d'équivalence d'écriture, par exemple pour l'orchestration. On peut voir là ce que Mâche appelle le "modèle" pour cette oeuvre particulière. Dans l'exemple montré, on remarquera une correspondance phonétique pour les consonnes. Ce système de correspondance phonétique a déjà été employé par Mâche dans des oeuvres antérieures (Safous Melè, 1959, la peau du silence, 1962) mais ici il y a ressemblance entre la caractéristique phonétique et l'orchestration, et non correspondance arbitraire. Pour les consonnes, ce n'est pas le résultat de la quantification de hauteurs qui est utilisé, mais la similarité phonétique réalisable aux percussions (peaux sèches pour les plosives, roulement pour le r, maracas pour le s, etc.). Pour les voyelles, par contre, le résultat de la quantification, noté sur le manuscript, est lui même sujet aux processus compositionnels : on voit que pour un résultat quantifié correspondant à un intervalle tempéré, on peut obtenir soit une note de l'intervalle (la0-do#1 devient do#1 au piano, sol#1-sib1 devient sol#1 au trombone, do#2-mi2 devient ré2 au cor), soit un ensemble similaire (sol#4-ré5 devient sol#4, la#4, do#5, ré#5 au piano). Enfin un intervalle peut être représenté par des gammes ou des traits, comme par exemple la quantification de "un"[figure 6].

Pour ne s'en tenir qu'au domaine des hauteurs, on remarque donc une grande liberté dans l'utilisation des résultats d'une analyse pourtant assez stricte. La présence d'agrégats de quintes ou tons superposées (do#-sol#-sol#-re# sur "pour" et lab-mib sol-ré au début de "qu'un") n'est pas à proprement parler une conséquence du système d'analyse, mais plutôt quelque chose que la ductilité du système dans l'esprit de l'utilisateur rend possible ; le ré# de "pour", notamment, pousserait le système un peu loin, si nous avions affaire à un système...

Figure 6. Le son d'une voix, partition correspondant au sonagramme.

Amorgos, 1979

Dans Amorgos, oeuvre "marine" de 1979 utilisant l'idée de photographie sonore chère à Mâche dans sa partie enregistrée, la quantification rythmique est issue d'une transcription automatique (bathygramme) de la partie magnétique. Cette transcription est par aileurs présente sur la partition, ainsi qu'un certain nombre d'onomatopées qui servent au chef d'orchestre à se repérer [figure 7]. La quantification rythmique est également représentée sur la partition, ce qui sert aussi de repère au chef d'orchestre. On remarque que la partition est notée en secondes, et que le tempo est 120 à la noire. La relation entre cette quantification et la texture est parfois précise, comme entre 1'04 et 1'06, parfois légèrement inexacte, parfois évidemment très interprètée, comme à 1'15.

Figure 7. Amorgos de F.B. Mâche, 1979.

L'estuaire du temps, 1994

Un autre exemple de transcription à partir d'un langage naturel est donné dans L'estuaire du temps, concerto pour échantillonneur et orchestre créé en 1994. Un certain nombre de mots venants de langues différentes sont joués dans la partie échantillonnée. Sur la figure, la hauteur marquée correpond à la clef du clavier de l'échantillonneur permettant de déclencher ce mot (ou ces mots) [figure 8]. Par exemple le mot lithuanien nukrinta correspond à la touche du fa# de la ligne supérieure de la clef de sol, mais aucunement à la hauteur à laquelle ce mot est prononcé.

Figure 8. L'estuaire du temps de F.B. Mâche, hauteurs pour le clavier, 1994.

La deuxième étape est l'analyse à partir d'un enregistrement, maintenant faite directement et en quarts de tons [figure 9].

Figure 9. L'estuaire du temps, quantification par sonagramme.

Figure 10. L'estuaire du temps, analyse.

Le résultat extrait est confronté à l'analyse de l'oreille, et modifié en fonction de celui-ci [figure 10]. Dans notre cas, il y a transposition, mais aussi changement de registre. La quantification se termine par un passage en demi-tons. C'est le résultat transposé un ton en dessous qui apparait dans la partition, en même temps que le son original. On pourrait considérer, en fonction d'un scientisme des instruments, que la confrontation du résultat mesuré avec le résultat plus subjectif l'oreille ne fait pas partie de processus de quantification mais déjà de son utilisation ductile. Mais cette confrontation est trop systématique pour que ce point de vue tienne. Il est plus intéressant de considérer que l'analyse de l'oreille ne sert qu'à affiner le procédé systématique de quantification. C'est une manière de le rendre plus perméable, mais indépendamment de l'utilisation qui en est faite. A la limite, on peut maintenant utiliser le résultat avec plus de confiance, peut-être de manière moins ductile. Cette approche marche bien quand c'est la même personne qui contrôle les données du système d'analyse, oubien, comme dans ce cas, dont le système d'analyse de base est imprégné par un autre un système dont le compositeur possède toutes les clés. Dans ce cas, l'enjeu de la quantification devient dans la perméabilité, et c'est la mise au point de la quantification qui est le plus important.

Le logiciel de quantification rythmique "Kant" montre exemple de ce type, dans lequel on laisse beaucoup de liberté pour les paramètres de mise au point.

Le logiciel "Kant"

Esthétique.

Le projet de logiciel pour la quantification des rythmes "Kant" [Assayag 94] est né à l'IRCAM d'un problème posé par des compositeurs dont beaucoup étaient de près ou de loin interessés aux procédures issues de la "musique spectrale" : Tristan Murail, Philippe Hurel, M.A. Dalbavie, Kaija Saariaho, Magnus Lindbergh, Joshua Fineberg, Claudy Malherbe, pour ne citer que ceux là. Rappelons rapidement les présupposés attachés à ce mouvement de pensée : des matériaux de nature harmonique, rythmique, dynamiques, sont décalqués de la réalité acoustique par des procédures scientifiques d'analyse (transformée de Fourier) qui en extraient la substance musicale sous la forme de composantes de hauteurs, de durées et d'intensités fortement discrétisées et par là articulables dans le cadre très contraint de l'écriture instrumentale. Les sons analysés servent de modèle concret (de modèle imité) aux objets musicaux plus formels qui en dérivent et en constituent une description à la fois simplifiée et susceptible, par sa réduction même, d'être introduite dans le champ de la notation traditionnelle. Dans ce processus de transcription le timbre, analysé dans sa stucture fine, est éclaté pour être reconstitué à un autre niveau, d'écriture et d'orchestration celui là [Entretemps 89]. On remarquera les rapports avec le travail de Mâche, rapports reconnus au demeurant par les comositeurs "spectraux".

Lorsque des modèles scientifiques de production (synthèse) des sons sont disponibles ils peuvent se substituer à l'analyse de sons concrets, et leur sorties, après discrétisation convenable dans un système d'échelle, directement utilisées : c'est le cas par exemple du modèle de la modulation de fréquence, dû à John Chowning, dont les résultats, sous la forme de spectres de raies discrètes de fréquences sont directement utilisables comme générateurs harmoniques. Par généralisation, toute analyse ou simulation à partir du modèle scientifique d'un processus physique peut devenir candidate à quantification dans un cadre musical. Dans le domaine rythmique, des flux de temps d'attaque et de durées peuvent ainsi être engendrés grâce aux modèles rendant compte du rebond d'un objet élastique soumis à la gravité ou du comportement complexe de pendules oscillants (que l'on songe par exemple au Gagaku japonais, dans lequel ces mécanismes d'oscillation amortie sont très utilisés à la percussion ; il s'agit plutôt là d'une approche empirique par imitation, mais elle se situe dans une même perspective de simulation simplifiée, et donc quantifiée, d'un processus naturel).

Domaine.

Les données de fréquences issues de l'analyse spectrale constituent un premier niveau de discrétisation. Un deuxième niveau de discrétisation est atteint lorsque ces données sont cadrées de manière à entrer dans un échelle de hauteur prédéfinie (échelle chromatique, échelle en 1/4 de tons). La même subdivision des tâches en deux niveaux peut être appliquée aux rythmes excepté que la notion d'échelle est moins simple. La manière naturelle d'établir une échelle de référence est de définir une pulsation, déterminant des positions temporelles équidistantes, dans lesquelles les données issues de l'analyse ou du modèle de production seront cadrées. Mais il faut aussi considérer le niveau métrique inférieur des subdivisions de la pulsation, que F. Nicolas [Nicolas 90] appelle l'impulsion, de manière à placer correctement les évènements qui tombent à l'intérieur de la pulsation. Il est enfin souhaitable d'intégrer dans le modèle de quantification les niveaux métriques supérieurs, celui de la mesure, et celui des groupes de mesures contigues, que nous avons nommé "archi-mesures", en acceptant, dans un souci de simplification que le tempo défini par la pulsation ne change pas à l'intérieur d'une archi-mesure.

Nous ne sommes donc plus face à une simple échelle stable de référence, mais à un système d'échelles temporelles congruentes, organisées en hiérarchies, et dont la structure varie au cours du temps. De plus, ces échelles ne peuvent être définies à priori comme c'est souvent le cas en ce qui concerne les hauteurs (échelle de 1/4 de tons), mais doivent être déduites dynamiquement des données d'analyse ou de simulation : en effet, la carrure métrique, la pulsation et l'impulsion qui sont produites à un moment donné sont celles qui optimisent le rapport entre la précision de la transcription et sa simplicité du point de vue de la notation. On peut alors considérerer que le modèle de quantification produit en même temps les échelles de référence et les distortions calculées des données d'entrée supposées s'aligner sur ces échelles et produire de la notation.

Technique.

En essayant les quantificateurs intégrés dans les logiciels séquenceurs ou d'édition de partition disponible sur le marché, on constate assez vite un certain nombre de limitations qui les rendent inutilisable dans un contexte de production musicale trop éloigné de leurs hypothèses de base. Premièrement, ces modèles supposent que les séquences à quantifier se disposent naturellement au sein d'une carrure rythmique régulière, traversée par une pulsation tout aussi régulière. Deuxièmement, on suppose en général que cette carure et cette pulsation prééxistent dans une partition de référence, absente, qu'il s'agit de retrouver par déduction. C'est évidemment le cas lorsqu'on cherche à transcrire une pièce de Bach ou de Mozart interprétée sur un clavier : certains éléments du jeu doivent être interprétés comme des déviations relativement à la structure temporelle de référence, dues à des variations expressives volontaires ou involontaires. Dans le cas de la composition, le problème est différent : la notion de variation expressive est absurde concernant des matériaux calculés ou déduits par analyse de la micro-structure du son. De plus, bien que comportant en général une phase analytique, la démarche est de production plutôt que d'investigation : il ne s'agit pas de reconstituer une partition prééxistante mais d'en construire une inédite. Les critères ne sont pas de fidélité mais d'optimalité de la notation résultante qui doit vérfier des propriétés de cohérence : deux sous séquences proches d'un point de vue perceptif doivent être proches d'un point de vue notationnel, et de minimalité : entre deux notations il faut choisir la moindre... au regard de la complexité graphique.

L'hypothèse de départ du logiciel "Kant" est donc que le matériau, au sens de la matière brute avant quantification, est porteur de formes et ce sont ces formes qui feront l'objet d'investigations : nous nous plaçons en position de découverte. Des méthodes d'analyse sont alors mises en places pour découvrir les traits de structure saillants du point de vue perceptif, ces traits déterminant dans le flux temporel des points d'articulation qui délimiteront les frontières de segments pertinents. Le découpage métrique et la pulsation sont alors déduits de la morphologie des segments. Finalement, les segments, et par conséquent les évènements élémentaires qu'ils comportent, sont soumis indépendamment les uns des autres à un étirement ou une compression temporelle calculée pour garantir leur alignement avec la grille de la pulsation. De ce fait , deux segments porteurs d'une même morphologie rythmique bénéficient du même alignement sur la grille de pulsation, ce qui facilite considérablement leur transcription ultérieure en des expressions identiques. Ce dernier point est important et peut être justifié de la manière suivante : plutôt que d'avoir une erreur de quantification distribuée aléatoirement au sein de la micro structure rythmique -- ce qui provoque en général et le défaut de cohérence et le défaut de minimalité -- cette erreur est localisée et donc contrôlée au niveau des segments. Si la micro-stucture des segments reste problématique, à tout le moins le rapport entre perception et notation n'est il pas gravement perturbé.

Nous avons indiqué que la pulsation est déduite de la morphologie des segments : les expérimentations menées pour trouver le meilleur algorithme devaient délivrer une surprise intéressante. En effet, les meilleurs résultats furent obtenus en appliquant une technique qui avait fait ses preuves non pas dans le champ des durées mais dans celui des hauteurs. Il s'agit de l'algorithme de détection de fondamentale virtuelle. Soit un spectre discret de fréquences. La fondamentale virtuelle est une fréquence grave, non obligatoirement présente dans le spectre, dont les autres partiels peuvent se déduire, avec une certaine approximation, par multiplication de cette fondamentale avec un coefficient entier. Cette technique peut s'appliquer à un accord tempéré, le coefficient d'approximation garantissant alors que les multiples de la fondamentale virtuelle sont dans un voisinage des notes borné par un micro-intervalle dépendant de l'échelle de référence (1/2 ton, 1/4 ton etc.). Cette opération a été utilisée notamment pour créer des polarisations harmoniques au sein d'ensembles d'aggrégats disparates, le spectre harmonique associé à chaque fondamentale virtuelle jouant un rôle similaire à celui d'une tonalité. (C'est le cas dans la pièce nonsun, pour quintette de bois, de Claudy Malherbe). Pour comprendre la nature de ce "transfert de technologie" que nous opérons entre hauteurs et durées, il faut considérer la série des durées des segments successifs comme une sorte de spectre de durées (où les durées remplacent directement les hauteurs de l'exemple précédent). La "fondamentale virtuelle" de ce spectre est donc une durée constituant un diviseur commun à tous ces segments. Cette durée n'est autre que la durée de la pulsation dont se déduit immédiatement le tempo. Nous utilisons non pas un mais deux facteurs d'approximation (nous n'entrerons pas dans le détail dans le cadre de cet article, la description complète du processus est donnée dans [Assayag 94]) qui déterminent un plan paramétrique, dans lequel s'opére une catégorisation : dans cet espace paramétrique apparaissent des régions dénotant une pulsation/tempo. Lorsque les facteurs d'approximation varient continûment, le tempo lui reste stable, puis bascule de manière "catastrophique" lorsque l'interface de deux régions est traversé.

On introduit donc dans la quantification rythmique un niveau intermédiaire de la hiérarchie métrico-rythmique, une segmentation en gros équivalente au découpage en mesures, permettant de contrôler localement le bruit de quantification. Reste à déterminer les critères de cette segmentation. Précisons tout d'abord que nous avons voulu donner au musicien le contrôle total de cette phase critique du traitement : le programme est conçu comme un éditeur graphique et interactif permettant d'effectuer manuellement le découpage d'une séquence. Mais il propose tout de même un ensemble de stratégies de segentation automatique combinables entre elles et avec le découpage manuel. Parmi ces méthodes, deux se sont avérées efficaces dans le cas de séquence de durées engendrées par des modèles simulant des processus physiques. La première est basée sur la détection de "pics" de durées, soit de durées plus longues que celles qui précèdent et qui suivent. Par lissage du graphe exprimant les durées en fonction du numéro d'évènement, on ne retiendra que les pics les plus significatifs, c'est à dire qu'on comparera chaque valeur de durée avec une moyenne des durées environnantes sur un voisinage plus ou moins large. Le critère perceptif pertinent ici est l'accent agogique : en segmentant aux positions de ces accents, on les alignes avec la pulsation évitant ainsi qu'ils n'apparaissent au milieu d'une figure compliquée. La seconde méthode est fondée sur la courbe de densité obtenue en déplaçant le long du graphe des durées une fenêtre temporelle constante dans laquelle on calcule une valeur de densité fonction du nombre et de la durée des évènements. L'étude de cette courbe permet de détecter des groupements d'évènements rapprochés dans le temps qui tendent à être nettement isolés par la perception de leur contexte passé et futur. D'autres méthodes sont basées sur la reconnaissance de formes (patterns de durées) avec approximation ou de quasi-synchronismes dans le cas de séquences polyphoniques.

Commentaires.

L'approche du rythme sous-entendue dans le modèle "Kant" implique la considération du phénomène sonore de référence comme une boîte noire sur laquelle on dispose de peu de connaissance. Elle est particulièrement justifiée dans le cas de phénomènes complexes, notamment chaotiques, sur lesquels l'imposition d'une pulsation arbitraire est dénuée de sens, et cause en général l'échec des quantificateurs traditionnels. Plutôt que de considérer le phénomène comme une surface sur laquelle on tracera une grille de quantification, nous effectuons un détour par un modèle de perception impliquant l'aggrégation de phénomènes élémentaires en objets de plus haut niveau (que nous avons appelé segments), ce qui impose un premier niveau de structuration des données avant leur quantification. Ce sont, dans une première phase, ces objets qui seront cadrés, au prix d'une déformation, dans une pulsation (puisque la contrainte que nous nous donnons est malgré tout la transcription dans un système de notation métrique) et non pas les évènements sonores élémentaires. Ces derniers le sont à leur tour dans une deuxième phase du traitement. C'est cette pré-structuration qui assure la propriété de cohérence (même phénomène, même notation). Bien sûr plusieurs segmentations sont possibles selon les structures que l'on veut mettre en évidence : c'est là un des principaux degrés de liberté du système.

Un exemple.

Le graphe suivant montre une représentation évènement/durée d'un processus rythmique dû à Tristan Murail et obtenu par une interpolation continue entre une sinusoïde (accélération et décélération périodique) et une exponentielle (accelerando). L'accelerando, une fois atteint, est répété trois fois. Entre la sinusoïde et l'exponentielle, la zone intermédiaire de l'interpolation a un caractère d'instabilité très perceptible. Les pics de durée dénotent des évènements longs (agogiques) environnés d'évènements plus courts. La courbe lissée permet de sélectionner les agogiques les plus marquants [figure 11]

Figure 11. Interpolation rythmique. Représentation évènement / durée.

Figure 12. Interpolation rythmique. Quantification traditionnelle.

La quantification de cette séquence par l'approche traditionnelle (métrique et pulsation arbitraires) montre le défaut de cohérence (l'accelerando est noté quatre fois de manière différente) et de simplicité (sans commentaire) [figure 12].

L'illustration suivante résume le traitement décrit précédemment. Les ronds et les carrés représentent les débuts d'évènements élémentaires. Dans le cas polyphonique, les voix sont d'abord fusionnées (step 1). Puis les segments sont calculés ou donnés par l'utilisateur (step 2). L'algorithme de fondamentale virtuelle extrait ue pustion (step 3, trait pointillé). Les segments sont dilatés ou compressés pour s'aligner sur la pulsation (step 4). Le reste du traitement, non figuré ici, consiste à disposer les évènements à l'intérieur de la pulsation en calculant des subdivisions (croche, triolet etc.) optimales de cette dernière.

Figure 13. Les étapes de l'analyse dans Kant.

Le résultat est présenté sous la forme d'une partition rythmique. On note que des phénomènes identiques sont représentés de manière identiques, que le caractère symétrique de la sinusoïde est bien matérialisé par la structure miroir des trois premières mesures. Dans la partie centrale, instable du point de vue rythmique, les phénomènes de symétries et de répétitions avec déformation sont bien notés. La simplicité est acceptable compte tenu du caractère irrégulier du phénomène analysé [figure 14].

Figure 14. Interpolation rythmique. Quantification avec Kant.

Conclusion : perméabilité et ductilité en quantification

Kant est basé sur la segmentation : c'est là sa limite et cela mesure la portée de sa perméabilité, pour reprendre la terminologie posée plus haut. Le système de mesures est directement dérivé de la segmentation ; si cette dernière est mal conduite, il peut en résulter un mesurage inutilement complexe : par exemple, dans le cas de musiques à carrures ou formules rythmiques périodiques, si le critère de segmentation ne prend pas cette périodicité en compte, les déformations locales opérées lors de l'étape 4 [figure 13] sont susceptibles d'altérer notablement le caractère itératif.

Cette imperméabilité est toute relative, car les méthodes de segmentation peuvent être paramétrées par l'utilisateur, qui peut même ajouter ses propres méthodes à la liste disponible. La segmentation peut être opérée à la main, c'est à dire qu'il est toujours possible de conduire le système exactement où l'on veut qu'il aille.

Cette approche peut être comparée à celle utilisée par François-Bernard Mâche dans l'estuaire du temps. Le système de quantification des hauteurs est un mélange dosé de deux méthodes. Il s'agit de méthodes qu'on peut qualifier d'élitistes, puisque le choix des paramètres de réglage permettant une certaine perméabilité est nécessairement complexe. L'exemple de "Kant" montre que, en plus, le choix de paramètres par défaut n'est pas nécessairement une bonne solution, en tout cas comparé à la pupart des produits commerciaux, beaucoup plus imperméables.

On peut néanmoins toujours remédier à un système trop imperméable par une utilisation ductile des résultats de ce système. C'est ce que faisait Mâche dans ses autres oeuvres quantifiées, simplement car il sait où il veut aller (nous pourrions à cet égard prendre pour devise ces vers de P. Valéry : "Je sais où je vais, je t'y veux conduire/Mon dessein mauvais n'est pas de te nuire" ).

Biblio

[Assayag 94] Assayag, G., Agon, C., Fineberg, J., Rueda, C. Kant: a Critique of Pure Quantification, Proceedings of the ICMC, Aarhus, 1994.

[Balzano 80] Balzano, Gerald J, "The Group-theoretic Description of 12-Fold and microtonal Pitch Systems", in Computer Music Journal, vol 4, ndeg.4, pp 66-84 (hiver 80)

[Brown 93] Brown J.C, "Determination of the meter of musical score by autocorrelation" in J.Acoust.Soc.Am. 94. 1953-1957. (1993)

[Desain H 91] P. Desain, H. Honing, "The Quantization Problem : Traditional and Connectionist Approaches", in M. Balaban, K. Ebcioglu & O. Laske (Eds) Understanding Music with AI : Perspectives on Music Cognition, pp 448-463, The AAAI Press, 1992.

[Entretemps 89]. Entretemps No 8, sept. 1989. Numéro sur la musique spectrale.

[Liberman 67] A.M. Liberman, F.S. Cooper, D.P. Shankweiler, M. Studdert-Kennedy, "Perception of the speech code", in Psychological review, 74, 6, pp 431-461 (1967)

[Ligeti 58] Ligeti, Gyorgi, "Wervandlerungen der musikalischen Form" in die Reihe ndeg.6, pp 5-19 (1958)

[Mâche 90] Mâche, François-Bernard, Musique, mythe, nature ou les dauphins d'Arion, Klinksiek, Paris, 1990 [1ére édition 1983]

[Nicolas 90] Nicolas, François, Le feuilleté du tempo, Entretemps ndeg.9, 1990.

[Partch 49] Partch, Harry, Genesis of a music, Da Capo Press, New York, 1949-1974

[Petitot-Cocorda] Petitot-Cocorda, Jean, Les catastrophes de la parole, Maloine, Paris, 1985

[Thom 80] R. Thom, Modèles Mathématiques de la morphogenèse. Christian Bourgois. Paris, 1980

[Venturi 90] Venturi, Robert, Learning from Las Vegas, MIT Press, Cambridge, Mass., 1972