Universite P. et M. Curie Paris VI

Integration des representations temps/frequence et des representations musicales symboliques

par

Peter Hanappe

Groupe Representation Musicale, IRCAM

Superviseur: Gerard Assayag

Rapport de stage

DEA Acoustique, Traitement de Signal et Informatique Appliques a la Musique

Annee 1994-95

Resume

Nous presentons un environnement d'analyse pour l'extraction de parametres musicaux a partir d'un son en vue de leur utilisation dans un environnement de CAO. Nous proposons deux manieres de decrire le son: la description en suite d'accords et la description par partiels.

Nous ne proposons pas une analyse completement automatique, par contre une grande importance est accordee aux aspects interactifs et graphiques de cet environnement.

Nous avons installe un environnement qui est deja utilisable dans des situations concretes. Avec les ameliorations et extensions proposees cet environnement peut devenir un outil interessant pour les situations de CAO.

Mots-Clef

transcription automatique, extraction de parametres musicaux,

suivi de partiels, detection d'evenements, segmentation, composition assistee par ordinateur

Merci

La redaction d'un memoire debute en general par un mot de remerciements. Je voudrais alors fortement remercier tous ceux qui ont rendu possible ce projet :

Gerard Assayag pour m'avoir accueilli dans son equipe,

Gerhard Eckel pour ses bons conseils,

l'equipe doctorale, en special Jean-Claude Risset, Michele Castellengo et Philippe Depalle, pour avoir cree ce DEA unique,

Marie-Therese Join pour ses bons soins,

Carlos Agon pour m'avoir supporte comme collegue,

mes copains du DEA pour leur existence,

et finalement

mes parent qui m'ont offert cette annee d'etudes dans la ville lumiere.

1. Introduction

Ce rapport decrit le travail que nous avons effectue a l'IRCAM pendant les trois mois de stage qui concluent le DEA A.T.I.A.M. Deux equipes ont collabore dans le cadre de ce projet: l'equipe Representation Musicales et l'equipe Interface et Representations des Sons.

L'equipe Representations Musicales s'interesse particulierement aux aspects discrets et symboliques des structures musicales (notamment leur notation solfegique) et a leurs traductions en abstractions manipulables sur un ordinateur. L'equipe Interface et Representations des Sons s'interesse particulierement aux schemas de representation et de manipulation des structures sonores.

Le travail propose consiste en la creation d'une passerelle entre le domaine du son et le domaine symbolique. En l'occurrence nous voulons etablir une communication entre le logiciel AudioSculpt et le logiciel PatchWork . PatchWork est un logiciel ecrit en CommonLisp qui manipule des structures musicales symbolique et qui est utilise comme environnement pour la composition assiste par ordinateur (CAO). PatchWork possede un interface graphique de programmation visuelle et un ensemble d'editeurs specialises dans la representation et la manipulation de partitions musicales. AudioSculpt est un logiciel d'analyse et de synthese des sons. Il possede une interface graphique puissante qui sert a visualiser les analyses notamment sous la forme de sonagrammes. Une description plus detaillee de PatchWork et de AudioSculpt est donne en annexe.

L'idee consiste a analyser des sons dans AudioSculpt pour en extraire une representation symbolique qui sera envoyee vers PatchWork. Le probleme est connexe du probleme de la (re-)transcription automatique ou l'on cherche a reconstituer une partition musicale equivalente a celle qui est supposee servir de base a l'enregistrement, ce qui implique d'extraire des parametres musicaux tels que la frequence fondamentale ou le rythme, et de separer les sources.

Cependant notre but n'est pas la reconstitution d'une partition existante. En effet, nous nous situons dans un cadre de production et de composition dans lequel on suppose que le musicien, partant d'un signal sonore (enregistrement, signal synthetise) dont il desire se servir comme materiau generateur, va, a l'aide d'un ensemble de procedures combinant automatisme et interaction, en extraire des informations musicales qui seront pour lui "necessaires et suffisantes" pour constituer une trame a la fois melodique, harmonique, rythmique et dynamique, representable dans le cadre de la notation instrumentale.

Le probleme est alors plus large que dans le cas de la transcription automatique: cette derniere reste possible, mais nous incluons aussi des sons qui n'ont pas directement une representation equivalente dans la notation traditionnelle, comme les agregats complexes de partiels des son synthetises ou comme les sons multiphoniques.

Le probleme que nous nous posons est en meme temps moins defini: nous cherchons une description valable et utilisable dans le but de la composition. Les contraintes sont donc moins fortes que dans le cas de la transcription automatique car une description partielle du son peut souvent servir dans la CAO. Par exemple il peut suffire de reperer et de transcrire un seul partiel ou un sous ensemble des partiels dans un segment donne du son, si ces partiels sont ceux la meme que la perception repere et isole ou s'ils constituent le materiau qui interesse le compositeur.

Dans le flux du signal sonore, des regions considerees comme significatives vont donc etre isolees et extraites. Regions temporelles : il s'agit de segment du son percus comme des evenements. Regions spectrales : il s'agit de sous ensemble de partiels, allant de la fondamentale (si cela a un sens dans le cas du son analyse) jusqu'a des sous ensembles de partiels consideres comme significatifs du point de vue de la couleur harmonique qui se degage a l'ecoute du son. Ces partiels ont eux meme une composante temporelle et energetique et seront donc constitues comme objets dotes d'attributs. Les criteres qui permettent de juger de ce qui est ou n'est pas significatif integrent evidemment des elements subjectifs : d'ou l'importance capitale de fournir au compositeur un interface de selection et d'edition des objets (segments, partiels) issus de l'analyse.

Les parametres musicaux extraits du son seront quantifies selon des grilles relatives aux systemes de hauteurs (echelles), de rythme (metrique, pulsation, subdivision de la pulsation), de dynamiques (pp.. a ff..) inherentes au codage des partitions musicales.

Cette demarche visant a quantifier un processus sonore et a le reintroduire ainsi dans l'univers de l'ecriture musicale est largement pratiquee par les compositeurs depuis une vingtaine d'annee (citons par exemple Tristan Murail, Gerard Grisey, Joshua Fineberg, Claudy Malherbe, Georges Benjamin, Kaija Saariaho, Marco Stroppa). Messiaen en fut un pionnier avec ses transcriptions de chants d'oiseaux. Francois Bernard Mache fut probablement le premier, des les annees soixante, a utiliser la technologie electronique et numerique pour transcrire des enregistrements sonores en partitions.

Il est interessant de noter que cette technique reproduit localement (i.e. a l'echelle d'un processus sonore specifique, eventuellement inharmonique) le mecanisme plus general de discretisation, de reduction et d'abstraction de l'univers sonore (reduit auparavant aux phenomenes purement harmoniques) qui a donne lieu a l'invention des systemes d'echelles propres a l'ecriture musicale occidentale et de leur notation.

Les parametres musicaux qui sont vises comme les plus importants sont:

* le temps: dates de debut des evenements significatifs ou des partiels selectionnes.

* la frequence: valeur en frequence des sous ensembles de partiels selectionnes.

* intensite: une mesure des rapports d'intensite du sous ensembles de partiels selectionnes afin de pouvoir reconstruire une dynamique ou un timbre.

Nous avons mis peu d'effort sur l'optimisation des algorithmes d'analyses existants et les algorithmes que nous proposons ne sont pas les meilleurs. Mais nous avons travaille davantage sur les applications et l'introduction de ces algorithmes dans un environnement pret a utiliser. Nous avons profite des possibilites d'interactivite et de l'interface graphique pour creer un environnement d'analyse comprehensible et intuitif. Une bonne communication entre cet environnement et un environnement symbolique permet de convertir les analyses en structures musicales symbolique.

Les applications directes de ce travail sont donc : l' integration de materiaux sonores exogenes dans l'ecriture musicale instrumentale, notamment la possibilite de determiner des "points d'accroche" musicaux (hauteurs, durees, intensites) pour l'articulation fine entre instruments et sons concrets ou synthetises dans le cas de la musique mixte.

D'autres applications peuvent etre proposees dans le domaine de l' ethnomusicologie (transcription d'enregistrements dans la notation traditionnelle aux fins d'en analyser les echelles et le rythme) et la transcription de musiques electroacoustiques (aux fins de constituer, sous la forme de la partition, un support visuel a l'ecoute)

2. La litterature

Plusieurs travaux traitant le probleme de la transcription automatique ont ete publies. Un article pionnier dans ce domaine est l'article de Moorer [1977]. Il aborde directement le probleme des enregistrements a deux voix. Deux contraintes fortes sont placees sur les enregistrements: les voix ne peuvent pas se croiser et les intervalles de quinte et d'octave sont exclus. Les frequences des voix sont precisees en cherchant d'abord la frequence virtuelle avec une filtre en peigne, puis l'energie est inspectee aux frequences multiples de cette frequence. Les resultats semblent bons mais Moorer se pose directement la question de savoir comment l'appareil perceptif effectue cette analyse. Il explicite le besoin de donnees psycho-acoustiques pour cette tache.

D'autres travaux dans ce domaine ont ete effectues par Piszczalski et Galler [1977], Foster et al. [1982], J.C. Brown [1992], Doval [1994], Cerveau [1994] et Lepain [1995] pour n'en citer que quelques uns. Dans tous les travaux mentionnes les hauteurs des notes sont cherchees a partir d'une representation FFT.

Pour la detection des debuts et les fins des notes plusieurs strategies sont adoptees:

* la detection de la montee ou la chute de l'amplitude de la fondamentale relativement a un seuil d'audibilite [Piszczalski et Galler 1977]

* la detection des changements dans l'energie total du signal [Foster et al 1982]

* la detection des changements dans le modele autoregressif du son [Foster et al 1982; Lepain 1995]

* la detection des changements en frequence de la fondamentale [Foster et al 1982; Cerveau 1994]

Tous apportent des resultats promettants malgre le fait que les algorithmes souffrent tous de petites erreurs. Foster conclut sur ce point:

"In many cases a good mileage can be obtained from the application of basic signal processing techniques. Unfortunately, for any given technique it is usually easy to find real data for which the technique gives ambiguous or incorrect results."

Un autre probleme que Foster souligne est celui de la prise de decision:

"The problem with this traditional approach is that the intermediate data can be much larger and more cumbersome than the original sound. To reduce this data volume, the system is forced to start taking decisions. These reduce the amount of data, but information is always lost, especially when a bad decision is made".

Les trois problemes principaux: le besoin de donnees psycho-acoustiques, le fait qu'aucune technique d'analyse ne soit toute puissante et la prise de decision, sont rencontres dans presque tous les travaux.

Dans la domaine de la parole plusieurs travaux basent leurs analyses sur des modeles d'oreille pour determiner la frequence fondamentale de la voix ou de plusieurs voix. Citons par exemple les travaux de Assmann and Summerfield, Meddis and Hewitt, Van Immerseel and Martens.

Un travail elabore tombant dans cette categorie est celui de G.J. Brown qui essaie de separer deux voix parlees simultanees [1992]. Dans un article ulterieur [Brown and Cooke] il applique cet algorithme aux sons musicaux. L'analyse commence avec un filtrage par un banc de filtres suivi d'une analyse d'auto correlation dans chaque canal. Un examen fin de l'activite dans chaque canal regroupe les canaux sur des criteres de temps d'attaque, de temps de fin, de periodicite commune et de timbre. Ainsi les deux voix sont reconstruites.

A part les travaux sur la transcription automatique il y a travaux qui determinent les attributs musicaux ou perceptifs comme le timbre, la sonie, la rugosite, la tension musicale ou le centre tonal.

Plusieurs travaux essaient de decrire le timbre formellement. Citons les travaux de Krimphoff et al. [1994] et Donnadieu et al. [1994]. Les travaux indiquent que le timbre est un attribut musical multidimensionnel. Une dimension qui semblent jouer un role important dans la perception du timbre sont la distribution de l'energie sur l'axe de frequences (ce qu'on appelle souvent la brillance) et la qualite de l'attaque (synchronise des harmoniques, temps d'attaque). D'autres parametres sont proposes mais ils sont moins significatifs que les deux premiers. Beaucoup d'effort est mis sur la description du timbre. Cette description est tres importante dans le cas de signaux musicaux. Neanmoins cela reste un probleme difficile pour le moment et les mesures fiables n'existent pas encore.

Un algorithme pour le calcul de l'intensite du son en sonie a ete developpe a l'IRCAM par Bennett Smith. Il est fonde sur le travail de Moore and Glasberg [Moore and Glasberg] et sera introduit prochainement dans AudioSculpt.

Un travail sur la detection du centre tonal¹ a ete fait par Leman [1994]. Il propose un algorithme qui suit le parcours du son dans un espace multidimensionnel qui represente l'espace des centres tonals. Il utilise un modele d'oreille qui donne en sortie une estimation des potentiels d'action dans les fibres nerveuses. 20 fibres sont simulees qui repondent toutes a une frequence caracteristique differente. La periodicite commune des potentiels d'action est calculee avec la fonction d'autocorrelation. Les coordonnees instantanees du son dans cet espace multidimensionnel sont specifiees en correlant l'information sur la periodicite avec une base de donnee qui represente vingt quatre centres tonals. Cette base de donnees represente elle-meme la connaissance apprise par le systeme.

1) un centre tonal est un point stable pour la perception du son. Les centres tonales sont "construites" spontanement lors de l'ecoute et sont en sorte l'equivalent perceptif des tonalites dans la musicologie.

3. Idees, remarques, introduction au travail

3.1 Quelques definitions

En ecrivant ce memoire nous avons rencontre quelques difficultes pour nommer les divers aspects du son. Pour eviter les malentendus nous avons utilise les termes decrits ci-dessous:

* Nous appelons "le son" l'enregistrement complet sur lequel on travaille. Il s'agit d'un processus sonore deploye dans le temps, avec un debut et une fin..

* Nous appelons "une unite sonore" une partie du son qui peut etre identifiee et detachee du contexte par l'auditeur. Cela peut etre le cas d'une note, d'un accord, voire d'un partiel plus saillant que les autres.

* Nous appelons "un composant" une unite sonore elementaire (non decomposable).

* Un "partiel" est un composant qui occupe une surface connexe sur le sonagramme .

* Nous disons qu'il y a un "evenement" lors qu'une nouvelle unite sonore commence et entre dans le son. Nous pouvons alors parler de la date de cet evenement qui correspond au temps de debut de cette unite sonore.

3.2 Symbolique versus subsymbolique

Un petit mot sur ce que nous appelons symbolique et, a l'oppose, sub-symbolique.

Nous appelons symbolique, a la suite de Camurri [1994], tout systeme de representation dans lequel les "atomes" sont eux meme des representations, c'est a dire qu'ils sont dotes d'une signification elementaire et qu'ils ont un role syntaxique elementaire au sein d'une organisation plus vaste. Ainsi de la note, qui designe une unite musicale clairement definie.

Dans le domaine symbolique nous trouvons les notes, les accords, les figures rythmiques elementaires etc.

Nous appelons sub-symbolique tout systeme de representation dans lequel les atomes ne sont pas des representations. C'est le cas, par exemple, de la representation sonagraphique dans laquelle les unite elementaires (les "pixels") n'ont de signification qu'une fois pris dans une organisation superieure (e.g. un ensemble de pixels formant un partiel).

De ce point de vue, nous voulons creer une passerelle qui permet de passer d'un environnement sub-symbolique a un environnement symbolique.

3.3 La representation tridimensionnelle

Une representation sub-symbolique du son qui est tres utilisee dans la demarche "traitement de signal" et dans la demarche "psycho-acoustique" (voir ci-dessous) est la representation comme une "surface" dans un espace tridimensionnel. La premiere dimension represente le temps. La deuxieme dimension represente la frequence (ou la periode). La troisieme dimension represente l'amplitude (ou l'energie).

En traitement de signal on utilise davantage la transformation de Fourier pour la construction de cette "surface". Nous appelons cette surface le sonagramme. D'autres representations possibles sont fondees sur la fonction d'autocorrelation, la technique de prediction lineaire, de cepstre discret ou autres.

Les representations tridimensionnelle "psycho-acoustiques" sont construites principalement a l'aide d'une modele d'oreille. [Assmann and Summerfield 1990, Meddis and Hewitt 1991 et Van Immerseel 1992].

Cette surface n'est pas lisse, elle est discretisee dans le temps et dans la frequence (dilemme de precision dans le temps et la frequence). Les points discrets de cette surface n'ont aucune relation structurelle entres eux. Nous voulons tracer des lignes sur cette surface pour delimiter les regions de points qui appartiennent tous a la meme unite sonore. Ainsi nous coupons la surface en sous-structures. En regroupant nous simplifions cette description tridimensionnelle. Les sous-structures sont interpretees et traduites en une structure qui a un sens musical et qu'on peut introduire dans l'environnement symbolique.

Le regroupement precedent est realise au plus bas niveau. Ainsi on recupere par exemple les partiels ou la trace du fondamental. On peut regrouper et segmenter sur des niveaux plus haut. Les partiels peuvent etre regroupe en notes, les notes en accords ou en lignes melodiques. Une analyse musicale expose les motifs, phrases, etc. Un environnement symbolique comme PatchWork est adapte pour les regroupement a "haut niveau". Dans AudioSculpt nous allons regrouper a "bas niveau".

Remarque: Jusqu'a maintenant la plupart des analyses de cette surface avancent sur l'axe du temps, examinant trame par trame spectre, ou quelques trames consecutives. Si on reflechit a la facon dont nous reperons visuellement les partiels et les evenements sur le sonagramme, on remarque que nous faisons plutot une analyse globale sur les amplitudes. On trace les frontieres des partiels comme on dessine les lignes de niveau sur une carte geographique. Peut etre une analyse similaire (tracer des lignes d'amplitude constante) pourrait elle nous aider dans la detection automatique des partiels?

3.4 Comment decrire un son?

3.4.1 La demarche "psycho-acoustique" et la demarche "traitement de signal"

Les algorithmes de transcription proposes dans la litterature peuvent etre divises en deux categories principales. D'un cote il y a les algorithmes de "traitement de signal". Dans ces algorithmes on appliques les techniques connues du traitement de signal sans chercher a modeliser les caracteristiques de notre perception.

De l'autre cote il y a les algorithmes qui prennent en compte les caracteristiques et les specificites de notre perception. On estime que les analyses se font plus facilement (et seront plus robuste) si on prend en compte les effets produits dans le filtrage de notre oreille. Apres tout, nos oreilles et notre perception sont les juges finaux de toute analyse (et synthese) de son. En plus notre perception est capable de faire le traitement que nous cherchons a reproduire. Comprendre et imiter ce traitement pourrait nous guider vers la solution.

Dans une approche traitement de signal on peut esperer retrouver les frequences, les amplitudes (l'energie), les durees des unites sonores presentes dans l'enregistrement. Deja on peur remarquer que l'intensite percue de l'unite n'est pas une fonction lineaire de l'energie et que sa frequence percue n'est pas facilement deduite de ses composants spectraux.

Pour les descriptions psycho-acoustiques on peut decrire l'unite sonore en parametres perceptuels equivalent a la frequence et a l'energie c'est a dire la hauteur et la sonie. Une unite sonore n'est pas entierement decrite en specifiant la hauteur et la sonie. Nous pouvons imaginer de decrire le son en des mesures plus abstraites. Si on veut obtenir quantification pour le timbre, la rugosite, la tension, la tonalite on est cense utiliser des algorithmes psycho-acoustique.

On en est au debut de la description et de la quantification du timbre, de la rugosite, de la tension etc. et les resultats des recherches ne nous permettent pas encore de donner des descriptions fiables. Nous avons des indications sur les dimensions du timbre (la qualite de l'attaque, la brillance) mais il semble tot et surtout trop ambitieux pour ce stage de vouloir inclure une analyse du timbre dans le projet. Ces attributs ont quand meme une grande importance dans la description du son et sont tres demandes dans les systemes de synthese pour aider son controle et pour determiner ses parametres.

Comme Terhardt le dit dans [Terhardt 1982], pour avoir des mesures psycho-acoustiques il faut produire des analyses similaires a celles accomplies par le systeme auditif. A l'epoque ou il a ecrit cet article, il estimait qu'aucun algorithme suffisamment simple et comprehensible n'etait disponible pour ce type d'analyse. Depuis, des modeles d'oreille simulant le filtrage dans la cochlee, la conversion du signal acoustique en signal neuronal dans les cellules ciliees et la perte de synchronicite dans les fibres nerveux sont proposes. Vu que les resultats des ces modeles sont encore discutes et vu l'environnement actuel qui est fonde sur la transformation de Fourier nous construisons une image "psycho-acoustique" a partir des spectres FFT.

Utilisant des techniques d'analyse comme la FFT ou un modele d'oreille, on cree a partir du signal des representations intermediaires. Selon le type d'analyse appliquee nous pouvons parler des representations "traitement de signal " ou "psycho-acoustique". Le sonagramme est une description intermediaire "traitement de signal" (elle est egalement une description sub-symbolique). Comme description intermediaire "psycho-acoustique" on trouve diverses "cartes perceptive" qui sont proposees dans la litterature [Leman 1994; Brown G.J 1992].

Nous remarquons que quand on ecoute la musique et quand on transcrit la musique a l'oreille on puise dans les connaissances apprises. La connaissance de la theorie musicale qui inclut la construction des accords classiques, des tonalites, des ornements et de la structure globale de la musique occidentale (motifs, phrases, contrepoint, etc.) joue probablement un role (tres) important dans cette analyse. Jusqu'a maintenant tres peu de systemes ont essaye d'incorporer une telle connaissance. Dans ce travail non plus, il n'y pas de base de donnee incluse qui modelise la connaissance musicale. C'est une amelioration sur lesquelles il est interessant de reflechir.

Cette base de donnees pourrait etre faite prealablement; elle pourrait egalement etre construite par le compositeur meme. Il y stockerait des descriptions et des parametres provenant des analyses sur d'autres sons. Il pourrait correler de nouvelles analyses avec celles faites avant et creer ainsi une description relative a la base de donnee. Par exemple, il pourrait creer une base de donnees de timbres et decrire le timbre d'un nouveau son par rapport aux timbres connus. Ainsi des mesures "absolues" pourraient etre evitees.

Nous terminons par une remarque de Terhardt: "Assigner une note au son d'une cloche est difficile et la decision finale de l'auditeur dependra de criteres complexes tels que ses capacites auditives, son experience, son attention ainsi que du contexte."

Il semble difficile de decrire un son de maniere unique et acceptable pour tous les utilisateurs ou dans toutes les situations. La description ideale ne semble pas exister. Nous pouvons proposer plusieurs descriptions a l'utilisateur, pour qu'il puisse prendre celle qui lui convient le mieux.

3.4.2 Que veut le compositeur ? les applications CAO

Ce travail se veut un outil d'analyse pour les compositeurs. Nous devons nous demander ce qu'ils attendent de cet outil. Comment est ce qu'ils utilisent les outils d'analyse disponibles et quels outils futurs imaginent ils ? Quels sont les applications que nous pouvons presenter? Quelques points.

* Une premiere application qui n'engage pas seulement les compositeurs est bien sur la transcription du son pour l'utilisation dans une partition. Il s'agit des sons enregistres ou synthetises.

* Le compositeur peut extraire un rythme base sur un son concret. Il repere les evenement remarquable dans le son et envoie les dates de debut et de fin vers une module de quantification rythmique sous PatchWork comme KANT [Agon and al 1994].

* Il peut faire une analyse spectrale d'un son dont il selectionne quelques composants et les utilise comme base d'une harmonie ou comme une ligne melodique.

* Les parametres musicaux qui sont extraits peuvent servir pour creer des liens forts entre un son enregistre et un son qu'on veut synthetiser. Nous y revenons plus tard dans la section sur le suivi de partiels.

* Cet environnement peut servir d'outil de controle. Le compositeur peut finement analyser les sont qu'il a synthetises. Cette possibilite etait prevue dans les prototypes de AudioSculpt [Eckel 1992]. Le compositeur peut demander des mesures "objectives" du son qu'il a synthetise et avoir une estimation objective de la facon dont ce son est percu. Un travail interessant sur ce point est celui de Daniel Presnitzer [Presnitzer] qui etudie la tension musicale et la rugosite des sons qui ont ete synthetises par le compositeur Joshua Fineberg. Le compositeur avait donne un coefficient de tension a chaque son et ces coefficients sont verifies par Daniel Presnitzer. Il determine la tension et la rugosite de maniere statistique (il fait evaluer les sons par des sujets) et en utilisant des modeles de calcul.

3.4.3 Les specificites des sons musicals

La musique a un caractere continu dans le temps. Neanmoins presque toute musique est structuree de maniere discrete. Elle est discretisee dans le temps et dans les frequences. Pour transcrire et decrire la musique on profite de ces caracteristiques. Ainsi il est interessant de reperer seulement les changements importants.

La question se pose alors de savoir quels sont les changements importants et comment est ce qu'on va les detecter.

Bien sur, il est interessant de trouver les endroit ou une nouvelle note commence, mais egalement tous les endroits ou change le timbre (brusquement), les endroits ou change la rugosite, la tension musicale, la tonalite, etc. Il est claire que trouver les changements perceptifs interessants demande des descriptions perceptives precises. Pour le moment peu d'algorithmes robustes et optimises pour decrire les parametres perceptifs sont disponibles.

3.5 Transcription assistee par ordinateur

Dans la transcription automatique les temps d'attaques et de fin des unites sonores doivent etre detectes et les hauteur doivent etre precisees. Beaucoup techniques d'analyse existent. Il n'existe pas pour le moment de technique d'analyse pour reperer les temps d'attaques ou pour retrouver les hauteurs qui soit fiable a cent pour cent ou qui marche sur tous les sons. Ceci est vrai pour l'analyse des signaux monodique et encore plus vrai pour les signaux polyphoniques. Plusieurs chercheurs se demandent meme si on arrivera jamais a produire un systeme d'analyse qui soit a la fois general et completement automatique.

Les resultats intermediaires sont souvent nombreux et ne sont pas toujours tres comprehensibles. Pour diminuer cette quantite d'information les resultats doivent etre tries. Ce tri demande une prise de decision qui elle meme implique des criteres de choix. Il faut specifier ces criteres et les quantifier d'une maniere ou une autre. Les valeurs cherchees sont souvent trouvees de maniere heuristique en testant sur plusieurs (beaucoup de) sons et en gardant les valeurs optimales. Les valeurs donnees aux parametres sont malheureusement peu souvent optimales pour tous les sons.

Les analyses automatiques commencent avec le son et se terminent avec la partition. Les differentes etapes de cette analyse sont fixes et les resultats intermediaires ne sont pas necessairement accessible pour l'utilisateur. Mais sur les resultats intermediaires on peut appliquer d'autres techniques d'analyse que celles qui sont preprogrammees. Certaines de ces techniques alternatives peuvent etre plus optimales que celles preprogrammees pour un son donne. De plus, il est possible que l'utilisateur desire essayer plusieurs techniques d'analyse s'appliquant aux resultats intermediaires et fournissant des descriptions differentes. Chaque technique a ses propres caracteristiques, ses avantages et ses desavantages. Certains aspects du son peuvent etre mieux mis en lumiere avec telle technique qu'avec une autre. Meme une description sous-optimale peut etre utilisable dans des applications CAO.

Il nous semble ainsi important de creer un ensemble d'outils de description et d'analyse. L'utilisateur peut alors les essayer et les combiner pour trouver la meilleure solution.

La maniere de proceder que nous avons choisie dans ce travail a comme hypothese de base que nous n'esperons pas fournir une analyse completement automatique, complete et sans fautes. Par contre nous proposons une analyse en plusieurs etapes. Apres chaque etape l'utilisateur a acces aux resultats et peut les modifier. Ainsi il peut corriger ou supprimer des donnees qu'il envoie a l'etape suivante. Nous avons souligne le probleme de la prise de decision dans les analyses. Nous pouvons aider a resoudre ce probleme en laissant la decision a l'utilisateur. Nous lui montrons les resultats et il decide ce qui sera garde et ce qui sera jete. Nous ne proposons donc pas une analyse automatique mais interactive.

Par "interactif" nous entendons que l'utilisateur peut changer les parametres (par defaut) proposes a lui par l'ordinateur et qu'apres chaque analyse il peut modifier les resultats et decider comment poursuivre. Nous pouvons parler d'une transcription ou d'une analyse assistee par ordinateur

3.6 L'interface graphique

Nous sommes dans le cas de la CAO, c'est a dire que la maniere de travailler et d'analyser n'est pas soumise aux contraintes du temps reel. Dans cet environnement l'utilisateur a la possibilite d'essayer et de refaire. Nous pouvons faire une analyse pas a pas guidee par les decisions de l'utilisateur. Cela necessite de lui presenter les resultats de maniere lisible et comprehensible. Il est bien que l'utilisateur peut verifier a l'oeil les resultats avant de les passer a l'etape suivante (what you see is what you get). Cette interface doit permettre de comprendre les resultats intermediaires et de decider des decisions a prendre. Comme il s'agit souvent d'une quantite de donnees enorme, de bonnes strategies de visualisation doivent etre adoptees. En plus, il a besoin des outils qui lui permettent d'examiner les resultats de plus pres.

Comme nous l'avons dit plus haut, il a la possibilite de changer ou de corriger les resultats intermediaires. Si nous proposons a l'utilisateur de travailler sur ces resultats il doit posseder egalement des outils de manipulation qui sont intuitifs et faciles a utiliser.

Nous avons parle du probleme de prise de decision. Pour specifier les parametres qui sont utilises dans la prise de decision on peut les programmer "en dur". Il est alors impossible de les changer. On peut aussi demander les valeur des parametres a l'utilisateur avant de lancer l'analyse. L'utilisateur doit neanmoins comprendre la signification de ces parametres et savoir quelles valeurs leur donner. Souvent il se voit confronte a beaucoup de parametres dont il comprend mal la signification. Le mieux serait de trouver une maniere d'introduire des parametres de facon intuitive et verifiable. Le fait que nous travaillions de maniere interactive nous permet d'eviter de prendre des decisions dans la mise au point des algorithmes. L'utilisateur prend la decision lui meme apres verification des resultats. Evidemment, cela demande une visualisation optimale et bien ordonnee des resultats et un interface tres clair pour introduire les parametres.

Pour la transmission des resultats de AudioSculpt vers PatchWork et inversement une interface rapide est necessaire. Souvent la transmission se fait par l'intermediaire d'un fichier. Cette facon de faire les choses ne permet pas toujours de communiquer rapidement. Nous voulons que l'utilisateur puisse faire une analyse, verifier les resultats directement dans PatchWork et relancer une analyse si les resultats ne lui plaisent pas. Pour optimiser cette methode de travail la communication entre logiciels doit etre plus facile et plus rapide.

Les ordinateurs personnels sont de plus en plus equipes d'interfaces graphique. Leur vitesse augmente tous les jours qui permet de faire du graphisme puissant. L'interface graphique est devenu un sine qua non dans les logiciels. Quand nous reflechissons sur les methodes d'analyse et leurs distribution aux utilisateurs, nous devons egalement reflechir sur la maniere dont nous allons visualiser et manipuler les resultats.

La visualisation des resultats peut avoir des desavantages. Les donnees peuvent etre trop reduites pour un examen precis. En plus, l'utilisateur peut avoir besoin des resultats exacts pour d'autres buts. Il doit avoir acces au donnees exactes, c'est a dire les chiffres purs et durs. Exporter les resultats intermediaires dans un fichier est important. Cela permet d'exporter les donnees precises vers d'autres logiciels. Egalement, importer des donnees qui viennent d'autres logiciels est important. Une bonne communication entre logiciels permet de faire des traitements complexes qui ne sont pas possible avec un seul logiciel. Creer un systeme ouvert donne aux utilisateur le moyen de personnaliser leur environnement et de combiner les fonctionnalites des logiciels de maniere creative.

3.7 Le probleme inverse

Nous avons parle d'extraction d'une description symbolique d'un son. C'est le chemin bottom-up, c'est a dire nous partons du signal et essayons de le decrire. L'inverse serait alors de fournir la description symbolique et d'arriver au sons qui convient a la description.

Dans le probleme inverse on essaie de construire un module de traitement de signal a partir de cette description symbolique qui produira le son. Ce module peut etre un module de synthese ou de filtrage. C'est l'approche top-down, generalement qualifiee de "controle de la synthese". Plusieurs travaux traitant de ce probleme sont disponibles. Le lecteur peut consulter Rodet [1984], Miranda [1993] et Eckel [1994] sur ce point.

Pour aller d'une representation sub-symbolique a une representation symbolique on reduit l'information. Differents enregistrements de la note joue sur le meme instrument sont a chaque fois representes par une et seule note meme si les enregistrements sont de "caractere tres differents". Par exemple, une note chantee deux fois et a chaque fois avec un vibrato different est notee pareillement dans la notation traditionnelle. On perd de l'information; par contre on gagne de l'abstraction. Cette abstraction est beaucoup plus proche de la pensee musicale que les parametres physiques exactes du son.

Pour aller d'une representation symbolique a une representation sub-symbolique il faudrait introduire de l'information pour compenser cette reduction. Sinon chaque resynthese sonnerait toujours pareil et aurait un caractere stereotype. Une resynthese a partir d'une description symbolique necessite alors des connaissance supplementaire preprogrammees et egalement l'introduction d'une certaine "incertitude" (incertitude et information sont lies: cf. la theorie de l'information: I = -P.logP) si on veut arriver a des sons realistes. (Est ce qu'on peut modeliser certains elements de la synthese comme des processus "chaotiques" ?)

Dans les environnements presentes ici on peut s'imaginer plusieurs traitements possibles a partir d'une description symbolique. Un accord peut etre interprete dans AudioSculpt comme un ensemble de filtres passe-bande. L'accord decrit les regions sur le sonagramme qui sont amplifiees ou filtrees.

La representation symbolique qui a ete extraite du son et les modifications de cette representation dans PatchWork peuvent decrire un traitement de ce son. Nous allons voir qu'on peut placer des marqueurs sur l'axe du temps dans AudioSculpt. Dans PatchWork la configuration des dates temporelle de ces marqueurs peuvent etre interpretees comme un rythme. Une modification de ce rythme, par exemple sa quantification, peut etre interpretee comme un ensemble de dilatations ou compressions du son dans le temps, et etre reintroduite comme un traitement dans Audiosculpt. De la sorte, le signal d'origine serait remis en accord avec sa transcription quantifiee. Il en est de meme dans le domaine des hauteurs.