Synthèse

Synthèses musicales

Suivant le point de vue selon lequel on se place, il est possible de définir trois types de modélisation :

synthèse par modèles physiques : on ne modélise que le système producteur de son, c'est-à-dire l'instrument de musique lui-même (ou le système phonatoire humain dans le cadre de la synthèse de la parole). En général, il s'agit de simulations physiques pour vérifier la pertinence d'un modèle théorique. Le problème de la compression du signal n'est souvent ici qu'auxiliaire.
modèles de signaux : on ne s'intéresse qu'à la mesure du signal acoustique, sans réellement se préoccuper de la nature de la production. C'est en grande partie les modèles utilisés en théorie du codage en télécommunications, et en synthèse musicale,
modèles psychoacoustiques : on ne s'intéresse qu'aux caractéristiques du récepteur, c'est-à-dire de l'oreille. Cela devient de plus en plus une préoccupation majeure pour les applications de télécommunications.

Synthèses par modèle physique

Ce type de synthèse repose sur une description physique et acoustique relativement précise des mécanismes initiateurs de la vibration et du son. C'est en général une tâche très ardue que de développer un modèle physique d'un instrument, les disciplines impliquées étant nombreuses :

l'acoustique et la mécanique pour comprendre et décrire les phénomènes physiques,
l'automatique et le traitement du signal pour établir un schéma de discrétisation adéquat au problème, et fournir les lois de commandes adéquates au modèle afin d'assurer la stabilité numérique du système,
l'informatique et l'électronique pour coder le synthétiseur temps-réel sur une architecture matérielle adéquate,
la musique pour apprendre à jouer du modèle physique.

Il existe plusieurs méthodologies permettant d'obtenir des modèles physiques, le tout étant de préciser les couples de variables qui décrivent le système :

pression entrante et sortante pour la théorie des guides d'ondes développée pour la première fois par J. O. Smith en 1982. C'est la description que l'on retrouve dans la plupart des synthétiseurs dits virtuel du marché. Dans cette description, le système excitateur est clairement dissocié du résonateur (mais toujours fortement couplé!).
force et déplacement (ou débit) pour Modalys développé depuis 1985 à l'IRCAM. Les systèmes physiques linéaires sont dans ce cas entièrement décrits par leurs modes de résonance (description modale). Dans cette description, le système excitateur reste clairement dissocié du résonateur (et toujours fortement couplé!).
force et position pour Cordis/Anima, développé depuis 1980 par Claude Cadoz au sein de l'ACROE à Grenoble. Le système est très général et permet de prendre compte beaucoup d'autres systèmes que les stricts systèmes acoustiques.

À l'exception de Modalys, tous les autres systèmes ont la possibilité de fonctionner en temps réel, et d'interagir directement avec l'instrumentiste. Nous verrons dans un chapitre ultérieur les implications que cela entraîne sur le contrôle de la synthèse.

La plupart des grands constructeurs de synthétiseur ont à l'heure actuelle dans leur gamme de produits au moins un synthétiseur fonctionnant sur le principe des modèles physiques. Pour l'instant, c'est la description sous la forme de guide d'ondes qui emporte l'adhésion des constructeurs. Le marché n'est pas encore réellement développé, mais tous les acteurs du petit monde de la musique et des constructeurs de synthétiseurs s'accordent à dire que le marché existe potentiellement, et qu'il ne manque pas grand-chose pour qu'il démarre véritablement.

Synthèses par modèle psychoacoustique

Ce sont des modèles qui sont essentiellement développés pour le stockage du signal sonore. D'un point de vue de la synthèse musicale, aucune application n'a été pour l'instant proposée. Le taux de réduction des données est considérable. Les principales normes faisant appel à ce type de codage :

MPEG audio,
Musicam (Digital Audio Broadcasting),
SonyDisk,
cassette numérique de Philips (disparu).

Ce type de représentation est terminale (puisque correspondant à ce que nous percevons). Il n'est pas question de faire autre chose que d'écouter des sons stockés sous un format psychoacoustique. En particulier, il est hors de question d'appliquer à de tels sons des algorithmes de traitement ou de modification. En effet, les artefacts du codage sont dissimulés dans le signal audio, mais après transformation (étirement temporel, filtrage, mixage, ...), ces artefacts n'ont aucune raison de rester cachés. Une transformation d'un son codé psychoacoustiquement risque de révéler des bruits de codage habituellement dissimulés!

Synthèses par modèle de signaux

Échantillonnage

Ce n'est pas à proprement parler une méthode de synthèse. Toutefois, il existe de nombreux détails qui font de l'échantillonneur plus qu'un simple magnétophone.

Décomposition temporelle d'un son « musical »

Traditionnellement, les sons « musicaux », du moins les sons issus d'instruments de musique électro-acoustiques, se décomposent en quatre phases distinctes, correspondant (en anglais) à :

attack : c'est la phase qui correspond à la mise en action des phénomènes acoustiques générant le son. Cette phase dite transitoire se caractérise par une brusque montée en amplitude du signal sonore.
decay : cette phase correspond à l'établissement du régime permanent quand il existe. Elle indique la fin des phénomènes transitoires et est caractérisée en général par une légère décroissance de l'amplitude du signal sonore qui tend à se stabiliser.
sustain : cette phase n'existe que pour les instruments entretenus. C'est une phase où les caractéristiques du son restent globalement stables (on oublie pour faciliter la caractérisation de cette phase tous les phénomènes expressifs du type vibrato, tremolo...)
release : cette phase caractérise la fin des événements sonores quand la structure qui est à l'origine du son n'est plus soumise qu'à ses propres résonances. Autrement dit, c'est la décroissance terminale du son.

Les phases d'attack, decay et release sont définies par des temps caractéristiques de montée ou de descente. La phase d'attack et de decay sont également définies par leurs amplitudes relatives.

Édition d'un son échantillonné

Un échantillonneur est un appareil qui enregistre des échantillons, et qui peut les restituer à la demande (par exemple en pressant une touche d'un clavier qui lui est raccordé). En ce sens, un échantillonneur agit comme un magnétophone.

De la même façon que sur un magnétophone à bande, la variation de vitesse de lecture entraîne une variation de hauteur, sur un échantillonneur, la variation de vitesse de lecture des échantillons permet artificiellement de changer la hauteur (et la durée) d'un son. Ainsi un échantillonneur n'est-il autre chose qu'un magnétophone à vitesse variable. La corrélation entre les caractéristiques temporelles du son (sa durée par exemple), et ses caractéristiques fréquencielles (son timbre, sa hauteur) est la principale limitation de la technique d'échantillonnage qui ne peut prétendre à reproduire fidèlement le son d'un instrument acoustique dans toute sa variété.

Il reste toutefois un problème : la restitution des sons soutenus. Il s'agit de générer le son issu de l'enregistrement par exemple d'un saxophone tant que la touche du clavier est pressée, et d'arréter le son quand la touche du clavier se relève. Pour parvenir à cet effet, il suffit d'enchaîner convenablement les phases d'attack, decay, sustain, et release. L'appui de la touche déclenche successivement les phases d'attack, decay, sustain. On reste sur la phase de sustain tant que la touche reste appuyée. Le relâchement de la touche déclenche la phase de release.

L'édition d'un son échantillonné consiste à isoler les 4 phases précitées, pour que l'enclenchement d'une touche enchaîne convenablement des quatre phases du son.

Bouclage (looping)

Pour rester indéfiniment sur la phase de sustain, il est nécessaire d'user d'un certain nombre d'artifices. La technique traditionnelle consiste à isoler dans le son quelques périodes du signal, et de synthétiser la phase de sustain en répétant à l'infini ces périodes du signal. C'est la technique du bouclage (on boucle indéfiniment sur quelques périodes du son). Elle est relativement délicate à mettre en oeuvre. Les boucles de signal doivent se recoller exactement, sinon, les artefacts de synthèse sont très audibles. Cette édition se fait quasiment systématiquement à la main et à l'oreille sur les échantillonneur du commerce, bien que quelques techniques automatiques soient à présent à peu près au point dans différents laboratoires.

Piano numérique

Tous les pianos numériques du type Clavinova de Yamaha utilisent le principe de l'échantillonnage pour restituer des sonorités voisines de celle d'un piano acoustique. Il y a 5 ans, les notes d'un piano de concert était très proprement enregistrées en tiers d'octave (i.e. 3 notes toutes les octaves), pour trois vélocités différentes (piano, mezzo, forte). Le son du piano est restitué, par interpolation, et par une technique de bouclage astucieuse. Toutefois, les constructeurs restent très discrets sur les technologies employées et il est très difficile d'obtenir des renseignements utiles des documentations techniques.

Synthèse additive

Historiquement, il s'agit de la première méthode utilisée pour synthétiser des sons sur ordinateur (dès les années 60!). Toutefois, la méthode est très lourde à mettre en oeuvre, et pour l'instant, même s'il existe quelques synthétiseurs utilisant explicitement le principe de la synthèse additive, la synthèse additive n'est pas encore intégralement exploitée sur le marché des synthétiseur commerciaux.

Le modèle a déjà été décrit dans les chapitres précédents. Il s'agit de décomposer un son, en sons élémentaires, que nous avions qualifiés de partiels du son. Chaque partiel est représenté dans le domaine temporel par une onde sinusoïdale. La synthèse consiste donc à superposer des sinusoïdes les unes avec les autres.

L'intérêt de ce type de représentation : elle est entièrement temps-fréquence. À chaque instant, un son est caractérisée par les fréquences, les amplitudes et les déphasages respectifs de chacun de ses partiels. Autrement dit, il y a dissociation complète entre les caractéristiques temporelles et les caractéristiques fréquencielles. Toute la complexité réside dans l'analyse du son, c'est-à-dire trouver les bonnes fréquences, les bonnes amplitudes et les bons déphasages pour chaque partiel. La difficulté et la lourdeur d'analyse explique qu'il n'existe pas encore sur le marché de synthétiseurs additifs convaincants.

Ce type de synthèse reste toutefois parfaitement adapté (quand les techniques d'analyse sont convenablement maîtrisées) pour toutes les modifications subtiles du son. La voix du castrat Farinelli a été en partie synthétisée à l'aide de cette méthode. Les dilatations et contractions temporelles fonctionnent correctement avec cette technique, ainsi que les procédés de changement de hauteur ou de timbre. Le morphing de deux sons fonctionne également assez bien avec ce type de modèle.

Les stations de travail musicales des années 80, de type Fairlight, Synclavier, Korg Wavestation... utilisaient, parmi d'autres, ce type de synthèse. L'édition des paramètres de synthèse était toutefois particulièrement pénible : le seul contrôle disponible pour modifier un son, consistait à éditer à la main, à l'aide d'un crayon optique, l'évolution temporelle de chaque partiel du son.

Synthèse soustractive

C'est le prototype même de la synthèse populaire, que tout le monde utilise sans même le savoir. Elle tient sa popularité à différents facteurs :

sa simplicité de mise en oeuvre,
c'est une modélisation source-filtre très intuitive,
c'est un modèle physique de l'appareil phonatoire,
les contrôles sont également très intuitifs.

On la retrouve ici et là sous des noms différents :

modèle auto-régressif, AR, ARMA,
modèle source filtre,
prédiction linéaire
codeur CELP,
synthèse soustractive,
synthèse granulaire...

Le principe consiste simplement à partir d'une source sonore très riche en harmoniques (du bruit, un train d'impulsion, un signal carré ou triangulaire...), à filtrer sélectivement les fréquences, autrement dit, à sculpter l'enveloppe spectrale, d'où le nom de synthèse soustractive.

Synthèses par distorsion

Ce ne sont pas à proprement parler des modèles de synthèses, mais plus précisément des modèles de modification et d'enrichissement des sons qui doivent leur popularité à la simplicité de la technologie mise en oeuvre.

Synthèse par modulation de fréquence

La modulation de fréquence ou synthèse FM est sortie pour la première fois sous la forme d'un produit commercial en 1983, avec la série DX7 de Yamaha. Le principe consiste à moduler (à changer périodiquement) très rapidement la fréquence d'un oscillateur. Il suffit de connecter la sortie d'un oscillateur sur le contrôle en fréquence d'un autre oscillateur pour obtenir une modulation de fréquence.

Les contrôles possibles avec ce type de synthèse restent très génériques :

contrôle dynamique de l'enveloppe temporelle,
contrôle dynamique de la richesse spectrale,
contrôle non-dynamique d'un indice d'enveloppe spectrale.

Il n'existe pas vraiment de méthode d'analyse. En conséquence, les bibliothèques de sons FM ne peuvent se faire qu'à la main, et uniquement grâce à l'expérience et à la manipulation de paramètres qui n'ont rien d'intuitifs.

Synthèse par distorsion d'amplitude

C'est une autre méthode qui permet de générer des sons relativement riches en harmonique à peu de frais. Ce n'est pas à proprement parler une méthode de synthèse, puisqu'il s'agit simplement de distordre le signal électrique. L'effet est bien connu des joueurs de guitares électriques qui utilisent des modules de distorsion pour changer la sonorité de leur instrument.

Page remise à jour le
Ven 26 Déc 1997 15:37:14

Tassart Stéphan
IRCAM

Ce document a été formaté par htmlpp.