Synthèse
Synthèses musicales
Suivant le point de vue selon lequel on se place, il est possible
de définir trois types de modélisation :
- synthèse par modèles physiques : on ne modélise que le système
producteur de son, c'est-à-dire l'instrument de musique lui-même (ou
le système phonatoire humain dans le cadre de la synthèse de la
parole). En général, il s'agit de simulations physiques pour vérifier
la pertinence d'un modèle théorique. Le problème de la compression du
signal n'est souvent ici qu'auxiliaire.
- modèles de signaux : on ne s'intéresse qu'à la mesure du signal
acoustique, sans réellement se préoccuper de la nature de la
production. C'est en grande partie les modèles utilisés en théorie du
codage en télécommunications, et en synthèse musicale,
- modèles psychoacoustiques : on ne s'intéresse qu'aux
caractéristiques du récepteur, c'est-à-dire de l'oreille. Cela devient
de plus en plus une préoccupation majeure pour les applications de
télécommunications.
Synthèses par modèle physique
Ce type de synthèse repose sur une description physique et acoustique
relativement précise des mécanismes initiateurs de la vibration et du
son. C'est en général une tâche très ardue que de développer un modèle
physique d'un instrument, les disciplines impliquées étant nombreuses
:
- l'acoustique et la mécanique pour comprendre et décrire les
phénomènes physiques,
- l'automatique et le traitement du signal pour établir un schéma
de discrétisation adéquat au problème, et fournir les lois de
commandes adéquates au modèle afin d'assurer la stabilité numérique du
système,
- l'informatique et l'électronique pour coder le synthétiseur
temps-réel sur une architecture matérielle adéquate,
- la musique pour apprendre à jouer du modèle physique.
Il existe plusieurs méthodologies permettant d'obtenir des modèles
physiques, le tout étant de préciser les couples de variables qui
décrivent le système :
- pression entrante et sortante pour la théorie des guides
d'ondes développée pour la première fois par J. O. Smith en
1982. C'est la description que l'on retrouve dans la plupart des
synthétiseurs dits virtuel du marché. Dans cette description,
le système excitateur est clairement dissocié du résonateur (mais
toujours fortement couplé!).
- force et déplacement (ou débit) pour Modalys développé depuis
1985 à l'IRCAM. Les systèmes physiques linéaires sont dans ce cas
entièrement décrits par leurs modes de résonance (description
modale). Dans cette description, le système excitateur reste
clairement dissocié du résonateur (et toujours fortement couplé!).
- force et position pour Cordis/Anima, développé depuis 1980 par
Claude Cadoz au sein de l'ACROE à Grenoble. Le système est très
général et permet de prendre compte beaucoup d'autres systèmes que les
stricts systèmes acoustiques.
À l'exception de Modalys, tous les autres systèmes ont la possibilité
de fonctionner en temps réel, et d'interagir directement avec
l'instrumentiste. Nous verrons dans un chapitre ultérieur les
implications que cela entraîne sur le contrôle de la synthèse.
La plupart des grands constructeurs de synthétiseur ont à l'heure actuelle
dans leur gamme de produits au moins un synthétiseur fonctionnant sur le
principe des modèles physiques. Pour l'instant, c'est la description
sous la forme de guide d'ondes qui emporte l'adhésion des
constructeurs. Le marché n'est pas encore réellement développé, mais
tous les acteurs du petit monde de la musique et des constructeurs de
synthétiseurs s'accordent à dire que le marché existe potentiellement,
et qu'il ne manque pas grand-chose pour qu'il démarre véritablement.
Synthèses par modèle psychoacoustique
Ce sont des modèles qui sont essentiellement développés pour le
stockage du signal sonore. D'un point de vue de la synthèse musicale,
aucune application n'a été pour l'instant proposée. Le taux de
réduction des données est considérable. Les principales normes faisant
appel à ce type de codage :
- MPEG audio,
- Musicam (Digital Audio Broadcasting),
- SonyDisk,
- cassette numérique de Philips (disparu).
Ce type de représentation est terminale (puisque correspondant à ce
que nous percevons). Il n'est pas question de faire autre chose que
d'écouter des sons stockés sous un format psychoacoustique. En
particulier, il est hors de question d'appliquer à de tels sons des
algorithmes de traitement ou de modification. En effet, les artefacts
du codage sont dissimulés dans le signal audio, mais après
transformation (étirement temporel, filtrage, mixage, ...), ces
artefacts n'ont aucune raison de rester cachés. Une transformation
d'un son codé psychoacoustiquement risque de révéler des bruits de
codage habituellement dissimulés!
Synthèses par modèle de signaux
Échantillonnage
Ce n'est pas à proprement parler une méthode de synthèse. Toutefois,
il existe de nombreux détails qui font de l'échantillonneur
plus qu'un simple magnétophone.
Décomposition temporelle d'un son « musical »
Traditionnellement, les sons « musicaux », du moins les sons issus
d'instruments de musique électro-acoustiques, se décomposent en quatre
phases distinctes, correspondant (en anglais) à :
- attack : c'est la phase qui correspond à la mise en action
des phénomènes acoustiques générant le son. Cette phase dite
transitoire se caractérise par une brusque montée en amplitude
du signal sonore.
- decay : cette phase correspond à l'établissement du régime
permanent quand il existe. Elle indique la fin des phénomènes
transitoires et est caractérisée en général par une légère
décroissance de l'amplitude du signal sonore qui tend à se stabiliser.
- sustain : cette phase n'existe que pour les instruments
entretenus. C'est une phase où les caractéristiques du son restent
globalement stables (on oublie pour faciliter la caractérisation de
cette phase tous les phénomènes expressifs du type vibrato,
tremolo...)
- release : cette phase caractérise la fin des événements
sonores quand la structure qui est à l'origine du son n'est plus
soumise qu'à ses propres résonances. Autrement dit, c'est la
décroissance terminale du son.
Les phases d'attack, decay et release sont définies par des temps
caractéristiques de montée ou de descente. La phase d'attack et de
decay sont également définies par leurs amplitudes relatives.
Édition d'un son échantillonné
Un échantillonneur est un appareil qui enregistre des
échantillons, et qui peut les restituer à la demande (par exemple
en pressant une touche d'un clavier qui lui est raccordé). En ce
sens, un échantillonneur agit comme un magnétophone.
De la même façon que sur un magnétophone à bande, la variation de
vitesse de lecture entraîne une variation de hauteur, sur un
échantillonneur, la variation de vitesse de lecture des échantillons
permet artificiellement de changer la hauteur (et la durée)
d'un son. Ainsi un échantillonneur n'est-il autre chose qu'un
magnétophone à vitesse variable. La corrélation entre les
caractéristiques temporelles du son (sa durée par exemple), et ses
caractéristiques fréquencielles (son timbre, sa hauteur) est la
principale limitation de la technique d'échantillonnage qui ne peut
prétendre à reproduire fidèlement le son d'un instrument acoustique
dans toute sa variété.
Il reste toutefois un problème : la restitution des sons soutenus. Il
s'agit de générer le son issu de l'enregistrement par exemple d'un
saxophone tant que la touche du clavier est pressée, et d'arréter le
son quand la touche du clavier se relève. Pour parvenir à cet effet,
il suffit d'enchaîner convenablement les phases d'attack, decay,
sustain, et release. L'appui de la touche déclenche successivement les
phases d'attack, decay, sustain. On reste sur la phase de sustain tant
que la touche reste appuyée. Le relâchement de la touche déclenche la
phase de release.
L'édition d'un son échantillonné consiste à isoler les 4 phases
précitées, pour que l'enclenchement d'une touche enchaîne
convenablement des quatre phases du son.
Bouclage (looping)
Pour rester indéfiniment sur la phase de sustain, il est nécessaire
d'user d'un certain nombre d'artifices. La technique traditionnelle
consiste à isoler dans le son quelques périodes du signal, et de
synthétiser la phase de sustain en répétant à l'infini ces périodes
du signal. C'est la technique du bouclage (on boucle
indéfiniment sur quelques périodes du son). Elle est relativement
délicate à mettre en oeuvre. Les boucles de signal doivent se recoller
exactement, sinon, les artefacts de synthèse sont très audibles. Cette
édition se fait quasiment systématiquement à la main et à l'oreille
sur les échantillonneur du commerce, bien que quelques techniques
automatiques soient à présent à peu près au point dans différents
laboratoires.
Piano numérique
Tous les pianos numériques du type Clavinova de Yamaha utilisent le
principe de l'échantillonnage pour restituer des sonorités voisines de
celle d'un piano acoustique. Il y a 5 ans, les notes d'un piano de
concert était très proprement enregistrées en tiers d'octave (i.e. 3
notes toutes les octaves), pour trois vélocités différentes (piano,
mezzo, forte). Le son du piano est restitué, par interpolation, et par
une technique de bouclage astucieuse. Toutefois, les constructeurs
restent très discrets sur les technologies employées et il est très
difficile d'obtenir des renseignements utiles des documentations
techniques.
Synthèse additive
Historiquement, il s'agit de la première méthode utilisée pour
synthétiser des sons sur ordinateur (dès les années 60!). Toutefois,
la méthode est très lourde à mettre en oeuvre, et pour l'instant, même
s'il existe quelques synthétiseurs utilisant explicitement le principe
de la synthèse additive, la synthèse additive n'est pas encore
intégralement exploitée sur le marché des synthétiseur commerciaux.
Le modèle a déjà été décrit dans les chapitres précédents. Il s'agit
de décomposer un son, en sons élémentaires, que nous avions qualifiés
de partiels du son. Chaque partiel est représenté dans le
domaine temporel par une onde sinusoïdale. La synthèse consiste donc à
superposer des sinusoïdes les unes avec les autres.
L'intérêt de ce type de représentation : elle est entièrement
temps-fréquence. À chaque instant, un son est caractérisée par les
fréquences, les amplitudes et les déphasages respectifs de chacun de
ses partiels. Autrement dit, il y a dissociation complète entre les
caractéristiques temporelles et les caractéristiques
fréquencielles. Toute la complexité réside dans l'analyse du son,
c'est-à-dire trouver les bonnes fréquences, les bonnes amplitudes et
les bons déphasages pour chaque partiel. La difficulté et la lourdeur
d'analyse explique qu'il n'existe pas encore sur le marché de
synthétiseurs additifs convaincants.
Ce type de synthèse reste toutefois parfaitement adapté (quand les
techniques d'analyse sont convenablement maîtrisées) pour toutes les
modifications subtiles du son. La voix du castrat Farinelli a été en
partie synthétisée à l'aide de cette méthode. Les dilatations et
contractions temporelles fonctionnent correctement avec cette
technique, ainsi que les procédés de changement de hauteur ou de
timbre. Le morphing de deux sons fonctionne également assez bien avec
ce type de modèle.
Les stations de travail musicales des années 80, de type Fairlight, Synclavier,
Korg Wavestation... utilisaient, parmi d'autres, ce type de
synthèse. L'édition des paramètres de synthèse était toutefois
particulièrement pénible : le seul contrôle disponible pour modifier
un son, consistait à éditer à la main, à l'aide d'un crayon optique,
l'évolution temporelle de chaque partiel du son.
Synthèse soustractive
C'est le prototype même de la synthèse populaire, que tout le monde
utilise sans même le savoir. Elle tient sa popularité à différents
facteurs :
- sa simplicité de mise en oeuvre,
- c'est une modélisation source-filtre très intuitive,
- c'est un modèle physique de l'appareil phonatoire,
- les contrôles sont également très intuitifs.
On la retrouve ici et là sous des noms différents :
- modèle auto-régressif, AR, ARMA,
- modèle source filtre,
- prédiction linéaire
- codeur CELP,
- synthèse soustractive,
- synthèse granulaire...
Le principe consiste simplement à partir d'une source sonore très
riche en harmoniques (du bruit, un train d'impulsion, un signal carré
ou triangulaire...), à filtrer sélectivement les fréquences, autrement
dit, à sculpter l'enveloppe spectrale, d'où le nom de synthèse
soustractive.
Synthèses par distorsion
Ce ne sont pas à proprement parler des modèles de synthèses, mais plus
précisément des modèles de modification et d'enrichissement des sons
qui doivent leur popularité à la simplicité de la technologie mise en
oeuvre.
Synthèse par modulation de fréquence
La modulation de fréquence ou synthèse FM est sortie pour la première
fois sous la forme d'un produit commercial en 1983, avec la série DX7
de Yamaha. Le principe consiste à moduler (à changer
périodiquement) très rapidement la fréquence d'un oscillateur. Il
suffit de connecter la sortie d'un oscillateur sur le contrôle en
fréquence d'un autre oscillateur pour obtenir une modulation de
fréquence.
Les contrôles possibles avec ce type de synthèse restent très génériques :
- contrôle dynamique de l'enveloppe temporelle,
- contrôle dynamique de la richesse spectrale,
- contrôle non-dynamique d'un indice d'enveloppe spectrale.
Il n'existe pas vraiment de méthode d'analyse. En conséquence, les
bibliothèques de sons FM ne peuvent se faire qu'à la main, et
uniquement grâce à l'expérience et à la manipulation de paramètres qui
n'ont rien d'intuitifs.
Synthèse par distorsion d'amplitude
C'est une autre méthode qui permet de générer des sons relativement
riches en harmonique à peu de frais. Ce n'est pas à proprement parler
une méthode de synthèse, puisqu'il s'agit simplement de distordre le
signal électrique. L'effet est bien connu des joueurs de guitares
électriques qui utilisent des modules de distorsion pour changer la
sonorité de leur instrument.
Ce document a été formaté par
htmlpp.