Soutenance de thèse Diemo Schwarz, 23.1.2004 11:00, Ircam-Centre Pompidou: Data-Driven Concatenative Sound Synthesis

Résumé

La synthèse concaténative par sélection d'unités sonores utilise une base de données de sons enregistrés, et un algorithme de sélection d'unités qui choisit les segments de la base de données qui conviennent le mieux pour la séquence musicale que l'on souhaite synthétiser, dite la cible. Ensuite, ces segments sont concaténés pour former la phrase cible. La sélection est fondée sur les caractéristiques de l'enregistrement, qui sont obtenues par analyse du signal et correspondent par exemple à la hauteur, à l'énergie ou au spectre.

Les méthodes de synthèse musicale habituelles sont fondées sur un modèle du signal sonore, mais il est très difficile d'établir un modèle qui préserverait la totalité des détails du son. En revanche, la synthèse concaténative, qui utilise des enregistrements réels préserve ces détails.

Si la base de données des enregistrements est suffisament grande, on dispose d'une grande quantité de sons dans de nombreux contextes, ce qui permet de minimiser l'application de transformations, qui entraînent toujours une dégradation du son. Cette approche, dite approche fondée sur les données, bénéficie des informations contenues dans les nombreux enregistrements sonores. Au contraire, l'approche dite ``fondée sur les règles'' construit les règles de façon réflexive, ce qui peut être source d'erreurs.

En synthèse de la parole, les méthodes de synthèse concaténative sont les plus employées. Ces systèmes sont géneralement considérés comme plus performants que les systèmes de synthèse paramétriques fondés sur les règles pour le naturel et l'intelligibilité. En effet, les résultats dans d'autres domaines, comme celui de la reconnaissance de la parole, confirment la supériorité générale de l'approche fondée sur les données. Les idées de la synthèse concaténative fondée sur les données apparaissent dans d'autres applications et systèmes de synthèse musicale. Ceux-ci sont brièvement présentées et analysées.

Le système logiciel CATERPILLAR, réalisé au cours de cette thèse, permet de réaliser la synthèse sonore musicale concaténative fondée sur les données. Or, la création musicale est une activité artistique, et n'est donc pas fondée sur des critères rigoureusement définis, comme c'est le cas en synthèse de la parole, celle-ci accordant un interêt primordial à l'intelligibilité et au naturel. C'est pourquoi l'utilisation de ce système de synthèse musicale pour une activité créatrice permet également aux compositeurs et musiciens d'atteindre de nouvelles sonorités. Le système est capable d'intégrer d'autres bases de données de sons, des caractéristiques supplémentaires, et de nouveaux algorithmes de sélection. Les fonctionnalités de CATERPILLAR sont:

La segmentation d'enregistrements musicaux est obtenue par alignement de la partition avec le signal sonore d'une exécution de celle-ci. L'alignement est fondé sur une méthode d'appariement spectral, utilisable aussi dans un cas polyphonique, et deux méthodes différentes, qui sont comparés, le Dynamic Time Warping et les chaînes de Markov cachées (Hidden Markov Models).

L'analyse en descripteurs fournit des caractéristiques du signal, spectrales, harmoniques et perceptives. Toutefois, il est possible d'attribuer des informations de la partition (modes de jeu) ou des informations arbitraires aux unités. La modélisation temporelle réduit les courbes continues des descripteurs à un vecteur de caractéristiques qui décrivent l'évolution temporelle d'un descripteur à travers une unité.

La base de données est implantée dans un système de gestion de bases de données relationelles, pour une flexibilité, extensibilité et fiabilité optimisée. Un interface unique sépare la base de données du reste du système, afin qu'elle puisse être remplacée par une autre base ou un autre système de gestion.

Deux algorithmes de sélection d'unités ont été développés et sont comparés: L'un utilise la méthode classique de recherche du meilleur chemin à travers un réseaux d'états par l'algorithme de Viterbi, l'autre formule la sélection comme un problème de résolution de contraintes. Les deux sont basés sur des fonctions de distance dont la distance cible exprime la similarité d'une unité cible avec des unités de la base, et la distance de concaténation la qualité de l'enchaînement entre deux unités de la base.

La synthèse concaténative fondée sur les données est ensuite appliquée à la synthèse haut niveau d'un instrument, à la synthèse libre, sorte de généralisation de la synthèse granulaire avec un contrôle effectif du résultat sonore, à la resynthèse d'un enregistrement avec les sons de la base, et à la synthèse de la parole artistique. Pour ces applications des corpus d'unités de violon, de bruits environnementaux et de parole ont été constitués.