L'une des conséquences du développement des techniques de numérisation et du multimédia est la très forte utilisation d'oeuvres

Travaux de description

et de classification sonore

Xavier Rodet,

Responsable de l'Equipe Analyse-Synthèse, Ircam

Collège Iconique, 20 Juin 2000

1. Introduction

Ircam: Institut de Recherche et de Coordination Acoustique/Musique

- Recherche

- Production

Description

- Multiplicité des descriptions

- Finalités des descriptions

Classification

- Multiplicité des classifications

- Finalités des classifications

Outils

2. Traitement du signal et statistiques

Signal fonction du temps (domaine temporel)

Contenu spectral (domaine fréquentiel)

- Spectre à court terme

- Analyses temps-fréquence et temps-échelle

Extraction de descripteurs de bas niveau

Procédures de sélection de caractéristiques

- Par un expert

- Sélection optimale par la théorie de l'information : Calcul de l'information mutuelle entre les caractéristiques et les classes recherchées afin de sélectionner les caractéristiques les plus pertinentes.

Statistiques d'ordres supérieurs

3. Psychoacoustique et musique

(perception et cognition auditives)

Notions de timbre

Expériences psychoacoustiques

Espaces psychoacoustiques

Perception et production

Descripteurs de haut niveau

Music (style, rhythm)

4. Descripteurs de haut niveau

Les descripteurs de haut niveau (par opposition, par exemple, à des fréquences de sinusoides ou même de formants) et à caractère perceptuel, éventuellement aussi à caractère "production".

En VRML par exemple, on peut décrire des scènes visuelles grâce à des descriptions de formes, de positions, de textures, etc.. Il faut remarquer cependant que cette description shématique se fait en général au prix d'une certaine perte de qualité, sauf multiplication énorme de l'information.

Icones graphiques

Icones sonores

5. Origines des descripteurs

5.1 Modèles de signaux (synthèse)

- Par Formes d'Onde Formantiques

Facile à contrôler.

- Méthode sinusoidale additive+résiduel.

Très générale.

Formalisme procédural.

Certaines méthodes plus appropriées à certains type de sons.

5.2 Modèles physiques d'instruments

Différentes classes (clarinette, trompette, violon, flûte, etc.).

5.3 Psycho-acoustique, espace de timbres

Les dimensions à choix des descripteurs (hauteur, brillance, évolution dynamique, grain, bruit, etc.... )

Formalisme déclaratif : décrit les propriétés acoustiques désirées, le(s) système(s) synthèse calculent un signal ayant ces propriétés.

Modèles de signaux : Méthode par Formes d'Onde Formantiques (FOF, [Rodet & al. 85]) http://www.ircam.fr/equipes/anasyn/libchant

permet de synthétiser des sons et instruments très variés.

assez intuitive, soit d'un point de vue perceptuel, soit du point de vue d'un modèle de production physique du son: du point de vue perceptuel, l'enveloppe spectrale du son [Schwarz 98] est décrite dans diverses régions du son par des formants dont l'importance et les corrélats perceptuels sont relativement bien connus [Bregman 90], [McAdams 94]; de même, l'excitation périodique, plus ou moins régulière, ou non-périodique, de ces formants est facilement corrélée avec le caractère harmonique, plus ou moins rauque ou inharmonique du son produit; du point de vue production, ces formants ne sont autres que les résonnances (modes) des instruments et objets physiques en général excités par frottement, percussion, etc..

Méthode sinusoidale additive+résiduel [Rodet 98].

Les liens entre les aspects divers de la production du son et sa perception sont d'ailleurs profonds et assez bien connus. La méthode sinusoidale additive+résiduel également repose en partie sur une description de l'aspect du son (sinusoidal/bruité, harmonique/inharmonique) surtout lorsque des enveloppes spectrales sont utilisées pour décrire les paramètres de fréquence, amplitude et phase [Schwarz 98]. La méthode sinusoidale additive+résiduel développée par M. Oudot à l'Ircam [Oudot 98] en collaboration avec le CNET a montré la possibilité de coder de la parole et des sons musicaux avec une très hauute qualité ou avec des débits très faibles, offrant là un exemple de précision ajustable. Les travaux de [Peeters 98] permettent de séparer les sons en composantes bruitées et composantes sinusoidales.

Modèles physiques d'instruments, différentes classes (clarinette, trompette, violon, flûte, etc.).

Les sons produits par ces systèmes dynamiques simples sont entendus comme ayant le timbre caractéristique des classes d'instruments correspondants. On peut espérer en déduire une relations entre ces timbres caractéristiques et les propriétés des signaux produits. D'autres facteurs importants pourront provenir des propriété de résonnance et des modes d'excitation des instruments et corps sonores (frappé, frotté, soufflé, etc.) [Lakatos, McAdams & Caussé 97].

Psycho-acoustique

http://www.ircam.fr/departements/recherche/psycho.html.

Organisation mentale des relations perceptives entre timbres (un "espace de timbres", où les distances sont petites entre les objets sonores semblables et plus grandes entre les objets dissemblables) [Faure & McAdams 97]. L'examen des paramètres acoustico-auditifs sous-jacents aux dimensions de cet espace et aux traits spécifiques, fournit donc des directions essentielles pour le choix des descripteurs. Parmi des facteurs trouvé comme importants, on peut citer la hauteur, la brillance, l'évolution dynamique, le grain, le bruit, etc....

6. Organisation des descripteurs

Graphe valué des descripteurs

L'ensemble des descripteurs, pas une simple liste mais un graphe valué, rend compte de l'importance respective des descripteurs http://www.iua.upf.es/~sms/docs/file-format.html

Dépendance/indépendance des descripteurs

Description "à précision ajustable"

Depuis une description schématique (rapide et de faible quantité d'information) jusqu'à une description "transparente" (probablement coûteuse en calcul et en quantité d'information)

Description "à précision ajustable"

Depuis une description schématique (rapide et de faible quantité d'information) jusqu'à une description "transparente" (probablement coûteuse en calcul et en quantité d'information) [Beauchamp, McAdams & Meneguzzi 97]. Déjà utilisée à l'Ircam dans plusieurs logiciels : analyse Harmonique+Bruit [Oudot 98] permet, a volonté de passer, pour de la parole, de débits de 2.4Kbps jusqu'à, à haut débit, une qualité transparente (http://www.ircam.fr/equipes/analyse-synthese/oudot/these/codage.html).

Information de phase, partiels presque/exactement harmoniquescodage de l'envelope spectrale. Logiciel Diphone ([Rodet & Lefevre 97]) : écoute temps-réel de qualité réduite possible même sur des machines lentes: la synthèse additive permet de réduire à volonté le nombre de partiels synthétisés tout en gardant une bonne idée du son et de son organisation.

7. Segmentation, séparation, caractérisation

http://www.ircam.fr/anasyn/presentation99/ModelesSignaux/2.0ModelsSignaux.html

- Travaux de Stéphane Rossignol

http://www.ircam.fr/anasyn/presentation99/ModelesSignaux/Caracterisation/AbstrCaract.html

- Classification des sons stationaires (G. Peeters, CUIDAD pour MPEG7)

http://www.ircam.fr/anasyn/presentation99/ModelesSignaux/MPEG7/page2.html

- Classification de sons non-stationaires par une notion d'entropie (S. Dubnov)

- Classification par les transitions entres notes (reconnaissance des instruments, S. Dupuis)

- Classification par Matching Pursuit et classification de transitoires à l'aide d'arbres de décision (thèse R. Gribonval)

8. Projets

8.1 Projet Européen CUIDADO

Successeur de CUIDAD

CUIDADO intends to develop content-based audio modules and applications using the MPEG 7 Media representation standard. The project covers the analysis process (extraction of descriptors), the navigation process (retrieval methods and interfaces implemented in a leading database system with Web interoperability), up to the creative process (consuming and authoring tools) involving content creators and consumers in each stage.

The project addresses both the audio (samples) and the music domain (titles) since high level descriptors for music (style, rhythm) should rely on robust lower level audio descriptors (pitch, energy or spectral features) in order to cover a wider range of applications. This approach answer the needs of record labels and copyright societies for Information management methods for both marketing and protecting their contents. CUIDADO is also a first attempt to go beyond content retrieval with an Authoring system using content features for professional musicians and studios.

8.2 Projet ECRINS (Ircam - Ina-GRM)

Environnement de Classification et Recherche Intelligente de Sons

Objectif : développer des outils, destinés aux professionnels de la production sonore, proposant différentes interfaces de navigation à travers une grande base de données d'échantillons à partir de descripteurs de haut niveau (recherche par contenu, édition).

- Corpus étendu aux besoins de la production sonore : bruitages, sons d'environnement, etc...

- Environnements pour les professionnels de production sonore et musicale.

- Station de montage audionumérique

professionnelle Xtrack de Digigram dotée de fonctions et d'interfaces de haut niveau pour la génération, la recherche et la gestion de fichiers audionumériques.

9. Applications

- Systèmes audio spécifiques (synthétiseurs, programmes, objets 'intelligents', etc.), sytèmes multimédia en général

- Normalisation MPEG-4 (Audio structuré)

- MPEG-7 (description de documents audiovisuels et indexation)

Recherche de documents sonores ou audiovisuels dans des bases de données.

Reconnaissance d'extraits sonores dans une très large base de données (code sonore).

- Moteur de recherche de sons par critère psychoacoustique de similarité (B.D. de sons instrumentaux de l'Ircam, Studio Online)

http://www.ircam.fr/produits/techno/sol/intro/)

Exemples

a) Un client est abonné à un service de kiosque audio lui permettant de télécharger à la demande des contenus audio. Pour l'aider à faire son choix, le serveur lui envoie une version synthétisée d'un morceau choisi, une sorte de "preview" à très bas débit. Si ce choix est confirmé par l'utilisateur, il pourra moyennant finance télécharger une version haute qualité ou se faire livrer le CD correspondant.

b) un particulier accède à une base de données via des descripteurs MPEG-7 Audio. Pour l'aider dans sa recherche, le serveur (ou le poste client ) synthétise à partir des descripteurs utilisés, le son recherché. Le client peut ainsi raffiner sa demande en modifiant ses critères de recherche

10. Références

[Beauchamp, McAdams & Meneguzzi 97] Beauchamp, James, Stephen McAdams et Suzanne Meneguzzi: Perceptual effects of simplifying musical instrument sound time-frequency representations, JASA: Journal of the Acoustical Society of America, 1997.

[Peeters & Rodet 98] Geoffroy Peeters, Xavier Rodet: Signal Characterization in terms of Sinusoidal and Non-Sinusoidal Components (DAFX 1998, Barcelona, Spain, novembre 1998) http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesPeeters

[Dubnov & Rodet 97] Statistical Modeling of Sound Aperiodicities, Shlomo Dubnov and Xavier Rodet Prepared: May 1997 Appeared in: Proceedings of International Computer Music Conference, Tessaloniki, 1997

http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesDubnov

[Dubnov & Tishby 97] Analysis of sound textures in musical and machine sounds by means of higher order statistical features, Shlomo Dubnov and Naftali Tishby Prepared: December 1996 Appeared in: Proceedings of the International Conference on Acoustics Speech and Signal Processing, Munich, 1997.

[Dubnov, Tishby & Cohen 96] Influence Of Frequency Modulating Jitter On Higher Order Moments Of Sound Residual With Applications To Synthesis and Classification. Shlomo Dubnov, Naftali Tishby and Dalia Cohen Prepared: May 1996 Appeared: Proceedings of International Computer Music Conference, Hong-Kong, 1996 8 pages.

[Dubnov & Tishby 95] Clustering of Musical Sounds using Polyspectral Distance Measures

Shlomo Dubnov and Naftali Tishby Prepared: May 1995. Appeared: Proceedings of the International Computer Music Conference, Banff, 1995. 7 pages 113205 bytes.

[Bregman 90] Bregman, Albert S.,Auditory scene analysis: The Perceptual organisation of sound, Albert S. Bregman ed. , Cambridge (Mass.) 1990, London, The MIT Press.

[Déchelle & al. 98] François Déchelle et al., Latest evolutions of the jMax real-time engine: Typing, scoping, threading, compiling, Proc. ICMC 98, Ann Arbor, MA, US, Oct. 1998.

[De Cheveigné, McAdams & Marin 97] De Cheveigné, Alain, Stephen McAdams et Cécile M.H Marin: Concurrent Vowel Identification: II. Effects of Phase, Harmonicity, and Task, JASA: Journal of the Acoustical Society of America, Mai 1997.

[Depalle 91] Depalle, P., Analyse, synthèse et modélisation des sons fondées sur le modèle source-filtre, thèse de doctorat de l'Université du Maine, Le Mans, 1991.

[Depalle & Poirot 91] Depalle, P., G. Poirot, A odular system for analysis, synthesis and processing of sound signals, Proc. Int. Comp. Music Conf. 91, San Francisco, 1991.

[Faure & McAdams 97] Faure, Anne et Stephen McAdams: Comparaison de profils sémantiques et de l'espace perceptif de timbres musicaux, CFA: Congrès Français d'Acoustique, Avril 1997.

[Faure & McAdams 96] Faure, Anne, Stephen McAdams et Valery Nosulenko: Verbal correlates of perceptual dimensions of timbre, 4th International Conference on Music Perception and Cognition, Août 1996.|

http://mediatheque/articles/index.html

[Freed, Rodet & Depalle 92] Freed, Adrian, Xavier Rodet, Philippe Depalle: Synthesis and Control of Hundreds of Sinusoidal Partials on a Desktop Computer without Custom Hardware (ICSPAT 1992)

http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesRodet/ICSPAT92/ICSPAT92.html

[Hanappe 99] Peter Hanappe, DESIGN AND IMPLEMENTATION OF AN INTEGRATED ENVIRONMENT FOR MUSIC COMPOSITION AND SYNTHESIS, THESE de DOCTORAT de l'UNIVERSITE PARIS 6, Spécialité : Acoustique, Traitement de signal et Informatique Appliqués à la Musique, Ircam, 1999. http://www.ircam.fr/equipes/repmus/Rapports/PeterHanappe99/index.html

[Lakatos, McAdams & Caussé 97] Lakatos, Stephen, Stephen McAdams et René Caussé: The representation of auditory source characteristics: Simple geometric form, perception & psychophysics, 1997.

[McAdams 94] McAdams, Stephen, Bigand, Emmanuel, Penser les sons: Psychologie cognitive de l'audition, Stephen McAdams, Emmanuel Bigand ed., Paris 1994, Presses Universitaires de France.

[Misdariis, Smith, Pressnitzer, Susini & McAdams 98] Misdariis, N, B.K Smith, D Pressnitzer, P Susini et S McAdams: Validation of a Multidimensional Distance Model for Perceptual Dissimilarities among Musical Timbres, ICA & ASA joint meeting, Juin 1998.

[Oudot 98] Marine Oudot, Analyse/synthese des signaux de parole a partir d'un modele de sinusoides et de bruit. Application au codage bas debit et aux transformations prosodiques. Thèse de l'ENST, Ircam, 1998.

[Rodet & al. 85] Rodet,Xavier, Yves Potard, Jean-Baptiste Barrière: CHANT: de la synthèse de la voix chantée à la synthèse en général , in Paris, France: IRCAM, 1985. 21 p. Rapports de recherche IRCAM ; 35. http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesRodet/CHANT85/Chant85Tout.html

[Rodet, Depalle, Fleury & Lazarus 92] Modèles de signaux et modèles physiques d'instruments: études et comparaisons, Colloque Modèles physiques, Grenoble, 1990.

[Rodet & al. 95] Xavier Rodet, Philippe Depalle, Guillermo Garcia, New Possibilities in Sound Analysis and Synthesis, ISMA 95, Dourdan (France), 1995

[Rodet &Vergez 96] Xavier Rodet, Christophe Vergez: Physical Models of Trumpet-like Instruments, Detailed Behavior and Model Improvements, Proceedings of the International Computer Music Conference (ICMC'96), Clear Water Bay, Hong-Kong, August 1996. http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesRodet/...

.../ICMC96NLO/ICMC96NLO.HTML/index-e.html

[Rodet & Lefevre 97] Xavier Rodet & Adrien Lefevre: The Diphone program: New features, new synthesis methods and experience of musical use To appear in ICMC97, Thessaloniki, Grece, September 1997. http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesRodet/ICMC97/ICMC97Diphone.ps.gz

[Rodet 98] Rodet, X., Sinusoidal+Residual Models for Musical Sound Signals Analysis/Synthesis, Applied Signal Processing Vol. 4 No. 3 1997 pp 131-141.

[Rossignol 98] S. Rossignol, X. Rodet, J. Soumagne, J-L. Colette, P. Depalle: Feature extraction and temporal segmentation of acoustic signals in Proc. ICMC 98: International Computer Music Conference 1998, Ann Arbor, MI, USA, October 98 . http://www.ircam.fr/equipes/analyse-synthese/listePublications/articlesRodet/ICMC98/ICMC98rossignRod.ps.gz

[Scheirer 98] E.D. Scheirer, SAOL: The MPEG-4 Structured Audio Orchestra Language, Proc. ICMC 98, Ann Arbor, MA, US, Oct. 1998.

[Schwarz 98] Schwarz D., Spectral Envelopes in Sound Analysis and Synthesis, Université de Stuttgart, juin 1998. http://www.ircam.fr/equipes/analyse-synthese/schwarz

[Vercoe 98] Vercoe, B.L. W.G. Gardner, and E.D. Scheirer, Structured Audio: The Creation, Transmission, and Rendering of Parametric Sound Descriptions, Proceedings ofthe IEEE 86(5):922-940.

[Worms 98] Worms L., Reconnaissance d'extraits sonores dans une large base de données, Rapport de stage de l'Ecole Supèrieure de Physique de Marseille, IRCAM, Décembre 1998.