Analyse/Synthèse
janvier 2000
Stéphane Rossignol - Conseil scientifique
Segmentation et étiquetage : présentation
La procédure de segmentation est hiérarchique. Trois niveaux de segmentation sont définis. Les informations obtenues à un certain niveau sont propagées vers les niveaux inférieurs pour améliorer leurs performances. Les segments trouvés sont de plus en plus petits et précisément étiquetés.
Segmentation en sources
Définition
Le but du premier niveau de segmentation est de classifier le son suivant sa nature. Les deux classes considérées sont la parole et la musique. Les sons utilisés sont par exemple des bandes son de film ou des enregistrements radiophoniques.
Procédure
L'analyse se décompose en deux étapes :
1. Des fonctions d'observation sont extraites, qui essaient de mettre en évidence des propriétés différentes pour chaque classe. Les fonctions d'observation sont calculées à partir des fonctions de << base >> :
- flux spectral
- centroïde
- taux de passage par zéro
calculées sur des fenêtres temporelles de 30 ms. Et les fonctions d'observation sont : la moyenne et la variance des fonctions de << base >> calculées sur des segments d'une seconde.
2. Nous classifions les échantillons des fonctions d'observation. Les méthodes de classification utilisées sont :
- le mélange de gaussiennes : chaque classe est modélisée par une gaussienne multidimensionnelle dont nous déterminons le vecteur moyenne et la matrice de covariance
- les k plus proches voisins
- des réseaux de neurones à trois couches
Exemple
Points clairs : musique
Points foncés : parole
Première fonction d'observation : moyenne du flux spectral (ordonnée)
Seconde fonction d'observation : variance du flux spectral (abscisse)
Résultats
Le pourcentage d'erreur avec les six caractéristiques est :
| apprentissage | test | validation croisée
|
Deux Gaussiennes | 4,0 | 3,6 | 9,3
|
7 plus proches voisins | 1,3 | 1,5 | 5,9
|
Réseaux de neurones | 1,9 | 1,7 | 4,7
|
Segmentation en caractéristiques
Définition
Lors du niveau de segmentation en caractéristiques, nous étiquetons des segments avec des caractéristiques du type : silence/son, voisé/non voisé, harmonique/inharmonique, présence de vibrato/absence de vibrato...
Processus de segmentation
Nous avons vu que le premier niveau de segmentation répondait à cette première question :
q1 le signal est de la Parole ou de la Musique ?
Si le signal est de la musique, le deuxième niveau de segmentation peut commencer. Une série de questions est posée. Nous donnons un exemple ci-dessous :
- q2 si Musique : le signal est Monophonique
- q3 si Monophonique : le signal est Voisé (c'est-à-dire composé d'une somme de sinusoïdes)
- q4 si Voisé : le signal est Harmonique (c'est-à-dire composé d'une somme de sinusoïdes disposées sur un peigne harmonique dense)
- q5 si Harmonique : le signal est Vibré
- q5 ou Non vibré ? (la même question est posée en ce qui concerne le trémolo)
- q4 ou Inharmonique ?
- q3 ou Non voisé ?
- q2 ou Polyphonique ?
Segmentation en zones stables
Définition
Il s'agit ici de poser des marques de segmentation sur un son, dans le but d'obtenir des segments de son étiquetés qui soient manipulables (recherche dans des bases de données), transformables...
La définition de zone stable dépend du type de son considéré. Nous donnons deux exemples :
Exemple 1 : Pour les sons Harmoniques, Voisés, Monophoniques et Musicaux, la segmentation en zones stables correspond à la segmentation en notes .
Exemple 2 : Pour les sons Inharmoniques, Non voisés, Monophoniques et Musicaux (extrait de castagnettes par exemple), la segmentation en zones stables correspond à la détection des transitoires d'énergie.
Dans la suite, nous allons considérer que le son est Harmonique, Voisé et Monophonique. Le dernier niveau est la segmentation du signal en notes .
Le son étudié ici en exemple
Procédure
Elle est composée de quatre étapes :
Nous espérons d'une fonction d'observation qu'elle présente des pics aussi grands et fins que possible aux moments des transitions, et que sa moyenne et sa variance soient aussi petites que possible dans les zones stables.
Trois types de fonctions d'observation sont utilisés pour mettre en évidence les transitions :
- celles qui réagissent aux changements brusques en fréquence fondamentale (f0)
- celles qui réagissent aux changements brusques en énergie
- celles qui réagissent aux changements brusques en contenu spectral
Première étape : Extraction de fonctions d'observation
Fonctions d'observation utilisées :
Dérivée de la fréquence fondamentale
Dérivée relative de la fréquence fondamentale
Dérivée de l'énergie
Dérivée relative de l'énergie
Dérivée du produit des inharmonicités des premiers partiels
Dérivée de la somme des inharmonicités des premiers partiels
Dérivée du coefficient de voisement
Flux spectral
Interface graphique. Visualisation des fonctions d'observation
Deuxième étape : Prise de décision
Seuillage
Des méthodes de seuillage statistiques, venant notamment du traitement des images, sont utilisées.
Par exemple, nous utilisons la méthode des 3 . Nous décidons que tous les pics supérieurs à 3 , où est l'écart-type du bruit (observé dans les zones stables), sont des pics ne correspondant pas à du bruit (correspondant donc à des transitions). Il y a une justification théorique à ce seuil, avec le seuil universel défini par Donoho. Ce seuil est égal à s = , où M est la taille du signal en nombre d'échantillons. Donoho prouve que quand M tend vers l'infini la probabilité qu'un échantillon de bruit dépasse s tend vers 0. Et pour M de l'ordre de 1000 s est très proche de 3 (3,72). Le problème est de parvenir à déterminer correctement : nous classons les échantillons en ordre croissant et nous calculons avec les n % plus petits (la méthode est relativement robuste à n : nous prenons n=90).
Interface graphique. Visualisation des fonctions de décision
Troisième étape : Prise de décision finale.
Quelques éléments à propos de la fusion de données
Supposons que nous ayons n fonctions de décision (c'est-à-dire n capteurs).
Supposons que la probabilité de bonne détection pour chaque fonction de décision soit pbd = 0,8.
Plusieurs cas sont considérés :
- 1. toutes les fonction de décision sont différentes
- 2. les fonctions de décision 1 & 2 sont égales
- 3. les fonctions de décision 1 & 2 sont égales et les fonctions de décision 3 & 4 sont égales
- 4. les fonctions de décision 1 & 2 & 3 sont égales
Après la fusion, la probabilité de bonne détection est :
Deux fonctions de décision sont égales quand les fonctions d'observation correspondantes sont très corrélées. Ainsi nous pouvons voir qu'il est très important d'utiliser des fonctions d'observation très décorrelées.
Interface graphique. Visualisation de la décision finale
La hauteur de chaque marque correpond à la confiance que nous lui accordons.
Quatrième étape : transcription automatique
Méthode
Pour trouver la note jouée sur chaque segment, ces trois mesures sont utilisées :
- 1. m1 : moyenne de f0 sur chaque segment
- 2. m2 : ou médiane de f0 sur chaque segment
- 3. m3 : ou moyenne de f0 sur chaque segment sans le premier et le quatrième quart du segment considéré
Pour l'extrait de flûte