Conseil scientifique - Analyse/Synthèse  -  janvier 2000   


Segmentation et étiquetage

-  Stéphane Rossignol -

La procédure de segmentation est hiérarchique. Trois niveaux de segmentation sont définis. Les informations obtenues à un certain niveau sont propagées vers les niveaux inférieurs pour améliorer leurs performances. Les segments trouvés sont de plus en plus petits et précisément étiquetés.


Segmentation en sources

Le but du premier niveau de segmentation est de classifier le son suivant sa nature. Les deux classes considérées sont la parole et la musique. Les sons utilisés sont par exemple des bandes son de film ou des enregistrements radiophoniques.

Exemple

  • Points clairs : musique
  • Points foncés : parole
  • Première fonction d'observation : moyenne du flux spectral (ordonnée)
  • Seconde fonction d'observation : variance du flux spectral (abscisse)
  • Segmentation en caractéristiques

    Lors du niveau de segmentation en caractéristiques, étiquetage des segments avec des caractéristiques du type : silence/son, voisé/non voisé, harmonique/inharmonique, présence de vibrato/absence de vibrato...

    Segmentation en zones stables

    Il s'agit ici de poser des marques de segmentation sur un son, dans le but d'obtenir des segments de son étiquetés qui soient manipulables (recherche dans des bases de données), transformables...

    Première étape : Extraction de fonctions d'observation

    Deuxième étape : Prise de décision (seuillage)

    Troisième étape : Prise de décision finale (fusion de données)

    Interface graphique: Visualisation de la décision finale, la hauteur de chaque marque correpond à la confiance qui lui est accordée


    Quatrième étape : transcription automatique
    Pour l'extrait de flûte :

    Break


    Présentation détaillée ->