|
Tâches du Projet
Tâche 0. Organisation générale
Responsable: IRCAM
Tâche 1. Analyse rythmique et détection de rupture
Responsable: LTCI
Pour extraire l'information
sémantique liée à la structure rythmique (tempo, temps fort/temps
faible, métrique), on utilise une décomposition robuste en une partie
harmonique et une partie bruit (conservant notamment les attaques des
signaux). On s'attachera également à développer de nouveaux algorithmes
de détection de transitoires notamment par des approches statistiques.
L'application de cette analyse sera par ailleurs validée dans un
système de recherche par le contenu dans lequel les requêtes sont
formulées sous forme purement rythmique ou sous forme d'onomatopées
décrivant le contenu rythmique.
Tâche 2. Reconnaisance des instruments de musique
et indexation
Responsable: IRCAM
Dans la tâche de la reconnaissance
des instruments de musique sur des enregistrements réels, la classe
d'instruments dont la
reconnaissance sera étudiée est celle des instruments non-percussifs ou
harmoniques, en contexte solo et en contexte polyphonique. En contexte
polyphonique, des méthodes de séparation de sources et d'estimation des
fréquences fondamentales multiples permettront de renforcer à tour de
rôle l'une des sources pour améliorer sa reconnaissance. Des méthodes
d'apprentissage sur de très grosses bases de données seront mises au
point, testées et évaluées en conditions réelles, c'est à dire quand
l'origine de l'enregistrement n'est pas incluse dans l'apprentissage
(conditions de prise de son différentes, interprètes différents, style,
genre, etc.). L'indexation temps-réel sera considérée également. Un
autre aspect sous-jacent de cette étude concernera la détection de
solos (présence d'un seul instrument) et la détection de présence de
musique de fond sur un signal de parole.
Tâche 3. Séparation de sources
Responsable: LTCI
Dans cette tâche, la séparation de
sources sera considérée de deux façons. D'une part, elle sera vue comme
un outil pour améliorer l'analyse rythmique (par exemple par séparation
du signal de batterie) et la reconnaissance des instruments de musique
en permettant une séparation des signaux avant reconnaissance. D'autre
part, elle sera vue comme un domaine d'application de l'analyse
rythmique et de la reconnaissance des
instruments de musique puisque les informations provenant de ces deux
analyses permettront d'aider la séparation effective des sources en
présence. Les techniques principales qui seront développées seront
issues de l'Analyse en Sous-Espaces Indépendants et des Modèles de
Markov Cachés. On cherchera notamment à mieux faire coopérer ces deux
approches. Enfin la séparation de sources sera étudiée conjointement
avec l'estimation de fréquences fondamentales multiples. La coopération
des diverses types d'informations extraites du signal est donc un
élément essentiel de cette
tâche.
Tâche 4. Description sémantique structuré
Responsable: IRCAM
L'extraction de structure et sa
représentation ne reposent actuellement que sur la similarité
spectrale. Dans cette tâche, le but est de construire une structure
plus élaborée en utilisant conjointement les diverses informations
extraites du signal, rythme, fondamentaux, instrumentation, timbre,
genre et style, harmonie, etc.. La première sous-tâche est de
développer des algorithmes pour déterminer automatiquement des
frontières (distribution statistique, rupture de modèle), des
répétitions (par similarité sur les descripteurs) et des relations en
général entre
segments sur tous les types d'informations. On s'inspirera en
particulier d'algorithmes analysant le signal et d'algorithmes
analysant la représentation symbolique (la partition). La structure
temporelle d'un enregistrement de musique apparaîtra alors comme un
graphe décrivant des séquences d'événements à divers horizons temporels
et des relations entre états au cours du temps et à différents niveaux.
On pourra ensuite proposer, en particulier à l'utilisateur, des
représentations graphiques et symboliques de la structure du morceau de
musique et un interface de navigation non seulement dans le temps mais
aussi dans les autres dimensions de la musique. Un autre produit dérivé
de la structure, et permettant l'exploration de très grands quantité de
musique, seront les résumés sonores et les résumés iconiques.
Tâche 5. Recherche de la musique par similarité
Responsable: LIRIS
Moteur de recherche de la musique
par similarité. L'utilisateur choisi une requête une chanson d'une base
de donnée indexée et le système retourne une liste de chansons de la
base triée par similarité acoustique à la requête. Dans le cadre de ce
projet nous proposons de combiner une approche basée sur le anchor
model avec une approche basée sur les distances de Kullback Leibler
(KL). Le anchor model devrait être rapide pour un premier tri des
résultats de recherche tandis que les KL permettront d'aboutir à une
précision d'un ordre supérieur. En conséquence, la combinaison de ces
deux approches devrait aboutir à une solution rapide et adaptable pour
la recherche de la musique par similarité.
Tâche 6. Reconnaissance de titres musicaux
Responsable: LIRIS
A préciser si cette tache sera
réalisée compte tenu du budget qui a été accordé au projet.
Tâche 7. Classification des titres musicaux en
genre et en humeur
Responsable: LIRIS
L'approche que nous utiliserons
dans le cadre du projet est d'abord celle basée sur les multi experts,
où les experts individuels correspondent à des experts utilisant la MGI
et les MLP. D'autres informations qui peuvent être obtenues par les
différentes analyses, comme les informations rythmiques, peuvent aider
à améliorer le taux de classification et spécialement dans le cas de
classification en humeur. La liste des genres est : Classique,
Rock, Dance, Jazz, Metal, Rap. La liste des humeurs: Calme, en rage,
dynamique.
Programmation
Matlab sous Linux et Windows
C/C++ sous Linux et Windows
MPEG7, XML
PostgreSQL, mySQL
bibliothèque MatMTL(Matlab
replacement Matrix Template Library) une bibliothèque permettant le
portage des fonctions Matlab en langage compilé.
bibliothèque SDIF(Sound
Description Interchange Format) SDIF est un format standard pour
l'interchangeabilité de descriptions sonores.
DLL
Bases de données
Echantillons monophoniques
Musical Instrument Samples de
Iowa Univsersity
Master Samples de McGill
University
Studio OnLine de l'IRCAM
Musical Instrument Sound
Database de RWC Music Database
Vienna Symphonic Library
Frappes isolées pour la
batterie, enregitrés par LTCI
Morceaux musicaux
RWC Music Database(Pop,
classique, jazz, etc.) incluant des fichiers midi correspondants(pas
encore alignés)
Des séquences, solos et
accompagnements de percussions, enregitrés par LTCI
Livrables
Rapports techniques décrivant
les techniques
Document de définition de la
description sémantique
Une based de données des
morceaux musicaux pour l'evaluation
Résultats des expérimentations
Applications pour l'analyse
rythmique, reconnaissance des instruments à la séparation de sources
Implémentation d'un serveur
permettant la recherche de la musique par similarité
Implémentation d'un serveur
permettant la classification de la musique en genre et en humeur
|
Description du Projet
Spécifications
Tâches du Projet
Programmation
Bases
de données
Livrables
|
|