Suivi de voix parlée en temps réel
Application et extension des techniques de HMM (Modèles de Markov cachés) actuellement employés pour le suivi de partition (instruments solo, voix chantée) pour le suivi de la voix parlée en vue d'une application pour un spectacle de théatre :
Apprentissage de HMM (Modèles de Markov cachés) pour le suivi de partition et de la parole
- Transformation d'un texte écrit en Modèle de Markov
- Adaptation de l'analyse du signal à la voix parlée
- Développement d'un module MAX
Ce stage comprend une activité de recherche et de développement pour la partie de l'entraînement pour le suivi, un projet utilisé pour nombre d'oeuvres p.ex. de Philippe Manoury et Pierre Boulez.
- Développement d'une routine temps réel permettant l'adaptation du suivi de partition à une performance spécifique (l'interprète, conditions acoustiques, etc).
- Développement d'une méthode d'entraînement des HMM en temps différé sur une base d'enregistrements audio pour améliorer la robustesse du suivi en temps réel.
The current architecture in figure 4 unifies the model implementation in netlev_t and the HMM state class evthmm_t, and centralises the dependencies on the sequence editor.
Figure 3: UML diagram of the software architecture before restructuring
The proposed new architecture in figure 5 puts almost all the code unique to the run-time system into the class suiviobject, so that porting to Max/MSP will be easier. The subclassing of the HMM state class will completely disentangle audio from Midi following and allow easy extension for voice following. The dependencies to the sequence editor will be replaced by the two interfaces score-in for the input to the score parser, and gui for the output, or more generally the user interface. Before, they happended to be both realised by the sequence editor, which first will be continued using an adaptor class (formerly suiviref_t), for backwards compatibility. However, this separation allows easier change of both: for spoken voice following, for instance, the score input would rather be just a file with phonetic text or a message box, and the output a text display with a cursor.
Figure 4: UML diagram of the software architecture of the current releases
For the farther future, a totally modular score following architecture could be envisioned, a sort of score following toolbox. It would provide independent input analysis Max objects (the object audioanalysis that would calculate the features from the sound), an object that computes the HMM suivimodel, and a statistics and training object. Figure 6 shows a sketch of how a combined audio and Midi score following patch could look like. This modularity would easily allow multimodal input following, addition of new features, and the like.
Figure 5: UML diagram of the proposed new software architecture
Figure 6: Pseudo-patch of a totally modular score follower.
2002 |
||||
| 11--12 | Décembre | tests/enregistrements flûte Jupiter | ||
2003 |
||||
| Mercredi 15 | Janvier | seminaire interne suivi de partition, point de vue scientifique | ||
| 16--26 | Janvier | Nicola Orio est à Paris | ||
| Mercredi 22 | Janvier | seminaire interne suivi de partition, point de vue musical et discussion | ||
| Jeudi 23 | Janvier | tests Piano Midi Pluton avec Andy Russo | ||
| Lundi 24 | Février | conférence pédagogique suivi de partition | ||
| mi-Février -- | mi-Mai | stages ATIAM | ||
| Mars | version suivi jMax-4 Forum | |||
| Juin | pièce Gilles Grand avec suivi voix parlée? | |||
| Octobre | version suivi Max/MSP Forum | |||
| Octobre | opéra Manoury | |||