Pierre Lanchantin

Test subjectif sur la conversion de voix

Objectif du test

L'objectif de ce test subjectif est d'évaluer différentes méthodes utilisées afin de convertir les caractéristiques d'une voix source vers celles d'une voix cible. La langue utilisée dans les fichiers audio test sera le français. Cependant, vous pouvez y participer même si vous ne parlez pas le français. Les méthodes de conversion utilisées ne s'applique qu'au timbre de la voix. Les caractéristiques prosodiques ne sont pas modifiées.

Dans ce test, nous évaluerons la conversion de la voix d'un locuteur français vers celle de 3 locuteurs français ayant différents accents (français, québécois et sud-américain). Pour chaque conversion, 2 tests seront effectués, un sur la distance de la voix convertie par rapport à la voix cible et un sur la qualité de la conversion.

Ce test nécessite entre 5 et 10 minutes. (S'il vous semble trop long, voux pouvez effectuer le test uniquement sur les deux première conversion, mais n'oubliez pas d'envoyer vos réponses en cliquant sur le bouton send en bas de page.)

En réalisant ce test, vous contribuez à nos recherches sur la conversion de voix réalisées dans l'équipe analyse synthèse de l'Ircam. Par avance, merci!

Pierre

Première conversion de voix

Dans cette première partie, nous vous questionnons à propos de l'effet de l'application de techniques de conversion de voix sur une phrase donnée et de l'altération de l'identité d'un locuteur en modifiant les caractéristiques spectrales.

Vous trouverez ci-dessous des exemples de phrases prononcées par 2 locuteurs différents :

la voix source A :

la voix cible B

Veuillez les écouter de manière à ce que vous deveniez familier avec les différences de timbre entre ces deux voix.

A présent, pour chacun des fichiers audio suivants, veuiller voter s'il est perçu comme plus proche de la voix A ou de la voix B suivant:

A	Perçu comme étant la voix A
<-	Perçu comme étant plus proche de la voix A
0	Perçu comme étant entre la voix A et la voix B
->	Perçu comme étant plus proche de la voix B
B	Perçu comme la voix B

File	A	<-	0	->	B

We now ask you to listen to and compare a pair of short utterances and decide which of the two utterances is perceived as more natural by attending to sound quality, i.e., presenting less sound degradation.

1. For each line on the tab, listen carefully to file1 and file2. Both sounds will correspond to the same sentence, but processed by using slightly different methods. The differences requires careful listening.

2. Then give a preference score about according to the following grades tab:

Much better	+3
Better	+2
Slightly better	+1
About the same	0

to the left if you prefer file1
to the right if you prefer file2.

File 1	+3	+2	+1	0	+1	+2	+3	File 2

Second voice conversion

We now going to test the conversion from the same voice A to an other voice B. Here you can find example utterances of the two different voices:

the source Voice A :

the target Voice B :

As for the conversion into the first voice speaker, for each of the following file, vote whether it is perceived as closer to the Voice A or to the Voice B.

A	Perceived as voice A
<-	Perceived as closer to voice A
0	Perceived as between voice A and voice B
->	Perceived as closer to voice B
B	Perceived as voice B

File	A	<-	0	->	B

Now, as for the first speaker, we ask you to listen to and compare a pair of short utterances and decide which of the two utterances is perceived as more natural by attending to sound quality, i.e., presenting less sound degradation.

2. Then give a preference score about according to the following grades tab:

Much better	+3
Better	+2
Slightly better	+1
About the same	0

to the left if you prefer file1
to the right if you prefer file2.

File 1	+3	+2	+1	0	+1	+2	+3	File 2

Third voice conversion

We now going to test the conversion from the same voice A to an other voice B with a french canadian accent. Here you can find example utterances of the two different voices:

the source Voice A :

the target Voice B :

As for the conversion into the first voice speaker, for each of the following file, vote whether it is perceived as closer to the Voice A or to the Voice B.

A	Perceived as voice A
<-	Perceived as closer to voice A
0	Perceived as between voice A and voice B
->	Perceived as closer to voice B
B	Perceived as voice B

File	A	<-	0	->	B

2. Then give a preference score about according to the following grades tab:

Much better	+3
Better	+2
Slightly better	+1
About the same	0

to the left if you prefer file1
to the right if you prefer file2.

File 1	+3	+2	+1	0	+1	+2	+3	File 2

Comments

Please, verify that you gave a preference to all questions, then press this button

All recordings are Ircam's property.

Thanks to Gilles Degottex for the php script.