Ircam - Centre Georges-Pompidou

Perception des niveaux sonores

Phénomène de masquage

Principe expérimental

La mesure des courbes de masquage s'obtient en présentant simultanément à un auditeur un son pur et un bruit blanc faible bande situés dans des gammes de fréquences voisines. L'expérience montre que si l'intensité du son pur est suffisamment faible, et si les gammes de fréquences sont suffisamment voisines, l'auditeur ne perçoit pas le son pur qui est couvert par le bruit. On déduit de cette expérience une courbe de masquage qui quantifie les niveaux et les fréquences pour lesquels un bruit masque un son pur (et réciproquement).

Intuition du masquage

Le phénomène du masquage est à rapprocher de la situation d'un bruit important (marteau piqueur, circulation automobile, réacteur d'avion) couvrant la conversation. Dans un premier temps, le bruit est tellement important que la voix de l'interlocuteur est entièrement couverte par le bruit. La seule possibilité qu'a votre interlocuteur pour se faire entendre consiste à élever la voix. Auquel cas, seules quelques bribes de paroles parviennent à émerger du bruit ambiant. De plus, les bribes elles-mêmes restent peu compréhensibles, car souvent entachées de bruits parasites dans des zones fréquencielles cruciales pour la reconnaissance de la parole. Au total, vous ne disposez pas d'éléments suffisants (ni temporels, ni fréquenciels) pour décoder correctement le message de votre interlocuteur. L'écoute en milieu bruité est donc bien plus fatigante que celle en milieu calme puisque toute l'attention est nécessaire pour comprendre, déchiffrer la parole, en faisant bien souvent appel à des mécanismes très complexes de contextes (mouvements des lèvres, gesture et posture etc.) pour intuiter plus qu'entendre le message sonore.

Il est facile d'obtenir l'intuition du masquage sonore en utilisant la métaphore visuelle de l'ombre projetée. Le bruit projette sur l'axe des fréquences une ombre, tout comme l'arbre projette également une ombre sur le sol. Tous les événements se situant à l'intérieur de l'ombre sont invisibles, c'est-à-dire imperceptibles.

Mels et bande critique

L'étude précise de ce phénomène fait apparaître une largeur de bande critique à l'intérieur de laquelle un son peut être masqué et à l'extérieur de laquelle un son ne peut pas être masqué. Cette expérience prouve entre autre que notre oreille est équipée de récepteurs sélectifs en fréquence, traitant des zones fréquencielles dont la largeur est précisément la largeur de la bande critique. Donc deux sons séparés de plus d'une bande critique excitent des récepteurs complètement disjoints ; ils sont ainsi complètement discriminés.

Le concept de bande critique intervient dans de nombreux autres phénomènes de perception sonore, comme par exemple le phénomène de rugosité.

La largeur de la bande critique n'est pas une constante en fonction de la fréquence. L'échelle des mels (ou barks) est une échelle déduite de l'échelle des fréquences (en Hz) de telle façon que la bande critique soit de largeur constante. Expérimentalement, on constate que l'échelle des mels correspond à celle des hertz jusqu'à 1kHz, puis la relation entre les deux échelles devient encore une fois logarithmique.

Utilisation musicale

Les compositeurs et musiciens ont une connaissance assez intuitive de ce phénomène. En utilisant une palette sonore la plus large possible, ils permettent aux sons instrumentaux d'occuper au mieux l'espace sonore afin que nous puissions discriminer chacun des instruments. Les zones de l'espace des fréquences occupées par chaque instrument ne doivent pas se recouvrir pour que nous puissions les isoler facilement. Par exemple, une mélodie aigüe sur un celesta sera perçue très distinctement au milieu d'une orchestration à base de guitare basse, guitare électrique, batterie, choeurs... sauf si la guitare électrique, en utilisant un effet de distorsion, vient occuper dans les aigus l'espace du celesta.

En bref, notre capacité à discriminer un certain nombre d'instruments dans un orchestre tient aux caractéristiques de masquage fréquenciel (en l'occurrence de non-masquage).

Utilisation pour le codage et la transmission

Dans les chapitres précédents, nous avons vu que la numérisation des sons entraînait un flux de données numériques considérable, qui est souvent incompatible avec la technologie actuelle de stockage ou de transmission. Un choix cohérent de la fréquence d'échantillonnage et de la méthode de quantification permet de réduire la taille des données sonores, mais en général, ce n'est pas suffisant. Par exemple, un CD-audio de 76 minutes (16 bits linéaires, 44.1kHz, stéréo) correspond à plus de 750 mégaoctets de données (soit plus de 500 disquettes 3 pouces et demi formattées à 1.4MO)!

L'utilisation du phénomène de masquage sonore permet de réduire considérablement le volume des données à stocker ou à transmettre. Le principe consiste à ne coder (ou transmettre) que ce que nous entendons. Il est en effet inutile de transmettre les sons que nous n'entendons pas. Le phénomène psychoacoustique du masquage est à présent suffisamment compris pour que les ingénieurs en télécommunications soient capables de préciser la part de ce que nous pouvons percevoir de celle que nous ne pouvons pas percevoir ; ils ne transmettent que ce que nous percevons. Ce type de codage s'appelle un codage psychoacoustique.

D'un point de vue technique, le codage psychoacoustique consiste à décrire très précisément à un instant donné la courbe de masquage du son à transmettre. Cette courbe de masquage indique le seuil à partir duquel un bruit n'est plus perçu. Nous avons vu dans le chapitre précédent que l'effet de quantification correspondait essentiellement en une génération de bruit blanc large bande. L'idée consiste à procéder à une allocation dynamique des bits pour que le bruit de quantification soit caché au mieux par le son transmis. Cette méthode permet donc de minimiser en moyenne le nombre de bits alloué pour la quantification en adaptant localement la répartition des bits en fonction des caractéristiques de l'oreille et du son à transmettre.

Ce type de codage psychoacoustique est décliné selon différentes variantes que l'on retrouve par la suite dans le MiniDisc de Sony, dans les (ex-)cassettes numériques de Philips, dans les téléphones cellulaires, pour la radio numérique (DAB), et dans les normes de MPEG-Audio (MPEG-Audio Layer 2 et Layer 3, Musicam...).


Prev Home Up Next Anglais Page remise à jour le
Ven 26 Déc 1997 15:37:14
Tassart Stéphan
IRCAM

Ce document a été formaté par htmlpp.