Perception des niveaux sonores
Phénomène de masquage
Principe expérimental
La mesure des courbes de masquage s'obtient en présentant
simultanément à un auditeur un son pur et un bruit blanc faible bande
situés dans des gammes de fréquences voisines. L'expérience montre que
si l'intensité du son pur est suffisamment faible, et si les gammes de
fréquences sont suffisamment voisines, l'auditeur ne perçoit
pas le son pur qui est couvert par le bruit. On déduit de cette
expérience une courbe de masquage qui quantifie les niveaux
et les fréquences pour lesquels un bruit masque un son pur
(et réciproquement).
Intuition du masquage
Le phénomène du masquage est à rapprocher de la situation
d'un bruit important (marteau piqueur, circulation automobile,
réacteur d'avion) couvrant la conversation. Dans un premier temps, le
bruit est tellement important que la voix de l'interlocuteur est
entièrement couverte par le bruit. La seule possibilité qu'a votre
interlocuteur pour se faire entendre consiste à élever la voix. Auquel
cas, seules quelques bribes de paroles parviennent à émerger du bruit
ambiant. De plus, les bribes elles-mêmes restent peu compréhensibles,
car souvent entachées de bruits parasites dans des zones
fréquencielles cruciales pour la reconnaissance de la parole. Au
total, vous ne disposez pas d'éléments suffisants (ni temporels, ni
fréquenciels) pour décoder correctement le message de votre
interlocuteur. L'écoute en milieu bruité est donc bien plus fatigante
que celle en milieu calme puisque toute l'attention est nécessaire
pour comprendre, déchiffrer la parole, en faisant bien souvent appel à
des mécanismes très complexes de contextes (mouvements des
lèvres, gesture et posture etc.) pour intuiter plus
qu'entendre le message sonore.
Il est facile d'obtenir l'intuition du masquage sonore en utilisant la
métaphore visuelle de l'ombre projetée. Le bruit projette
sur l'axe des fréquences une ombre, tout comme l'arbre projette
également une ombre sur le sol. Tous les événements se situant à
l'intérieur de l'ombre sont invisibles, c'est-à-dire
imperceptibles.
Mels et bande critique
L'étude précise de ce phénomène fait apparaître une largeur de
bande critique à l'intérieur de laquelle un son peut être
masqué et à l'extérieur de laquelle un son ne peut pas être
masqué. Cette expérience prouve entre autre que notre oreille est
équipée de récepteurs sélectifs en fréquence, traitant des zones
fréquencielles dont la largeur est précisément la largeur de la bande
critique. Donc deux sons séparés de plus d'une bande critique excitent
des récepteurs complètement disjoints ; ils sont ainsi complètement
discriminés.
Le concept de bande critique intervient dans de nombreux autres
phénomènes de perception sonore, comme par exemple le phénomène de
rugosité.
La largeur de la bande critique n'est pas une constante en fonction de
la fréquence. L'échelle des mels (ou barks) est une échelle déduite
de l'échelle des fréquences (en Hz) de telle façon que la bande
critique soit de largeur constante. Expérimentalement, on constate
que l'échelle des mels correspond à celle des hertz jusqu'à 1kHz, puis
la relation entre les deux échelles devient encore une fois
logarithmique.
Utilisation musicale
Les compositeurs et musiciens ont une connaissance assez intuitive
de ce phénomène. En utilisant une palette sonore la plus large
possible, ils permettent aux sons instrumentaux d'occuper au mieux
l'espace sonore afin que nous puissions discriminer chacun
des instruments. Les zones de l'espace des fréquences occupées
par chaque instrument ne doivent pas se recouvrir pour que nous puissions
les isoler facilement. Par exemple, une mélodie aigüe sur un celesta
sera perçue très distinctement au milieu d'une orchestration à base de
guitare basse, guitare électrique, batterie, choeurs... sauf si la
guitare électrique, en utilisant un effet de distorsion, vient occuper
dans les aigus l'espace du celesta.
En bref, notre capacité à discriminer un certain nombre d'instruments
dans un orchestre tient aux caractéristiques de
masquage fréquenciel (en l'occurrence de non-masquage).
Utilisation pour le codage et la transmission
Dans les chapitres précédents, nous avons vu que la numérisation des
sons entraînait un flux de données numériques considérable, qui est
souvent incompatible avec la technologie actuelle de stockage ou de
transmission. Un choix cohérent de la fréquence d'échantillonnage et
de la méthode de quantification permet de réduire la taille des
données sonores, mais en général, ce n'est pas suffisant. Par exemple,
un CD-audio de 76 minutes (16 bits linéaires, 44.1kHz, stéréo)
correspond à plus de 750 mégaoctets de données (soit plus de 500
disquettes 3 pouces et demi formattées à 1.4MO)!
L'utilisation du phénomène de masquage sonore permet de réduire
considérablement le volume des données à stocker ou à transmettre. Le
principe consiste à ne coder (ou transmettre) que ce que nous
entendons. Il est en effet inutile de transmettre les sons que nous
n'entendons pas. Le phénomène psychoacoustique du masquage est à
présent suffisamment compris pour que les ingénieurs en
télécommunications soient capables de préciser la part de ce que nous
pouvons percevoir de celle que nous ne pouvons pas percevoir ; ils ne
transmettent que ce que nous percevons. Ce type de
codage s'appelle un codage psychoacoustique.
D'un point de vue technique, le codage psychoacoustique consiste à
décrire très précisément à un instant donné la courbe de masquage du
son à transmettre. Cette courbe de masquage indique le seuil à partir
duquel un bruit n'est plus perçu. Nous avons vu dans le chapitre
précédent que l'effet de quantification correspondait essentiellement
en une génération de bruit blanc large bande. L'idée consiste à
procéder à une allocation dynamique des bits pour que le
bruit de quantification soit caché au mieux par le son transmis. Cette
méthode permet donc de minimiser en moyenne le nombre de bits
alloué pour la quantification en adaptant localement la
répartition des bits en fonction des caractéristiques de l'oreille et
du son à transmettre.
Ce type de codage psychoacoustique est décliné selon différentes
variantes que l'on retrouve par la suite dans le MiniDisc de Sony,
dans les (ex-)cassettes numériques de Philips, dans les téléphones
cellulaires, pour la radio numérique (DAB), et dans les normes de
MPEG-Audio (MPEG-Audio Layer 2 et Layer 3, Musicam...).
Ce document a été formaté par
htmlpp.