Le son spatialisé, devenu la norme au cinéma depuis une quarantaine d’années, est régulièrement investi par des films au-delà de la simple vocation « immersive » à laquelle il est souvent assigné. Mais la grande variété de paramètres qui influent sur la perception de la bande sonore sont autant de contraintes ou d’obstacles entravant l’exploitation de ses potentialités.
C’est une scène située au milieu de L’Arbre aux papillons d’or dans laquelle Thien, le personnage principal, se couche à côté de son jeune neveu. Au lieu d’accompagner son mouvement, la caméra reste focalisée sur un meuble au-dessus duquel trône un réveil. Le cadre se resserre doucement sur le cadran, dont les aiguilles, légèrement phosphorescentes, percent l’obscurité. Si la scène n’avait jusque-là rien de bien étrange, un détail sonore vient alors rompre sa vraisemblance : le tic-tac du réveil, pourtant filmé frontalement, retentit depuis les enceintes situées à l’arrière-gauche de la salle. Plus curieux encore : le réveil se met soudainement à sonner, cette fois-ci depuis l’avant. Thien se lève, l’éteint, puis se recouche, avant que le tic-tac ne reprenne son rythme métronomique, toujours émis par les enceintes arrière. Ce découplage des sons émis par un même objet provoque un véritable vertige : c’est comme si l’ancrage réaliste du monde représenté vacillait soudainement.
Dans Un art sonore, le cinéma, Michel Chion qualifie la diffusion d’un élément sonore depuis les enceintes situées à l’arrière de la salle (et non depuis l’écran) « d’effet de coulisse », qui « aboutit à localiser précisément et réellement un hors-champ dans l’espace de la salle, en un lieu que l’oreille repère. » L’auteur pointe par ailleurs que, si un tel phénomène est remarquable au cinéma, c’est que nous sommes habitués à associer les sons que nous entendons, peu importe d’où ils proviennent, aux images projetées. Une différence de taille se présente toutefois dans l’exemple ici évoqué : l’objet (le réveil) n’est pas hors-champ, mais se trouve devant nous. Cette déréalisation de l’espace est d’autant plus frappante qu’elle s’inscrit dans une stratégie visant à inscrire minutieusement les sources de plusieurs sons au sein de la salle. La position de la caméra, à distance des personnages, se recoupe avec celle du spectateur et sert de point de référence pour identifier leurs emplacements : l’eau d’une douche qui coule est ainsi diffusée depuis les haut-parleurs arrière, la voix d’un personnage hors champ surgit d’une enceinte latérale… Une telle minutie dans la répartition spatiale des sons est en soi déjà vectrice d’un trouble, comme l’analyse Chion : « L’effet de discontinuité du changement de plans est fortement marqué, contre tous les usages et contre la grammaire classique du cinéma parlant, qui se sert beaucoup de la stabilité du son pour raccorder les plans entre eux, et donner l’impression d’un espace homogène. »
Ce procédé est rendu possible grâce au son multicanal, un dispositif associant plusieurs canaux sonores indépendants à des haut-parleurs précisément placés dans la salle, dont les interactions permettent de créer une illusion « d’espace ». S’ajoutent ainsi aux deux canaux avant droit et gauche, sur lesquels repose la stéréophonie classique, un canal central, deux canaux arrière droit et gauche et un canal dédié aux basses-fréquences, appelé LFE – pour « Low-frequency effects ».
Modélisation théorique d’une salle équipée en 5.1 (à gauche) et en 7.1 (à droite). Chaque carré plein représente un canal indépendant. Le carré vide, au milieu, représente le canal de basse. L’emplacement du caisson de basse varie selon les salles mais il est souvent disposé derrière l’écran, à proximité du haut-parleur central.
Les canaux dédiés à la spatialisation, diffusés via les enceintes latérales et à l’arrière de la salle, ne servent la plupart du temps qu’à ménager un effet de profondeur : on les qualifie d’ailleurs « d’ambiances », ce qui en dit long sur le rôle auquel ils sont souvent cantonnés. Cela n’a pourtant pas toujours été le cas, notamment lors de l’apparition du son multipiste, dans les années 1980 : Michel Chion, dans l’ouvrage déjà cité, en dresse une brève histoire, en montrant la surabondance d’effets alors déployés pour tirer profit des canaux arrière. Il va jusqu’à parler, pour ces pistes sonores, de « hors-champ poubelle » destiné « à recueillir tout ce qui sort du champ ». Si le dispositif sonore de L’Arbre aux papillons d’or se démarque parmi les sorties récentes, c’est que Pham Thien An intègre pleinement les potentialités de la spatialisation à sa mise en scène. Reste que sa volonté ne fait pas tout : de nombreuses modalités techniques sont à prendre en compte pour restituer dans une salle de cinéma une esthétique sonore pensée au mixage. Si l’on peut considérer en principe qu’une simple diffusion stéréophonique est à peu près similaire entre deux salles distinctes – les variables principales à prendre en compte étant les caractéristiques des enceintes ou leur éloignement l’une de l’autre –, d’autres paramètres interviennent dans le cadre d’une spatialisation. Le volume des haut-parleurs les uns par rapport aux autres, leur répartition dans l’espace, leur inclinaison le long des murs, leur directivité ou encore l’homogénéisation du système constituent autant de données susceptibles d’influer sur la fidélité de la diffusion sonore. L’enjeu est de taille : si l’intégralité des enceintes ne diffusent pas le son tel qu’il a été mixé, le film se voit amputé d’une part non négligeable de sa chair. Le premier et le plus évident de ces paramètres est le réglage du volume de diffusion.
Une question de volume sonore
« Nous avons un niveau standard pour la diffusion de tous les films, que nous ajustons légèrement à l’écoute » explique João Carta, directeur technique au MK2 Bibliothèque à Paris. Ce qui n’empêche pas les distributeurs de recommander des niveaux sonores rarement respectés par les salles, faute d’être adaptés aux habitudes des spectateurs. « Nous projetons autour du niveau de référence 5, précise Joao, alors que les films sont mixés, dans les auditoriums de post-production, pour être diffusés au niveau 7. » Ces niveaux de référence sont le fruit de mesures acoustiques effectuées dans chaque salle, afin qu’avec un même réglage, un spectateur de référence perçoive le son à une intensité similaire dans une salle ou une autre, malgré des caractéristiques (taille, matériaux, gradinage…) différentes. Cette équivalence est toutefois théorique et implique un test préalable, quand cela est possible, dans chacune des salles : « Dans les faits, si ces volumes de référence nous permettent de nous positionner a priori, toutes les salles sonnent différemment. » Pour être certain que le volume de diffusion sera élevé, les blockbusters s’appuient en outre sur ce que l’on appelle un mixage dynamique, en jouant sur des écarts marqués entre les sons très forts et ceux plus faibles. « C’est un problème que nous avons eu récemment avec Oppenheimer : dans les films de Christopher Nolan, les voix sont très sous-mixées, ce qui nous oblige à diffuser le film à un niveau assez élevé pour que les dialogues puissent être intelligibles. Et du coup, quand il y a une explosion… c’est vraiment fort ! Nous avons eu des retours mécontents de spectateurs, mais il est difficile de procéder autrement. » Thomas Charlet, ex-mixeur pour le cinéma et la télévision, qui travaille aujourd’hui comme directeur artistique de doublages français, déplore cette surenchère du volume sonore : « C’est un peu le serpent qui se mord la queue. Les mixeurs savent très bien que les films ne sont pas diffusés au niveau prévu, donc ils mixent le plus fort possible, parfois à l’extrême limite de la saturation, quitte à compresser et perdre en relief. »
Le niveau sonore ne conditionne cependant pas l’équilibre entre les haut-parleurs, déterminé par les équipes techniques en charge de la maintenance des salles à l’aide d’une « mire », c’est-à-dire d’un bruit de référence à partir duquel est assurée la balance de la salle. « Seul un petit potentiomètre situé à l’arrière de certains amplificateurs nous permet de corriger des défaillances ponctuelles », précise João. Il n’est donc pas question d’effectuer des réglages spécifiques pour chaque film, exception faite des séances privées et notamment les avant-premières destinées aux équipes de tournage, pour lesquelles un technicien externe, parfois secondé par le mixeur, peut venir régler lui-même le système de diffusion. « C’est quelque chose qui nous arrive assez fréquemment : un technicien mandaté par notre client s’installe dans la salle et passe plusieurs heures à régler chacun des haut-parleurs ». Ce réglage concerne autant le volume que (voire surtout) l’égalisation, c’est-à-dire un ajustement des différentes fréquences en fonction des propriétés acoustiques de chaque haut-parleur ainsi que la manière dont ces fréquences se propagent dans la salle. Mis à part le cas de figure assez spécifique d’une privatisation ou d’un événement, la prise en compte des propriétés des haut-parleurs du système de diffusion est donc relativement rare, quand bien même elles jouent un rôle décisif dans la restitution de la spatialisation.
Le difficile équilibre du mixage 5.1
Pour garantir la restitution la plus fidèle au mixage, le niveau sonore de référence est calculé à partir de mesures effectuées depuis un point de référence situé au milieu de la salle, que les ingénieurs sonores nomment le sweet spot (le « point idéal »). La console du mixeur, dans un auditorium de post-production, est installée à ce même point central. Le mixage de pistes sonores en 5.1 se fait à l’aide d’un curseur que le mixeur déplace entre les cinq canaux, parfois à l’aide d’un joystick, au lieu du simple curseur panoramique utilisé lors du mixage en stéréo.
Comparaison d’une balance stéréo (à gauche) et 5.1 (à droite) sur le logiciel de montage Final Cut Pro X. En adoptant cette position centrale du curseur surround, la piste sonore concernée sera diffusée au même volume sur les cinq canaux audio.
La tendance, lors du mixage spatialisé, est plutôt de réserver les canaux arrière au renforcement ponctuel du son diffusé dans les canaux avant. « Pour bon nombre de mixeurs, le défi est déjà de faire un mixage stéréo qui sonne bien », explique Thomas Charlet. Les canaux arrière reprennent la musique ou les textures d’ambiance, mais à un niveau bien plus faible que sur les canaux avant. « Il s’agit surtout de créer une sensation d’englobement : on y place par exemple des queues de reverb [NDLR : les dernières secondes d’une réverbération appliquée à une piste], mais pour que l’effet fonctionne, il faut le doser avec finesse. » Les canaux arrière sont dès lors loin d’être aussi exploités que les canaux avant. « Surcharger les enceintes latérales et arrière d’éléments hétérogènes, qui peuvent faire tourner la tête au spectateur en cours de projection, me semble être une erreur. Les ambiances, dans la spatialisation, sont destinées à renforcer l’image devant nous », juge Thomas. Elles peuvent toutefois être vraiment exploitées lorsque la bande sonore fourmille déjà de détails, par exemple lors d’une scène d’action. « Les scènes de combat, notamment, sont le terrain parfait pour doser des éléments très fins dans ces enceintes », qui enrichissent ainsi la texture sonore de la séquence.
Si les canaux arrière ont une fonction secondaire dans la plupart des mix 5.1, c’est que les mixeurs ont pris l’habitude de faire ressentir la profondeur de l’espace en misant avant tout sur les trois canaux avant. Le mixage entre ces pistes, nommé « LCR » pour « Left-Center-Right » (gauche-centre-droit), permet d’équilibrer l’image stéréophonique, dont les deux points de diffusion sont éloignés, au cinéma, en raison de la taille de l’écran. Effectivement, un spectateur situé au « centre parfait » de la salle – le fameux sweet spot – entend aussi bien l’enceinte droite que celle de gauche, mais il lui suffit de se déplacer vers l’un des côtés pour qu’il entende davantage l’enceinte située plus proche de lui, altérant ainsi le rendu stéréophonique. « Grâce à l’enceinte centrale, tout ce que l’on positionne au milieu au mixage restera au centre, quelle que soit la position du spectateur dans la salle ». Ce canal central assure en outre la bonne audibilité des dialogues, quelle que soit la position de la piste contenant les voix dans les canaux stéréo. D’ailleurs, lorsque le mixeur décide de suivre le déplacement d’un personnage par un panoramique sonore (c’est-à-dire le déplacement d’une piste audio vers un canal en particulier), il lui suffit de décaler légèrement cette piste vers l’un des côtés pour que l’illusion spatiale fonctionne : « Déplacer une voix ou un bruitage complètement vers un côté crée une impression très déstabilisante. En vérité, il suffit de déplacer la piste de 30% vers le canal correspondant pour que l’impression de mouvement fonctionne. » Il existe plusieurs autres solutions pour accompagner le déplacement d’un personnage : l’apparition ponctuelle de réverbérations bien spécifiques, des légères variations de volume selon sa distance avec la caméra…
Uniformiser toute la chaîne ?
Le relatif délaissement des canaux latéraux et arrière par les mixeurs résulte sûrement aussi de l’impossibilité, pour les salles, de garantir une véritable précision lors de leur diffusion, trop sensible aux variations d’équipement et de paramétrage des haut-parleurs. Ces dernières années, différents groupes d’exploitants ont toutefois multiplié le développement de salles « premium », qui proposent des conditions de projection particulières dont certaines confinent à l’attraction – Imax, mais aussi ICE, Screen X, 4DX, Dolby Cinema… Bien qu’elles proposent des expériences variées, ces salles accordent toujours une attention particulière au son et plus particulièrement à sa spatialisation. Seraient-elles ainsi les seules garantes d’une diffusion optimale du son spatialisé ? La technologie bien particulière que la plupart d’entre elles emploient, le Dolby Atmos, fait en tout cas le lien indispensable entre les deux étapes que sont le mixage et la diffusion en salles, en intégrant dès la première les paramètres techniques de la seconde. Lors du mixage en Dolby Atmos, qui permet de gérer jusqu’à soixante-quatre canaux indépendants, un paramètre vertical s’ajoute aux canaux traditionnels de la spatialisation grâce aux haut-parleurs fixés au plafond des salles : les mixeurs disposent ainsi des « objets » sonores dans la tridimensionnalité de la salle avec une précision inédite.
Modélisation d’un système de diffusion Dolby Atmos pour le cinéma, sur laquelle on distingue les trois rangées de haut-parleurs situés au plafond, garants de l’effet tridimensionnel. | © Dolby Professional
La standardisation des salles équipées en Dolby Atmos, dont le label recouvre tout autant le mixage que la projection, implique un positionnement rigoureux des enceintes, mais aussi de prendre en compte les tailles des salles ou encore de recourir à des matériaux spécifiques privilégiés pour leurs propriétés acoustiques. Cette labellisation de toute la chaîne sonore constituerait-elle la seule manière de garantir une juste restitution du son mixé en auditorium ? Il faudrait toutefois que cette technologie, très coûteuse et contraignante, se démocratise à la fois à l’échelle de la post-production (pour pouvoir être investie par des films à plus petit budget) et de la projection (pour concerner un plus grand nombre de salles de cinéma). La garantie d’une juste restitution de la finesse du mixage permettrait alors sans doute le déploiement généralisé d’un travail plus poussé de la spatialisation et la remise en perspective des habitudes, parfois standardisées, du mixage multicanal.