Premier volet d’une série d’articles sur quelques problèmes théoriques en lien avec le cinéma que pose le jeu vidéo. Pour commencer : la question de la caméra, du regard et de la machine-vision.
Des mouvements de caméra marquants, le cinéma en compte beaucoup : chez Welles, chez Hitchcock, chez De Palma, chez Vertov, etc. Dans le champ du jeu vidéo, on en dénombre peut-être moins, dans la mesure où la caméra y tient une place ambivalente, à la fois centrale et secondaire. Centrale parce que, dans le prolongement du cinéma et de la télévision, le jeu vidéo a fini par recourir massivement à la notion de « caméra » pour définir la vision produite par ses images en mouvement. Secondaire car, à l’inverse, elle ne semble pas être la préoccupation première des joueurs et des game designers, qui n’en font bien souvent qu’un outil visant à rendre compte de l’action. Il existe pourtant un mouvement de caméra de jeu vidéo qui n’a, sur le plan historique, réflexif et symbolique, rien à envier aux travellings et aux panoramiques emblématiques du septième art. Au tout début de Super Mario 64, premier jeu de la série à proposer un espace en trois dimensions, la caméra lévite autour du château de la princesse Peach avant de se diriger vers le célèbre plombier. Dans son mouvement acrobatique, la caméra s’accompagne d’une autre, cette fois-ci intradiégétique, accrochée au bout d’une canne à pêche tenue par Lakitu, une tortue à lunettes installée sur un petit nuage. On alterne entre les deux objectifs, qui tantôt se désolidarisent, tantôt ne font plus qu’un, en passant sous un pont et en rasant les douves de l’édifice. Quelques secondes plus tard, après avoir donné le contrôle du plombier et de la caméra au joueur, la tortue s’adresse à Mario. Quelques précisions pour orienter l’objectif y sont mentionnées, puis le reptile à la caméra, en sus d’évoquer la présence d’un second filmeur (son frère jumeau), conclut ainsi : « C’était Lakitu, cameraman prêt à vous fournir les meilleures images… ». S’il y a déjà beaucoup à dire sur cette seule intervention (qui est vraiment ici le « cameraman » ? qu’entend-il par « les meilleures images » ?), Nintendo pose, au travers de cette séquence introductive, un certain nombre de questions. De quoi est faite la caméra dans le jeu vidéo, soit dans un médium qui, concrètement, n’y a pas recours (il n’y a pas de caméra au sens d’objet technique) ? À quel regard correspond-elle : celui de l’avatar, du joueur ou de la caméra elle-même ? Enfin, comment définir la vision vidéoludique en général ?
La caméra fantôme
Exception faite du mouvement pionnier et démonstratif de Super Mario 64, l’entité « caméra » n’est pas présente dans la plupart des jeux vidéo. Bien qu’elle soit pour la lisibilité de l’action un élément primordial, elle reste techniquement virtuelle et, à l’échelle de la fiction, souvent éludée. Pour définir en premier lieu la caméra vidéoludique, il faudrait donc envisager la séquence inaugurale de Super Mario 64 à l’aune du Lakitu manquant, de ce frère jumeau que l’on ne voit pas mais qui pourtant tiendrait autant la caméra que son comparse : étudier la caméra dans le jeu vidéo revient à désigner une caméra fantôme, qui n’est pas vraiment là. Dans par exemple Metal Gear Solid V : The Phantom Pain, le cadre tremble lorsque Venom Snake se met à courir, comme si l’espion était suivi par un filmeur invisible enregistrant l’action avec une caméra sur l’épaule. Le choix de figurer les cinématiques du jeu en de longs plan-séquences proches du sol corrobore l’hypothèse d’un filmeur fantomatique en errance autour des avatars. Cette caméra spectrale peut d’une part renvoyer au phantom du titre (le fameux Solid Snake, qui hante le jeu de sa présence-absence), et d’autre part à la condition d’espion de Venom Snake – être invisible aux yeux des autres et traverser l’espace tel un fantôme, tapis dans l’ombre. L’horizon scopique de MGS V, qui pose d’autres questions encore (nous y reviendrons), s’inscrit en plein dans la démarche réflexive des jeux signés Hideo Kojima, où le statut spectral et liminal du joueur et de son regard sont souvent mis en scène. C’est le cas au début de Death Stranding, dernier-né du concepteur japonais. Au milieu d’un long plan-séquence, l’avancée de la caméra s’accompagne d’empreintes de pas. Il s’agit des traces d’un échoué, spectre en errance dans le monde des vivants et dont la marche s’accorde exactement avec le mouvement du traveling : la caméra fantôme manifeste soudainement sa (semi-)présence. Que soient figurées des empreintes dans une séquence où, précisément, il n’y a ni caméra au sens technique ni processus de fixation photochimique dans la fabrication des images, ne fait que renforcer ce beau problème.

Autre jeu à la portée réflexive éclatante, Beyond : Two Souls vient lui aussi mettre en jeu l’hybridité de la caméra vidéoludique, entre présence et absence, entre tangibilité et spectralité. Le titre propose d’incarner Jodie Holmes (Elliott Page), une jeune femme aux pouvoirs surnaturels, ainsi que son compagnon Aiden, une entité spectrale, dans une série d’aller-retours propices à l’alternance de deux modes d’existence et de vision. Parti-pris intéressant : le point de vue de Jodie s’incarne par l’entremise d’une grammaire cinématographique traditionnelle (amorces en bord de cadre, champ-contrechamp, gros plans, etc.), tandis que celui d’Aiden correspond à l’œil neuf du cinéma numérique – avec ses mouvements de caméra impossibles (passer à travers un miroir dans Contact de Robert Zemeckis) et la traversée de trous de serrure (dans Panic Room de David Fincher). N’importe quelle séquence de Beyond peut illustrer cette duplicité formelle, qui concorde en tout point avec le projet du studio français Quantic Dream : proposer un titre au croisement du cinéma et du jeu vidéo. Au début du jeu, Jodie Holmes déambule dans un grand hôtel luxueux. Pour accomplir sa mission et prendre connaissance de documents confidentiels à l’autre bout du palais, elle se dirige vers les toilettes du bâtiment puis, le temps d’une cut-scene, la caméra passe du corps de Jodie au point de vue d’Aiden. Le joueur n’est plus qu’un esprit en lévitation, caméra fantôme capable de traverser la matière. Par ce revirement scopique, Beyond figure quelque part un passage du cinéma au jeu vidéo, du regard filmique au regard informatique : on passe d’une vision ancrée matériellement à une caméra sans corps, pur œil virtuel aux propriétés spectrales (passer à travers les murs ou un tableau, léviter dans les airs, suivre des trajectoires impossibles, etc.). On pourrait dès lors définir la caméra vidéoludique à partir de ce double-ancrage, entre une caméra cinématographique traditionnelle et une vision jouissant des possibilités nouvelles qu’offre l’espace informatique dans lequel elle s’inscrit – cet espace qui, selon Lev Manovich, « ne privilégie aucun axe en particulier, […] ressemble aux Prouns d’El Lissitzky et aux compositions suprématistes de Kasimir Malevitch », comme « un cosmos abstrait affranchi de la loi de la gravité et du poids du corps humain ».
Le regard fragmenté
Reconnaître la duplicité ontologique de la caméra vidéoludique ne règle toutefois pas entièrement le « problème caméra ». On peut aussi envisager son hybridité à partir de son ancrage même. Revenons-en à Super Mario 64. La particularité de la caméra dans la séquence précédemment évoquée est de provoquer une forme de dissociation chez le joueur, qui scinde son appréhension du monde ludique, entre d’un côté un corps (Mario) et de l’autre une vision qui lui est extérieure (Lakitu). D’où ce dialogue déroutant entre Lakitu et Mario, avant l’entrée au château : la vue à la troisième personne implique à ce moment un véritable trouble dissociatif de l’identité et de la perception, puisque le joueur est en principe aux mains des deux interlocuteurs (il joue autant Mario que Lakitu, manipulant le cadre et la figure au sein de ce même cadre). À propos du développement (inquiétant selon lui) de la perception artificielle en général, Paul Virilio parlait d’un dédoublement du point de vue, d’un « partage de la perception de l’environnement entre l’animé, le sujet vivant, et l’inanimé, l’objet, la machine de vision ». Une fragmentation du regard qui a sans cesse alimenté et stimulé la création vidéoludique. On peut en effet discerner historiquement une forme de tension, voire de conflit, entre ces deux entités perceptives principales du jeu vidéo : l’avatar et la caméra. C’est que l’avantage accordé à l’un ou à l’autre change radicalement l’approche du gameplay, façonne des genres entiers selon leur association ou leur dissociation. Parfois la caméra prend le pouvoir et impose au joueur une vision extérieure qu’il ne peut modifier, comme dans les premiers Resident Evil et God of War. Dans Resident Evil, le privilège accordé à la caméra sur l’avatar produit un sentiment d’impuissance vis-à-vis d’un hors-champ menaçant. Quant aux premiers God of War, l’impossibilité de contrôler la caméra souligne l’asservissement d’un corps à l’égard d’un regard divin et surplombant. À l’inverse, l’avatar peut prendre le dessus sur la caméra jusqu’à en faire son œil. C’est exemplairement le cas des FPS (First Person Shooter), où la caméra est greffée au corps de l’avatar et entièrement soumise au contrôle du joueur, capable de balayer son champ de vision comme bon lui semble (panoramiques, travellings, zooms, voire les trois en même temps). Dans les premiers cas de figure, la caméra transforme le joueur en le spectateur de ses propres aventures. Dans le second, le joueur est un opérateur décidant seul de ses cadres et de ses mises au point : les deux entités perceptives n’en forment plus qu’une seule.
Plus intéressants encore sont les titres qui font de ce double point de vue, partagé entre l’avatar et la caméra, entre Mario et Lakitu, un élément central à l’échelle du gameplay. C’est le cas de Metal Gear Solid V, sur lequel il faut revenir. On y discerne différentes modalités de vision appelées à se répondre et à se compléter. En premier lieu : la vue à la troisième personne, décisive dans le cadre d’un jeu d’infiltration, étant donné qu’il est possible de voir là où Venom Snake, physiquement, ne peut pas regarder (quand il est couvert derrière un mur ou lorsqu’il se cache dans la boîte en carton qu’il peut déplier à tout moment). Vient ensuite la vue à la première personne, qu’il est possible d’activer en utilisant des jumelles, avec lesquelles on peut zoomer et scanner des ennemis pour les détecter ensuite à travers les murs et les surfaces. Enfin la vision de l’iDroid, l’appareil de géolocalisation qui représente la carte du jeu depuis un point de vue aérien et vertical. Le premier regard correspond au point de vue de la caméra, le deuxième à celui de l’avatar, et le troisième à celui de l’interface. Au-delà des réflexes et du sang-froid qu’exige le genre du jeu d’infiltration, le principe ludique Metal Gear Solid V repose sur l’alternance et la complémentarité de ces différents modes de vision, qui permettent de progresser dans les missions en réduisant au maximum le hors-champ et les angles morts. Il est par exemple encouragé d’avoir recours à des plans de coupe aérien par l’entremise de l’iDroid pour se repérer dans l’espace, mais aussi de changer rapidement d’échelle en surveillant l’environnement immédiat de son avatar autant qu’un petit détail à l’autre bout d’une vallée. Tout le gameplay de Metal Gear Solid V tourne autour cette alternance : se concentrer autant sur la perception de Snake que sur celle de la caméra à la troisième personne, adapter sa façon de jouer et appréhender différemment l’espace selon les situations, en somme épouser les contours d’une vision hybride et composite, à l’ancrage résolument pluriel.
La Machine de vision
Ce regard décuplé nous amène à la question de la machine vision, notion qu’étudient aujourd’hui des chercheurs comme Alice Leroy ou Antonio Somaini, en prolongement des écrits de Laszlo Moholy-Nagy ou de Jean Epstein au début du XXe siècle, qui évoquait les modalités de la vision machinique au cinéma : « Un mécanisme se révèle, en cette occurrence, doué d’une subjectivité propre, puisqu’il représente les choses, non pas comme celles-ci sont aperçues par les regards humains, mais seulement comme il les voit, lui. ». NieR : Automata est à ce sujet un jeu tout à fait passionnant. Le RPG de PlatinumGames nous met dans la peau de différents androïdes et propose des séquences de shoot’em up, des phases d’action classiques en vue à la troisième personne et des passages en vue isométrique ou en scrolling latéral. Dans cette optique, les modalités de vision suivent un principe d’hybridation qui embrasse pleinement la nature composite et modulaire du médium vidéoludique. Quand bien même semble-t-elle s’ancrer à un point fixe dans l’espace, la caméra ne cesse de changer d’échelle et de perspective : elle se rapproche ou s’éloigne de façon excessive des personnages dans les séquences de hacking ; lors des passages en shoot’em up, le jeu alterne entre différents angles, d’une vue en contre-plongée à une caméra à l’épaule. On ne sait d’ailleurs pas à quel œil correspond véritablement cette caméra changeante : dans les séquences en vue à la troisième personne, elle gravite autour des androïdes jouables, mais l’orienter avec le joystick ne provoque que la rotation des petits drones qui les accompagnent. Ailleurs, lorsque les androïdes subissent de lourds dégâts, c’est l’ensemble d’écran qui se retrouve parsemé de glitchs et d’artefacts, comme si cette fois le regard livré correspondait bien à celui des androïdes et non à celui des drones. D’où ce choix très fort, dans le deuxième chapitre du jeu, de nous faire revivre sous un autre angle des événements déjà vécus dans le premier segment. Le joueur passe de 2B, une androïde de combat, à 9S, son partenaire. Une séquence marquante invite d’ailleurs le joueur à adopter encore un autre point de vue : juste avant de prendre le contrôle de 9S, on incarne lors d’une courte phase du jeu l’un des robots que combattent les androïdes. On se met un instant dans les yeux de cette machine désemparée, qui tente de ranimer son frère avec de l’essence, avant de jouer l’androïde dédaigneux qui, non loin de là, l’observe depuis une plateforme à la manière d’un joueur face à son écran.

Que nous dit cette séquence, et plus généralement le système perceptif d’un jeu comme NieR : Automata ? Que la vision dans le jeu vidéo, plus encore peut-être qu’au cinéma, ne saurait être réduite à un point de vue en particulier : ni à celui d’un corps, ni à celui d’une caméra, ni à celui d’un créateur, d’un spectateur ou d’un joueur. Elle navigue sans entrave de l’un à l’autre, passe des mains du programmateur à celles du joueur, s’accorde avec le regard de l’avatar ou avec celui de l’entité scopique qui le poursuit, prend la forme d’une vision démiurgique ou bien embrasse les principes d’une perception machinique. Elle invite en tous cas à revoir notre approche de la vision à l’aune du numérique. L’œil du jeu vidéo est là sans être vraiment là, subjectif tout en étant extérieur, humain et non-humain à la fois : en définir les contours revient à affirmer sa nature dynamique, insaisissable et profondément paradoxale.