Antonio Somaini, professeur en études cinématographiques, études visuelles et théorie des médias à l’Université Sorbonne Nouvelle, prépare actuellement un ouvrage sur les conséquences du développement de l’Intelligence Artificielle dans la création artistique et la culture visuelle contemporaines. Nous avons échangé avec lui autour de l’émergence de cette « machine vision ».
Que recouvre selon vous le terme de machine vision ? Quels sont les outils et les différents types d’images qui participent de ce phénomène ?
Le phénomène de la machine vision fait partie d’un ensemble plus vaste de phénomènes liés à l’Intelligence Artificielle – un terme qu’il faut manier avec précaution, parce qu’il recouvre des technologies et des applications qui sont entourées par un réseau complexe de discours, d’imaginaires et de fictions. Traduit en français par « vision artificielle » ou « vision par ordinateur », le terme machine vision désigne des systèmes informatiques alimentés par des processus de « machine learning » (« apprentissage automatique ») dont l’objectif est de détecter et de reconnaître des objets et des formes à l’intérieur des images. Après avoir été testées pour la première fois à la fin des années 1950, avec le Perceptron (le premier réseau de neurones artificiels, un système de reconnaissance de caractères), ces technologies se sont développées de plus en plus rapidement à partir des années 1990. Depuis une dizaine d’années, elles se nourrissent des milliards d’images accessibles en ligne : des images qui par le seul fait d’être numériques sont « machine-readable », c’est-à-dire analysables par des machines. Par la rencontre entre l’Intelligence Artificielle et le Big Data, les systèmes de machine vision sont donc en train de transformer l’iconosphère numérique contemporaine en un vaste champ d’extraction et d’agrégation de données. Visages, expressions du visage, corps, gestes, mouvements, objets et lieux peuvent désormais être identifiés, étiquetés, stockés, organisés et traités sous forme de données rapidement accessibles et utilisables à des fins très diverses : de la reconnaissance faciale utilisée à des fins de surveillance par des institutions publiques ou des sociétés privées, à la reconnaissance d’émotions pour des analyses de marketing ; du contrôle des processus industriels au pilotage de voitures sans conducteur, drones et robots ; de l’analyse diagnostique de l’intérieur du corps humain grâce au traitement automatisé de l’imagerie médicale, à l’étude, par le biais d’images satellite, de la surface de la Terre et des transformations produites par le changement climatique. À tous ces champs d’application s’ajoute aussi celui des stratégies et des opérations militaires, où ces technologies sont désormais déployées à tous les niveaux. Or, ce qu’il faut souligner, c’est qu’en plus d’apprendre à des machines comment reconnaître des entités dans des images, le machine learning permet aussi de transformer des images existantes, voire d’en créer de nouvelles. C’est l’ensemble de notre culture visuelle qui est par conséquent bouleversé par ces technologies.
À quel moment ce domaine de recherche s’est-il imposé à vous ?
Avec la lecture d’un texte de l’artiste et chercheur Trevor Paglen, « Invisible Images (Your Pictures Are Looking At You) », publié en 2016 dans la revue The New Inquiry. Dans ce texte, Paglen analyse avec une grande clarté les enjeux épistémiques et politiques du développement des systèmes de machine vision, et voit dans ce développement un tournant majeur – un « tectonic shift », un « glissement tectonique » – dans l’histoire des images et de la culture visuelle. Avec ces technologies, selon lui, « la culture visuelle humaine est devenue un cas particulier de vision, une exception à la règle », tandis que « l’écrasante majorité des images sont désormais réalisées par des machines pour d’autres machines, les humains étant rarement dans la boucle ». Or, je ne pense pas qu’à ce stade l’écrasante majorité des images soient réalisées par des machines pour d’autres machines. Cela concerne surtout des situations spécifiques, comme par exemple les systèmes contrôlant les processus de production industrielle, ou les caméras de surveillance qui produisent sans cesse des quantités énormes d’images analysées de manière automatique, sans être vues, dans la plupart des cas, par des yeux humains. Si l’on met de côté des situations de ce type, la très grande majorité des milliards d’images stockées sur Internet et chargées sur les plateformes des réseaux sociaux ont été produites par des humains pour d’autres humains, bien qu’elles puissent être dans le même temps analysées et traitées par un « regard » non-humain, algorithmique, celui de la machine vision. Malgré ces quelques points de désaccord, le texte de Trevor Paglen reste pour moi fondateur.
It Began as a Military Experiment (2017) | © Trevor Paglen
Le fait que ces images puissent être analysées automatiquement par la machine nous invite-il à repenser la notion même d’image ? Une image numérique est-elle encore une image ?
La question de savoir si une image numérique est encore une image s’est posée dès le début des années 1990. Le développement des nouvelles technologies numériques dans le champ des images a profondément bouleversé cette notion qui avait, jusque-là, surtout été pensée en relation avec des techniques et des formes de représentation comme le dessin, la peinture, la sculpture, la photographie ou le cinéma argentique. Aujourd’hui, trente ans après ce tournant numérique, peu de personnes mettent encore en question le fait qu’une « image numérique » soit encore une image. Nous sommes constamment entourés par une quantité énorme d’images numériques et nous les traitons comme des images. Les choses changent, par contre, si nous prenons en considération ces images une fois intégrées dans les systèmes de machine vision : celles-ci deviennent machine-readable dans le sens où elles peuvent être « vues », analysées et traitées sans s’afficher sur un écran et être visibles par des yeux humains. Cette transformation bouleverse profondément la notion d’image, puisqu’elle soulève la question de savoir si l’on peut encore considérer comme « image » un fichier numérique qui ne se manifeste jamais sous une forme visible – ou seulement pour un temps très limité.
Le terme de machine-readable image renvoie aussi à la grande question des rapports entre image et langage, puisque les systèmes de machine vision se basent sur la possibilité d’associer à chaque image, et à chaque objet représenté dans une image, un ou plusieurs termes issus du langage naturel. La base de données d’images la plus utilisée pour entraîner les systèmes de machine vision, ImageNet, contient 14 millions d’images organisées selon une arborescence constituée de 21 000 catégories et sous-catégories, liées aux substantifs de la langue anglaise et dérivées de la hiérarchie de WordNet. C’est la structure du langage – qui plus est, d’une langue spécifique – qui régit le fonctionnement des systèmes de machine vision, et toute la relation entre images, mots et choses est remise en question.
Au fil de vos recherches, vous convoquez des références issues des théories du cinéma et de la photographie des années 1920, 1930 et 1940. Je pense aux écrits de Dziga Vertov sur le « ciné-œil », à ceux de Moholy-Nagy sur la « Nouvelle Vision », au concept benjaminien d’« inconscient visuel » ou encore à L’Intelligence d’une machine (1946) de Jean Epstein. Dans quelle mesure le phénomène récent de la machine vision nous ramène-t-il à ces interrogations vieilles d’un siècle ?
Dans le texte que je viens de citer, « Invisible Images (Your Pictures Are Looking At You) », Trevor Paglen écrit que « si nous voulons comprendre le monde invisible de la “machine visual culture”, nous devons désapprendre à voir comme des humains ». Cette phrase synthétise le travail que Trevor Paglen poursuit depuis 2017, mais dessine aussi une voie très intéressante à suivre si l’on veut analyser le phénomène de la machine vision selon une perspective historique et média-archéologique. Cette tentative de « désapprendre à voir comme des humains » a en effet déjà été amorcée par toute une série d’artistes, photographes, cinéastes, théoriciens de l’art et critiques de la culture qui, dans les années 1920 et 1930 en particulier, se sont interrogés sur les enjeux d’un regard non-humain qui, pour eux, était celui de la caméra, cinématographique ou photographique. Dans les écrits de figures très différentes comme Jean Epstein, Dziga Vertov, László Moholy-Nagy, Walter Benjamin, et Siegfried Kracauer, nous trouvons un ensemble de réflexions sur le potentiel esthétique, épistémique et politique d’un regard machinique – un regard dont à l’époque on soulignait la dimension « objective » et « indifférente », capable de décentrer le regard humain et d’envisager une nouvelle manière de regarder le monde visible, à laquelle on associait un vrai potentiel politique. Dans le livre que je prépare actuellement, je reviens sur ces textes afin de reconstruire les nombreuses lignes généalogiques qui les relient à notre contemporanéité. J’essaie aussi de comprendre à quel point, et comment, s’est produit le renversement qui a fait que ce même « regard de la machine », à l’époque perçu comme un instrument de libération (sensorielle, épistémique, politique), ait été ensuite associé à des fonctions répressives de surveillance et de contrôle. C’est une question qui est aussi au centre de certaines installations vidéo d’Harun Farocki, comme Counter-Music (2004).
Pour ce qui concerne plus précisément le cinéma, on constate que la machine vision irrigue la pratique d’artistes contemporains (je pense évidemment à Hito Steyerl) mais occupe, à l’exception notable des deep fakes, une place un peu marginale dans les films se destinant à l’exploitation en salles…
Pour le moment, en effet, les figures qui travaillent activement sur les systèmes de machine vision évoluent surtout dans le champ de l’art contemporain, même si très souvent leurs œuvres utilisent des images en mouvement : je pense à Trevor Paglen et Hito Steyerl, mais aussi à Grégory Chatonsky et à d’autres artistes, souvent des artistes-chercheurs, comme Nora Al-Badri, Refik Anadol, Ben Bogart, Mario Klingemann, Egor Kraft, Helena Nikonole, et même Pierre Huyghe, qui a inclus des images produites par des réseaux de neurones dans son installation Uumwelt, présentée à la Serpentine Gallery en 2018. Ceci dit, je pense que ces technologies sont destinées à avoir des conséquences profondes sur le cinéma, à tous les niveaux : que ce soit au moment du tournage, avec des caméras qui intègrent (comme c’est déjà le cas) des fonctionnalités alimentées par des systèmes de machine learning, ou au moment du montage et de la diffusion (il suffit de penser au rôle joué par les algorithmes sur des plateformes comme Netflix). Les systèmes de machine vision et leurs applications – par exemple, la reconnaissance faciale – sont d’ailleurs souvent évoqués dans des films d’action (on peut penser par exemple à Eye in the Sky, sorti en 2015) ou dans des séries télé (comme les épisodes « Hatred in the Nation » ou « Metalhead » de Black Mirror). Il faut aussi mentionner le fait que certaines archives filmiques – comme celle du Eye Film Museum d’Amsterdam, avec le projet Jan Bot – commencent à s’emparer de ces technologies pour en tester la possible application à l’étude de l’histoire du cinéma, en faisant des recherches qu’on ne pourrait pas faire sans, comme repérer toutes les occurrences d’un visage, d’un geste, d’un objet, d’un mouvement de caméra ou d’une configuration lumineuse dans de très vastes corpus de films.
Uumwelt (2018) | © Pierre Huyghe
Quelles stratégies figuratives adoptent les artistes qui s’intéressent à la machine vision ? Comment donner à voir ce qui, précisément, ne relève pas systématiquement du visible ?
On trouve, dans la production de certains des artistes que je viens de mentionner – Trevor Paglen, Hito Steyerl, Grégory Chatonsky – des stratégies diverses pour faire face à l’impact de l’intelligence artificielle sur la culture visuelle contemporaine. Depuis 2017, Trevor Paglen produit des œuvres et écrit des textes (souvent en collaboration avec Kate Crawford) qui nous renseignent sur les enjeux épistémiques et politiques des nouvelles technologies de machine vision, en se concentrant en particulier sur l’analyse de la composition des bases de données utilisées pour les entraîner (comme ImageNet) et sur les préjugés d’ordre politique, racial, ou de genre qui les traversent. Son travail possède une dimension critique qui s’inscrit directement dans la perspective ouverte par Harun Farocki avec ses installations du début des années 2000, par exemple Eye Machine I, II, III (2001 – 2003), et ses textes sur les « images opératoires ». Hito Steyerl développe, elle aussi, un regard critique sur ces technologies, en se focalisant principalement – dans des installations comme This is the Future (2019) ou SocialSim (2020) – sur leur fonction prédictive : leur participation à tout un vaste réseau de systèmes de prédiction et de surveillance qui traverse les champs militaire, économique, social, et politique. Grégory Chatonsky, par contre, adopte une autre stratégie. D’un côté, ils s’interroge sur les enjeux épistémiques de ces technologies et leurs relations avec l’histoire de médias comme la photographie, par exemple lorsqu’il parle du « nouveau réalisme sans réel » des images générées par une technologie de machine learning comme les GAN (Generative Adversarial Networks), et le met en contraste avec la tradition du photoréalisme pensée selon le modèle du support photochimique de l’image argentique. De l’autre, il essaie d’explorer l’imaginaire produit par ces technologies : ce qu’il considère comme une nouvelle forme d’« imagination artificielle » produite par des machines qui ont absorbé la masse « hypermnésique » des traces textuelles et visuelles que les humains ont déposées sur Internet, pour générer des images et des textes selon les logiques d’apprentissage automatique qui leur sont propres.
On trouve dans le travail de ces trois artistes des horizons assez différents – d’ordre analytique, critique et spéculatif –, mais les images qui traversent leurs œuvres peuvent parfois se ressembler. Entre les Adversarially Evolved Hallucinations (2017) de Paglen, les métamorphoses de plantes et de fleurs que nous voyons dans l’installation This is the Future (2019) d’Hito Steyerl, ou le « réalisme sans réel » des images de l’installation Complétion 1.0 (2021) de Grégory Chatonsky, on reconnaît presque un « style » commun : un style qui est typique des images produites par les systèmes de machine learning.
This is the future (2019) | © Hito Steyerl
Je me dois de vous poser cette question un peu fatidique : est-il sérieux d’envisager, qu’à l’avenir, une part de la création audiovisuelle, et notamment cinématographique, se dispense de l’intervention humaine ?
L’idée qu’un jour l’Intelligence Artificielle pourrait atteindre une autonomie lui permettant de se dispenser totalement de toute intervention humaine fait partie de l’imaginaire qui l’accompagne depuis ses débuts : c’est un récit qui a généré toute une série de fictions, et qui a presque acquis une dimension mythique. Et pourtant, ce à quoi nous assistons avec le développement de l’Intelligence Artificielle, du moins dans la phase que nous traversons actuellement, n’est pas un dépassement de l’humain, mais plutôt son décentrement et son repositionnement. Agentivités humaines et techniques continuent de se croiser – comme elles l’ont toujours fait dans l’histoire des images et notamment du cinéma : c’était déjà le cas d’un opérateur Lumière avec sa caméra, ou d’un monteur au travail sur une table de montage Steenbeck, mais ce croisement se produit de manière différente.
L’irruption de l’Intelligence Artificielle dans la création artistique et la culture visuelle contemporaines ne nous mène pas, pour l’instant, vers un dépassement de l’humain, mais plutôt vers un nouveau maillage d’interventions humaines et non-humaines : de nouvelles formes d’interaction, de coopération et de codépendance entre les intentions, les projets et les gestes d’un sujet humain, et les opérations automatiques produites par la machine. Les 14 millions d’images stockées sur ImageNet, utilisées pour entraîner des systèmes de machine vision, ont été produites par des humains et mises en ligne sur Internet par des humains ; elles servent ensuite pour activer des systèmes de machine vision non-humains, collectant des données qui, une fois traitées et élaborées, seront utilisées pour déclencher des opérations qui auront à nouveau une incidence sur des humains. En d’autres termes, nous faisons face à des circuits et des architectures complexes, qui évoluent en continu, et dans lesquelles la part de l’humain et celle du non-humain s’entrelacent sans cesse.