Piloté par la chercheuse Prudence Castelot et l’ingénieur en machine learning Adrien Chuttarsing, Filmatters est un laboratoire de recherche appliquée dans les IA et la culture visuelle qui propose, depuis 2023, un moteur de recherche dédié à l’exploration de la matière filmique. Celui-ci permet d’effectuer des recherches iconographiques parmi le million de plans que compte sa base de données, rassemblant à ce jour 3 300 films du domaine public. Sous la forme d’une mosaïque ou d’un atlas, l’interface repose sur une intelligence artificielle capable de compiler des statistiques (colorimétrie, luminosité, etc.), mais aussi de reconnaître et de labelliser des formes, des objets, des gestes, des corps, des émotions et même des valeurs de plan. Accessible gratuitement en ligne, Filmatters est un dispositif propice à la recherche comme à la pédagogie, qui éclaire autant l’histoire du cinéma que les rouages de nos IA contemporaines. L’interface continue d’évoluer et devrait bientôt offrir la possibilité de sauvegarder ses recherches, pour conserver et partager ses bouquets d’images dans un espace latent évoquant la « Zone » rêvée par Chris Marker.
Filmatters relève à la fois d’un travail d’interface, d’indexation et de recherche en cinéma. Comment le projet est-il né ?
Prudence Castelot : Je menais il y a quelques années un travail de recherche en cinéma sur les contes, et en particulier sur Les Mille et une Nuits. C’est à ce moment-là qu’Adrien et moi avons lu un ouvrage de Vladimir Propp, Morphologie du conte. Ce folkloriste a réuni l’imaginaire d’une multitude de contes russes et a tenté de les classer en utilisant une approche structuraliste à partir de systèmes et de motifs récurrents. Ça nous a vraiment fascinés. Adrien a commencé à faire la même chose avec Les Mille et une Nuits. À partir d’une version de l’œuvre, il a créé une interface et réduit l’ensemble des récits en statistiques, en se fondant sur l’apparition de certains personnages, leurs actions, les objets magiques et leurs fonctions, pour détecter la présence de systèmes transversaux. Comme s’il s’agissait de phrases à part entière ou d’équations.
Adrien Chuttarsing : Les Mille et une Nuits se prêtait bien à cet exercice, parce que c’est un corpus assez grand pour ressentir un vertige au moment de l’assemblage, mais assez petit pour être synthétisé visuellement sous la forme d’une interface.
P. C. : Filmatters est né de cette volonté d’appréhender un imaginaire très vaste, tellement vaste que les êtres humains peuvent passer une vie à collecter toutes ces données, ce que l’Intelligence Artificielle nous aide à faire plus rapidement.
A. C. : Je pense qu’il y a aussi une envie d’explorer la matière. Dans plusieurs de mes travaux, je me suis intéressé à la matérialité du texte, puis à celle du son, en disséquant des petits fragments musicaux, en essayant de les labelliser, de les spatialiser sur une carte selon leur similitude. La vidéo constitue en quelque sorte l’achèvement de ce travail, parce que c’est une matière que l’on peut contempler de mille façons différentes, mais qu’on ne pourra jamais appréhender complètement.
Comment avez-vous rassemblé le corpus disponible sur Filmatters, et quels films le constituent ?
P. C. : Le corpus est très large. On compte autant de films oubliés, très peu connus même des cinéphiles, mais aussi des grands classiques comme ceux de Sergueï Eisenstein, Dziga Vertov ou Jean Epstein. On peut « interagir » avec tous ces films sur la plateforme.
A. C. : Pour des raisons de droit, on utilise uniquement des films issus du domaine public, disponibles en streaming ouvert sur internet. Chaque année, de nouveaux titres entrent dans le domaine public. Un processus automatisé parcourt des sources comme Wikipédia ou Internet Archive afin d’identifier ces ajouts. Les œuvres repérées sont ensuite collectées, analysées, indexées et intégrées à la plateforme.
Comment fonctionne cette logique d’étiquetage des images ?
A. C. : Le film est sectionné plan par plan. Chaque d’entre eux est ensuite analysé visuellement : on en extrait la palette de couleurs, la luminosité, le type de cadrage, la durée, etc. En parallèle, un modèle d’intelligence artificielle convertit chaque plan en un vecteur numérique qui en capture la sémantique et les éléments visuels. Enfin, des informations contextuelles (année de sortie, réalisateur, genre, etc.) sont ajoutées. L’ensemble de ces données constitue un « langage d’indexation » qui détermine les modalités d’exploration que l’on retrouve dans l’atlas.
P. C. : La représentation en vecteur permet d’effectuer des recherches à partir de mots ou de phrases, y compris très abstraits. Contrairement à une liste fermée de mots-clés prédéfinis, elle ouvre la possibilité de saisir librement des requêtes comme « mains » ou « femme qui descend un escalier ».
A. C. : Un vecteur peut être vu comme un point défini par ses coordonnées numériques. Ici, un modèle de machine learning a été entraîné à convertir aussi bien du texte que des images en vecteurs, de façon à ce que ceux qui partagent une sémantique proche se retrouvent voisins dans ce que l’on appelle « l’espace latent ». Cette représentation nous permet alors de faire des opérations mathématiques telles que des calculs de distances entre images et textes, et même de projeter les images dans des espaces 2D ou 3D, ce qui revient à cartographier une région de l’espace latent.
Est-ce le même principe pour le lexique cinématographique, par exemple si l’on recherche des gros plans ou des plans d’ensemble dans la base de données ?
A. C. : Pour le modèle de reconnaissance des valeurs de plan, c’est une tâche de machine learning classique. On entraîne un modèle, en lui montrant plein d’exemples avec la valeur de plan recherchée. À la fin, il aura optimisé une fonction qui permettra de reconnaître ce type de plan dans des images qu’il n’aura jamais vues auparavant. En fait, on l’entraîne à voir les choses ; cela pourrait fonctionner en théorie pour ce que l’on veut.
Avez-vous repéré des biais d’analyse de la part de votre IA dans sa manière d’identifier certains éléments ? Est-ce que c’est un « bon élève » ?
P. C. : Personnellement, je ne considère pas les erreurs comme des erreurs. Je trouve toujours que ce sont des cas de biais intéressants. Mais non, ce n’est pas forcément un bon élève…
A. C. : Un jour, je recherchais une rose – la fleur – et l’une des images qui remontait était un gant rouge froissé et replié sur lui-même. Une erreur pareille fait sens, à condition toutefois d’interpréter les aberrations de la machine de manière poétique. Il y a une part de sérendipité dans ce dispositif. Les erreurs trahissent les biais de la machine inhérents à son entraînement.
C’est une approche strictement plastique plus qu’une reconnaissance intellectuelle ou théorique de l’élément en question, comme un regard ultra superficiel sur les images…
A. C. : Vu que ce modèle a été entraîné uniquement en observant une quantité astronomique d’images accompagnées de leurs descriptions, la représentation sémantique artificielle qu’il a construite est extrêmement spécifique. Si je recherche « jalousie » : à quoi ça ressemble ? Le modèle a quelque part réussi – par effet statistique – à généraliser, à deviner et à se faire une conception de ces notions qui ne sont pas visuelles, mais les résultats sont beaucoup moins précis.
P. C. : Il y a autre chose aussi : le modèle considère parfois des éléments matériels comme des motifs de représentation. Si l’on recherche « fire », du feu va apparaître, mais aussi des pellicules champignonnées !
L’atlas latent
Pouvez-vous nous parler du mode cartographique du moteur de recherche ? Filmatters permet d’explorer ses résultats de façon spatialisée.
A. C. : Il y a énormément de modes d’exploration à imaginer. En l’état, il y a la grille et les projections 2D/3D. Pour celles-ci, il s’agit d’une représentation de l’espace latent – celui où se rejoignent les vecteurs qu’aura défini le modèle d’entraînement par IA – par similarité sémantique entre les images. Autrement dit, on positionne des images dans un espace en 3D, et celles qui sont considérées sémantiquement similaires par le modèle sont placées à proximité les unes des autres. On peut ensuite affiner en filtrant ces images, pour n’avoir que les films en couleur, les films sortis entre 1930 et 1940, ou uniquement des images de nourriture, etc.
P. C. : On revient finalement à cette idée de système de classification que l’on évoquait au début de l’entretien. Adrien est très intéressé par les systèmes, et moi par la généalogie des images. La grande question derrière tout ça, c’est où ranger quoi, et comment ?
Vous revendiquez une filiation avec L’Atlas Mnémosyne d’Aby Warburg. Comment son œuvre a‑t-elle guidé votre travail ?
P. C. : Il existe toute une génération de penseurs et d’artistes qui se revendique aujourd’hui d’Aby Warburg. Il est devenu une figure tutélaire par rapport à ce qui se passe aujourd’hui avec l’iconologie et le développement des IA. Warburg réalisait des montages d’images sur de grands panneaux, comme des accrochages. Il faisait notamment des études visuelles des « formules de pathos » (Pathosformel), avec des images représentant des expressions humaines collées sur un panneau. Par exemple, pour le pathos du triomphe, il agençait l’Arc de Triomphe, une pièce de monnaie et des gros plans de certaines sculptures sur un fond noir. Warburg est mort avant d’avoir achevé son atlas et d’avoir expliqué toutes les logiques internes connectant les choses entre elles. À partir de ce mystère de L’Atlas Mnémosyne, beaucoup on fait le lien avec celui que constitue l’espace latent des IA, où les vecteurs sont reliés sans que l’on sache vraiment comment. Avec Filmatters, le fait de cartographier par IA les données – des images issues de notre imaginaire – revient aussi à essayer de comprendre la logique interne de cet espace latent. Comme quelqu’un qui recevrait une lettre à déchiffrer ou même L’Atlas Mnémosyne, et qui essaierait d’en comprendre la logique à la manière d’un folkloriste ou d’un historien de l’art. Ce principe a guidé la création de Filmatters : la recherche de ce qui connecte des images sorties de leur contexte, en portant une attention à ce qu’il y a entre les choses, et pas seulement aux choses elles-mêmes.
C’est un peu comme ce que faisait Godard à la fin de son œuvre, en imaginant des bibliothèques ou des pièces rangées à la manière de « scénarios ». Le fait d’organiser des éléments dans tel ou tel ordre, de les disposer et de les lier d’une certaine façon, raconte déjà quelque chose. C’est du montage.
P. C. : Oui, et chez Godard il s’agit justement d’élaborer une nouvelle généalogie, une autre histoire du cinéma par la constellation, le démontage et le remontage de fragments. À quoi la rose blanche dans son autoportrait d’Histoire(s) du cinéma est-elle connectée ? À Rainer Maria Rilke, à Raimbaut d’Orange, à Sophie Scholle, à Goethe, etc. On trouve chez lui cette idée que chaque image, chaque élément, est multidéterminé par une histoire plurielle, comme des vecteurs, finalement. Les atlas ne sont pas seulement un espace de collecte, ce sont aussi de nouvelles opérations de visualisation d’une matière, et donc une nouvelle forme de connexion entre ces unités. Il me semble qu’à l’échelle de l’histoire de la culture visuelle, on vit aujourd’hui avec les IA un tournant anthropologique dans notre façon d’appréhender et de classifier les images.
Montage algorithmique
Lors d’un colloque que j’ai co-organisé en avril dernier à la Sorbonne Nouvelle sur les liens entre montage et IA, vous avez présenté une expérience avec l’interface de Filmatters, dont le principe était de pratiquer le montage dialectique d’Eisenstein à partir de ses propres films. Pouvez-vous nous en parler ?
P. C. : Ce projet-là s’inscrit dans une volonté de penser les concepts comme des systèmes que l’on pourrait traduire en langage computationnel. C’est une manière de donner corps aux spéculations théoriques, de les réactiver dans un système moderne, en l’occurrence à l’intérieur d’un modèle d’IA.
Un peu comme si la théorie d’Eisenstein devenait un logiciel d’analyse d’images ?
P. C. : Exactement. Dans un premier temps, on a synthétisé sa pensée du montage, du premier jalon – celui du montage des attractions – à son tout dernier jalon, à savoir le montage comme une science du savoir et un moyen de penser l’Histoire de l’art (une conception d’ailleurs très proche de celle de Warburg). Dans un second temps, l’idée était de convoquer ces théories pour analyser les systèmes d’IA eux-mêmes.
Et comment l’expérience prenait-elle concrètement forme ?
A. C. : On avait une représentation horizontale des films d’Eisenstein découpés plan par plan. Et pour chaque plan sélectionné, des plans « candidats » – les plus similaires selon le modèle d’IA – étaient présentés à partir de notre corpus (en l’occurrence le million de plans indexés dans notre atlas). On pouvait alors faire des permutations et remplacer chaque plan par son synonyme, avant de rejouer la séquence. En théorie, on pourrait donc remplacer tous les plans du film par leurs « jumeaux » sémantiques et obtenir une version parallèle du même film.
P. C. : Entre les plans permutés, un « score de proximité » était affiché, tandis qu’entre les plans qui se faisaient suite après la permutation, un « score de conflit » s’inscrivait à l’écran, en écho à la théorie du choc selon Eisenstein [ndlr : le choc désigne ici l’effet physique et intellectuel produit, à des fins d’éveil politique, par le montage lors d’un raccord significatif entre deux images]. Mais aussi en écho à l’idée selon laquelle chaque fragment de film (le plan) est un geste sélectionné par le cinéaste dans le sensible, une unité sémantique puisée dans ce grand catalogue d’images que forme l’imaginaire collectif.
Et ça fonctionne ?
P. C. : Ça donne souvent n’importe quoi ! Même si certaines associations sont surprenantes. Disons que ça fonctionne bien à l’unité, mais que plus on ajoute des images, plus la cohérence s’effondre.
A. C. : L’image sera peut-être fidèle à celle qu’elle a remplacée, mais créer une réelle succession d’événements s’avère beaucoup plus complexe.
Est-ce lié au fait que l’unité de base du modèle d’IA est le plan, sans considération de la séquence entière comme bloc de narration étalée dans le temps ?
A. C. : Exactement. Il y a tout un champ à explorer, où l’on pourrait appliquer au montage des méthodes d’analyse du langage. Le plan serait un mot, et la séquence une phrase. On pourrait retrouver des expressions de plans en analysant des milliers de films et donc composer des séquences plus cohérentes narrativement parlant.
P. C. : Ce projet consacré au montage dialectique d’Eistenstein sera bientôt suivi d’un autre consacré à Vertov. L’objectif est d’appliquer la théorie du ciné-œil tel que Vertov l’avait pensé, c’est-à-dire non pas seulement la caméra, mais toutes les opérations du dispositif filmique qui permettent de voir davantage que ce que l’œil humain perçoit, avec l’idée centrale que ce « déchiffrage » relève d’un regard étranger à l’humain. C’est la fameuse machine vision, ou vision par ordinateur. Aujourd’hui, les IA incarnent au fond cet œil non humain, qu’on appliquerait ici aux films de Vertov. Le mouvement, le « montage mathématique » et les intervalles seront analysés pour produire avec l’interface de Filmatters des sortes de « partitions visuelles » à partir de répétitions, de gestes, de trajectoires. Le but est de voir si une IA peut comprendre les formes filmiques et le montage, et de chercher une traduction visuelle de cette « ekphrasis ».
Quelles sont les applications possibles de votre outil pour la recherche, l’enseignement ou même la pédagogie auprès des jeunes publics ? Le potentiel est immense.
P. C. : On va essayer à partir de septembre de développer de nouveaux outils, pour permettre par exemple à chacun de créer sa propre collection de plans, une sorte d’« iconothèque personnelle ». Cette dernière comporterait une table de montage pour faire des mashups, une table d’analyse pour appliquer des systèmes IA, des cartes mentales, etc. On veut que chacun puisse ranger ses plans, ses séquences, dans des dossiers et des sous-dossiers, avec la possibilité de les spatialiser avec l’IA.
A. C. : Oui, afin que chacun puisse sauvegarder son travail et bâtir un peu sa « maison » avec ses plans.
P. C. : On compte bientôt mettre en place une branche « atelier et pédagogie », intitulée Cinémateurs. Filmatters a le potentiel de provoquer des rencontres sensibles avec une matière ancienne, notamment auprès d’un jeune public. On pourrait par exemple demander à des élèves de raconter leurs vacances avec des images du corpus, puis de les monter eux-mêmes dans des ateliers d’initiation aux gestes élémentaires du montage. Quoiqu’il en soit, on veut que les gens s’emparent de l’outil et inventent leurs propres usages. Je rêve notamment d’organiser un festival Filmatters à chaque fin d’année, en projetant les créations qui auraient été faites avec la plateforme.
A. C. : Plus largement, l’ambition est de fédérer une communauté d’iconophiles et de collectionneurs d’images, tout en ouvrant un espace de collaboration avec des artistes et des chercheurs. Filmatters se veut à la fois un laboratoire et un lieu de mémoire : un terrain d’expérimentation, de création et de recherche autour du patrimoine filmique.