Cet article figure dans le dossier « Comment imaginer le cinéma dans 20 ans ? » du numéro anniversaire de Critikat, paru en décembre 2024.
Où en sont les progrès de l’intelligence artificielle et quelles perspectives (et craintes) ménage-t-elle pour l’avenir du cinéma ? Tour d’horizon sur l’évolution d’une technologie en plein essor, qui soulève plusieurs problèmes éthiques, tout en esquissant des promesses et chamboulements dont les contours restent encore flous.
« Je est un autre ? » : le thème de la dernière biennale des arts numériques Némo, organisée fin 2023, proposait aux artistes de s’emparer de la question des personnalités multiples à l’ère du numérique. À cette occasion, Ismaël Joffroy Chandoutis, récipiendaire du César du court-métrage documentaire en 2022 pour Maalbeek, réalisé avec l’aide de l’intelligence artificielle, proposait une installation « work in progress » de son prochain projet, intitulée Madotsuki_the_Dreamer. Le cinéaste s’intéresse depuis plusieurs années à Joshua Ryne Goldberg, un « troll » américain qui vient de purger une peine de dix ans de prison : « Il a créé sur Internet près d’une centaine de personnages différents, tous extrémistes : un djihadiste, une féministe hardcore, un critique de cinéma, une étudiante japonaise… » détaille-t-il. Il voit en Goldberg une « incarnation du deepfake », cette technique de trucage reposant sur l’IA qui superpose et combine différents fichiers audio ou vidéo, souvent dans le but de dupliquer l’image ou la voix de quelqu’un afin de lui attribuer des propos ou actions dont il n’est pas l’auteur. Le profil de Goldberg a retenu son attention après avoir recherché des personnes victimes de deepfakes, dont le nombre s’est accru ces dernières années, afin d’en recueillir les témoignages. « Je ne me sens pas menacé en tant qu’artiste par l’avènement de l’IA, mais le deepfake m’a tout de suite intéressé » raconte-t-il. « Contrairement aux autres usages de l’IA, il a tout de suite un impact concret. 90% des contenus produits à l’aide de ces algorithmes sont par ailleurs des images pornographiques, ce qui dit quelque chose de leur potentiel de nuisance. » Apparu sur le réseau social Reddit en 2017, le terme est né de la contraction de « deep learning », soit l’apprentissage d’une intelligence artificielle imitant le fonctionnement du cerveau humain, et de « fake » (faux). Ces algorithmes complexes ont ouvert la voie à des possibilités techniques et artistiques très diverses : « Avec peu de moyens, en prenant le temps, quelqu’un chez soi a pu tout à coup imiter un effet spécial hollywoodien suffisamment crédible pour que la plupart des spectateurs ne le remarquent pas ». Exemple de la domestication express et impressionnante de ces nouveaux outils : en 2021, la filière d’effets spéciaux de Lucasfilm, Industrial Light and Magic, a recruté le youtubeur Shamook, qui s’est fait remarquer en produisant un deepfake de l’acteur Mark Hamill rajeuni, jugé meilleur que l’original diffusé dans la série The Mandalorian.
Nicolas Obin, maître de conférences à Sorbonne Université et chercheur dans l’équipe analyse et synthèse des sons au sein du laboratoire Sciences et Technologies de la Musique et du Son (hébergé à l’Ircam) rappelle que cette démocratisation généralisée des outils de création de l’intelligence artificielle est « l’un des dadas des GAFAM, qui proclament : tout le monde est créatif ! » Si la notion d’intelligence artificielle a près de soixante-dix ans, sa spectaculaire apparition dans le débat public ces dernières années est le fruit du développement des « réseaux de neurones profonds » (« Deep Neural Network » en anglais), sur lesquels s’appuient entre autres les deepfakes. « Il s’agit en vérité d’un double perfectionnement », précise Nicolas Obin : « celui des algorithmes, rendus extrêmement efficaces à l’apprentissage, et celui des machines (notamment les cartes graphiques, indispensables au deep learning), bien plus performantes dans la distribution des calculs et la transmission de l’information massive. »
Nouvelle voie(x)
Le deep learning, aujourd’hui la forme la plus aboutie d’IA, est une extension du principe du machine learning (que l’on pourrait traduire par « apprentissage automatique »), qui désigne la possibilité de faire « apprendre » des machines à partir de données. C’est en usant de cette technologie qu’une équipe de son de WingNut Films, la société de production néo-zélandaise fondée par Peter Jackson, a développé le programme de pointe MAL (pour Machine Assisted Learning). Cette technologie de démixage permet d’isoler différents éléments provenant d’une même piste sonore (voix, instruments de musique, bruits parasites…) afin de recréer une nouvelle bande-son. Son développement s’est opéré dans le cadre de la réalisation du documentaire The Beatles : Get Back en 2021, pour lequel Peter Jackson a remonté des rushes du groupe britannique filmés et enregistrés en janvier 1969. Grâce à l’entraînement du MAL à reconnaître et à dissocier les caractéristiques des différents éléments sonores, l’équipe de post-production est parvenue à récupérer des dialogues jusque-là parfaitement inaudibles, car couverts (souvent volontairement) par le bruit des instruments des musiciens qui jouaient en même temps qu’ils parlaient. Le perfectionnement et l’entraînement de ce programme l’ont rendu à ce point précis qu’il a ensuite été utilisé pour le remixage de l’album Revolver des mêmes Beatles, originellement enregistré sur une console quatre pistes. Une fois les instruments et les voix distinctement séparés, l’ingénieur du son Giles Martin a remixé les morceaux en stéréo, mais surtout en Dolby Atmos, une technologie d’audio spatialisé utilisant jusqu’à soixante-quatre canaux indépendants permettant le positionnement précis « d’objets » sonores en trois dimensions.
Les possibilités offertes par les technologies de démixage semblent infinies, qu’il s’agisse du perfectionnement de procédés déjà en œuvre dans la restauration de films de patrimoine (suppression du bruit de fond, des bruits parasites, rétablissement d’un équilibre fréquentiel adapté aux systèmes de diffusion modernes, etc.) ou d’innovations encore inédites (comme le remixage spatialisé d’éléments enregistrés en mono, la correction des voix, ou encore la modification de la bande sonore). « La vraie difficulté qu’ont surmonté les techniques de démixage, c’est celle de notre incapacité à connaître le nombre comme la nature des sources contenues dans une piste audio, ce qui complique fortement toute tentative de restauration », commente Nicolas Obin. Les limites subsistantes, comme la séparation de voix différentes à partir d’un même canal, seront selon lui bientôt dépassées. L’usage de cette technologie dans le cadre de restaurations pose toutefois l’épineuse – et récurrente – question de la déformation de l’œuvre originale, qui peut jouer en sa défaveur. « Je pense par exemple au jeu de Louis de Funès, qui connaissait très bien les caractéristiques d’enregistrement de l’époque, et qui utilisait la saturation des pistes audio pour renforcer son jeu outrancier. Son identité et sa signature vocale sont directement associées à ce son particulier », qui serait pourtant considéré comme un défaut d’enregistrement et gommée lors d’une restauration opérée grâce à un programme tel que MAL. Si les outils reposant sur l’IA constituent une formidable avancée technologique, leur usage généralisé risque dès lors de renforcer le lissage des aspérités des supports originaux.
Dans une tribune parue le lendemain du premier sommet mondial consacré aux risques associés à l’intelligence artificielle, l’historien et professeur Laurent Veray, membre du conseil scientifique de l’INA, revenait sur les risques de manipulation du passé par l’IA qui « bouleverse notre rapport aux images et aux sons »[1]Laurent Veray, « Intelligence artificielle : Nul doute que se multiplieront bientôt de “vraies fausses images d’archives”», Le Monde, 3 novembre 2023, pour cette citation et les suivantes.. Il expliquait ainsi : « L’amélioration de la définition des images anciennes pose des questions éthiques proches de celles que se posent depuis longtemps les restaurateurs d’œuvres d’art ou de monuments historiques », en alertant sur le plus grand risque de cette transformation, à savoir « l’illusion d’une continuité historique et technologique entre les époques ». Le degré de perfectionnement atteint par certains algorithmes – upscaling de films en basse résolution, augmentation de la fréquence d’images, colorisation, et aujourd’hui modification de détails, remplacement des visages, suppression d’éléments précis, etc. – peut en effet altérer le caractère historique des supports. Comment contrôler et réguler les réalités alternatives produites par les deepfakes et le large spectre d’algorithmes reposant sur l’intelligence artificielle ? Laurent Veray prend pour exemple une tentative de reconstitution de l’appel du 18 juin du général de Gaulle, dont il n’existe aucun enregistrement. Le procédé utilisé, intitulé voice cloning, permet de conserver la dynamique et le naturel d’une voix enregistrée (par un comédien, dans ce cas précis), tout en la remplaçant par une voix synthétisée (celle du général, à partir d’une dizaine d’enregistrements différents). Le résultat, bluffant, soulève de nombreuses questions sur les potentielles dérives de telles pratiques.
D’un bout à l’autre de la chaîne
Moins ostensiblement, des programmes basés sur l’intelligence artificielle fleurissent à divers endroits de la chaîne de création des films et y gagnent une importance croissante. Lors de sa longue phase de recherche autour des multiples identités numériques de Joshua Ryne Goldberg, Ismaël Joffroy Chandoutis a accumulé une masse importante d’archives et de documents divers, qu’il a rassemblée en une database sur l’application Notion. L’artiste voit dans l’ordonnancement de telles bases de données une véritable révolution permise par l’IA, qui offre un dialogue actif avec les éléments la constituant. « Outre la possibilité d’interroger les documents rassemblés, je peux par exemple soumettre à la base de données différentes version d’un scénario en questionnant le degré d’intégration d’éléments véridiques, ou encore lui demander de me proposer elle-même toutes les possibilités de déclinaison d’un thème particulier. » Chandoutis cite également d’autres avancées récentes comme l’« AI Powered Media Workflow » développé par Strada, dont le programme, qui se greffe aux logiciels de montage préexistants, analyse automatiquement les bibliothèques de rushes afin de créer des tags automatiques d’une précision inédite : contenu des images, valeur de plan, entrées ou sortie de champ, et même les émotions sur le visage des acteurs. Si l’on imagine sans difficulté l’adoption future de ces outils, tant ils permettent de gagner en efficacité, l’artiste ne les voit pas comme des menaces pour les emplois : « Je préfère travailler avec mes monteurs à un degré de créativité plus intéressant que celui de tagger des milliers de rushes ou de classer des dossiers. » Se pourrait-il, à l’échelle industrielle, que ces programmes ne soient que de nouveaux outils d’aide à la création ?
Si des mesures de protection face à la généralisation de l’utilisation de l’IA figuraient bien dans les revendications des scénaristes hollywoodiens, lors du mouvement de grève entamé le 2 mai 2023, Chandoutis estime que l’assistance de ces programmes lors de l’écriture est davantage une manière de « répondre à ses doutes incessants » : c’est finalement le processus d’écriture qui est redéfini par cette capacité instantanée d’envisager de manière quasi-exhaustive tous les scénarios possibles. Pour Nicolas Obin, il est certain qu’à Hollwyood comme ailleurs « des tâches humaines vont être minimisées ou remplacées, mais il est possible que d’autres soient créées. » Tout dépend en vérité de la direction choisie dès la conception et le développement des programmes : « À l’Ircam, nous fabriquons des algorithmes pour augmenter les capacités de création des artistes ; il s’agit toujours qu’un humain interagisse avec des interfaces. » De manière paradoxale, cette mise à plat de la chaîne de création est aussi l’occasion de revaloriser des postes-clefs : « Qu’est-ce qu’on estime être une plus-value artistique, et qu’est-ce qu’on estime être une tâche rébarbative que l’on pourrait remplacer ? » interroge Obin. « Cette question est épineuse parce que les industries culturelles et créatives sont avant tout… des industries ! Qui s’intéressent à des questions de productivité et de coût. » La redéfinition d’un bout à l’autre de la chaîne conduira forcément à une mutation profonde, qui ouvrira possiblement la voie à « une pratique artistique du cinéma et de tout ce qu’il englobe bien plus détachée de l’industrie qu’elle ne peut l’être aujourd’hui », suggère-t-il, en faisant le parallèle avec l’essor des home studios au début des années 2000, où chacun s’est mis à pouvoir créer de la musique avec son ordinateur.
S’éloigner du réel
Sur le versant de la génération vidéo, qui nourrit certainement le plus de fantasmes, Ismaël Joffroy Chandoutis se montre prudent. À commencer par la légitimité de cette vague d’angoisse : « Les gens ne se rendent pas compte que toute image produite par un iPhone aujourd’hui est computationnelle. La captation n’est plus qu’un enregistrement de métadonnées, et les images sont ensuite régénérées par divers algorithmes. » Ce qui permet d’agir a posteriori sur une grande quantité de paramètres : zone de netteté, profondeur de champ, dynamique colorimétrique, etc. Cette flexibilité l’a décidé à abandonner les caméras de cinéma pour ne plus filmer qu’à l’iPhone. « Je sais bien que les images ne sont pas parfaites, mais même les petits défauts, je me dis que dans un an une IA les corrigera sans problème », s’amuse-t-il. S’agissant de la génération pure, il tempère également : « On a énormément de mal aujourd’hui à générer du text-to-video », raison pour laquelle la plupart des contenus vidéos sont générés à partir d’images fixes, elles-mêmes obtenues par des prompts, ces descriptions constituées de mots-clés fournies à des programmes tels que Midjourney ou Dall‑E. Le fantasme selon lequel des films pourraient être intégralement générés sans intervention humaine semble encore assez lointain : « Générer une bande-annonce hollywoodienne avec des gros plans saccadés et des explosions fonctionne très bien. Mais dès qu’il s’agit d’animer un champ-contrechamp réaliste, ou plusieurs personnages dans le même cadre, ça ne fonctionne plus du tout. » Les choses évoluent pourtant rapidement, comme le montre la sortie du modèle Flux, développé par Black Forest Labs, « bien plus précis et surtout plus personnalisable que Midjourney ».
Sans oublier l’intégration prochaine d’un module de génération vidéo au logiciel de montage Première d’Adobe, sur le même modèle que Firefly, l’IA générative intégrée à Photoshop mi-2023. « Ce n’est pas encore parfait » convient Chandoutis, mais les « hallucinations » (les défauts dans la génération) ont été « réduites de 70% en deux ans ». Pour le meilleur ? « D’un point de vue artistique, les hallucinations sont géniales ! Fouiller les erreurs des IA m’amène à des chemins poétiques visuels, sonores ou textuels. » Beaucoup des contenus vidéo générés par IA sont selon lui enfermés dans une « logique passéiste » : « On essaie de reproduire avec le plus de réalisme possible des images filmées, ce qui d’une part n’a pas beaucoup d’intérêt, et d’autre part fait ressembler ces générations à des moteurs de jeu vidéo en 3D » comme Unreal Engine, développé par Epic Games, à l’origine du jeu Fortnite. Nicolas Obin estime quant à lui que l’industrie technologique pousse dans la direction de « l’ultraréalisme » bien plus que les artistes, qui cherchent de nouvelles voies de création. Il donne pour exemple deux expérimentations menées par l’Ircam avec des algorithmes de chanteurs. Le premier est doté d’une tessiture qui dépasse douze octaves (la tessiture moyenne de la voix humaine est comprise entre deux et trois octaves), quand le second est capable d’imiter un vibrato (la modulation périodique d’une note de musique) tout en respectant une partition rythmique. C’est peut-être à cet endroit que s’affirme la possibilité d’une véritable innovation : « On essaie de prédire le rôle que joueront les IA en regardant ce qui s’est déjà passé, mais partir d’un terrain vierge pour exploiter toutes leurs possibilités est beaucoup plus intéressant » déplore Chandoutis. Nicolas Obin envisage une crise similaire à celle qui a suivi l’invention de la photographie et a conduit la peinture à l’abstraction : « Peut-être que l’illusion de réalisme véhiculé par les intelligences artificielles va conduire le cinéma à des formes esthétiques qui divergeront largement du mainstream actuel, plus abstraites ou plus expérimentales. » Et le scientifique d’en appeler à la « mémoire artistique » qui témoigne du détournement récurrent des artistes des évolutions technologiques.
Pour l’heure, l’accélération des flux de production permis par ces différents outils risque toutefois selon lui de renforcer la « logique productiviste des industries » cinématographiques ou musicales : « Il me semble que cette logique n’est pas prête de s’arrêter, et je pense même que l’IA va, dans un premier temps en tout cas, l’intensifier considérablement. » Émerge toutefois une supposition pour l’avenir, partagée par Chandoutis : la possibilité de la généralisation de contenus générés en temps réel, adaptables et personnalisables. À la dernière édition du festival de Sundance, le réalisateur Gary Hustwit présentait ENO, un documentaire génératif consacré à Brian Eno. Le dispositif s’appuie sur un logiciel qui produit des transitions et agence différents éléments (rushes images, musiques, interviews, etc.) à partir d’une bibliothèque multimédia de plusieurs centaines d’heures de contenus, tant et si bien que le film projeté n’est jamais deux fois le même. Au-delà du vertige suscité par ce film qui se fabrique tout seul, en direct et sans intervention humaine, les nouvelles possibilités de calcul ouvrent par ailleurs la voie à l’invention d’un contenu génératif et modulable à la demande par le spectateur. Ismaël Joffroy Chandoutis imagine sans peine « un futur où Netflix transformera le cinéma en une expérience interactive, avec la possibilité de modifier les films en fonction des préférences du spectateur, de changer l’acteur, de rendre le contenu plus ou moins violent, etc. ». Un cinéma dont « l’interactivité » et la « réalité virtuelle », brandies depuis des années comme des remparts à la crise de l’expérience classique en salle, seraient les principaux moteurs, et où triompherait un « je » spectatoriel confronté à de moins en moins d’altérité.
Notes
| ↑1 | Laurent Veray, « Intelligence artificielle : Nul doute que se multiplieront bientôt de “vraies fausses images d’archives”», Le Monde, 3 novembre 2023, pour cette citation et les suivantes. |
|---|

