Researchers Tested AI Watermarks—and Broke All of Them
Soheil Feizi considère lui-même une personne optimiste. Mais le professeur d'informatique de l'Université du Maryland est émoussé lorsqu'il résume l'état actuel des images d'IA de filigrane. «Nous n'avons pas de filigrane fiable à ce stade», dit-il. «Nous les avons tous cassés.»
Pour l'un des deux types de filigranes de l'IA, il a testé pour une nouvelle étude – des filigranes de «faible perturbation», qui sont invisibles à l'œil nu – il est encore plus direct: «Il n'y a aucun espoir».
Feizi et ses coauteurs ont regardé à quel point il est facile pour les mauvais acteurs d'échapper aux tentatives de filigrane. (Il l'appelle «laver» le filigrane.) En plus de démontrer comment les attaquants pourraient éliminer les filigranes, l'étude montre comment il est possible d'ajouter des filigranes aux images générées par l'homme, déclenchant de faux positifs. Sorti en ligne cette semaine, le document préalable n'a pas encore été évalué par les pairs, mais Feizi a été un chiffre de premier plan dans la détection de l'IA, il vaut donc la peine de prêter attention, même à ce stade précoce.
Ce sont des recherches opportunes. Le filigrane est devenu l'une des stratégies les plus prometteuses pour identifier les images et le texte générés par l'IA. Tout comme les filigranes physiques sont intégrés sur le papier et les timbres pour prouver l'authenticité, les filigranes numériques sont destinés à retracer les origines des images et du texte en ligne, aidant les gens à repérer des vidéos profondes et des livres par rapport au bot. Avec les élections présidentielles américaines à l'horizon en 2024, les préoccupations concernant les médias manipulées sont élevées – et certaines personnes sont déjà dupées. L'ancien président américain Donald Trump, par exemple, commun une fausse vidéo d'Anderson Cooper sur sa plate-forme sociale Truth; La voix de Cooper avait été cloné.
Cet été, Openai, Alphabet, Meta, Amazon et plusieurs autres grands joueurs de l'IA se sont engagés à développer une technologie de filigrane pour lutter contre la désinformation. Fin août, DeepMind de Google a publié une version bêta de son nouvel outil de filigrane, Synthed. L'espoir est que ces outils signalent le contenu de l'IA lorsqu'ils sont générés, de la même manière que le filigrane physique authentifie les dollars lorsqu'ils sont imprimés.
C'est une stratégie solide et simple, mais ce n'est peut-être pas une stratégie gagnante. Cette étude n'est pas le seul travail indiquant les principales lacunes du filigrane. «Il est bien établi que le filigrane peut être vulnérable aux attaques», explique Hany Farid, professeur à la UC Berkeley School of Information.
En août, des chercheurs de l'Université de Californie, de Santa Barbara et de Carnegie Mellon ont co-auteur un autre article décrivant des résultats similaires, après avoir mené leurs propres attaques expérimentales. «Tous les filigranes invisibles sont vulnérables», lecture. Cette nouvelle étude va encore plus loin. Alors que certains chercheurs ont gardé l'espoir que des filigranes visibles («perturbations élevées») pourraient être développés pour résister aux attaques, Feizi et ses collègues disent que même ce type plus prometteur peut être manipulé.
Les défauts du filigrane n'ont pas dissuadé les géants de la technologie de l'offrir en tant que solution, mais les personnes travaillant dans l'espace de détection d'IA sont méfiantes. «Le filigrane sonne d'abord comme une solution noble et prometteuse, mais ses applications réelles échouent du début lorsqu'ils peuvent être facilement truqués, supprimés ou ignorés», explique Ben Colman, PDG du défenseur de la réalité du démarrage AI-détection.