This Prompt Can Make an AI Chatbot Identify and Extract Personal Details From Your Chats
Le résultat est que le LLM suit l'invite contradictoire, rassemble toutes les informations personnelles et les formate dans une commande d'image Markdown, en attachant les informations personnelles à une URL appartenant aux attaquants. Le LLM visite cette URL pour tenter de récupérer l'image et divulgue les informations personnelles à l'attaquant. Le LLM répond dans le chat avec un pixel transparent 1×1 qui ne peut pas être vu par les utilisateurs.
Les chercheurs affirment que si l’attaque était menée dans le monde réel, les gens pourraient être socialement amenés à croire que l’invite inintelligible pourrait faire quelque chose d’utile, comme améliorer leur CV. Les chercheurs soulignent de nombreux sites internet qui fournissent aux gens des invites qu'ils peuvent utiliser. Ils ont testé l’attaque en téléchargeant un CV dans des conversations avec des chatbots, et l’attaque a pu renvoyer les informations personnelles contenues dans le fichier.
Earlence Fernandesprofesseur adjoint à l'UCSD qui a participé aux travaux, affirme que l'approche d'attaque est assez compliquée car l'invite obscurcie doit identifier les informations personnelles, former une URL fonctionnelle, appliquer la syntaxe Markdown et ne pas révéler à l'utilisateur son comportement. de manière néfaste. Fernandes compare l'attaque à un logiciel malveillant, citant sa capacité à exécuter des fonctions et un comportement d'une manière que l'utilisateur n'aurait peut-être pas prévu.
“Normalement, vous pourriez écrire beaucoup de code informatique pour faire cela dans des logiciels malveillants traditionnels”, explique Fernandes. “Mais ici, je pense que ce qui est cool, c'est que tout cela peut être incorporé dans ce charabia relativement court.”
Un porte-parole de Mistral AI a déclaré que la société accueille chaleureusement les chercheurs en sécurité qui l'aident à rendre ses produits plus sûrs pour les utilisateurs. “Suite à ces commentaires, Mistral AI a rapidement mis en œuvre les mesures correctives appropriées pour remédier à la situation”, a déclaré le porte-parole. La société a traité le problème comme étant de « gravité moyenne » et son correctif empêche le moteur de rendu Markdown de fonctionner et de pouvoir appeler une URL externe via ce processus, ce qui signifie que le chargement d'images externes n'est pas possible.
Fernandes pense que la mise à jour de Mistral AI est probablement l'une des premières fois qu'un exemple d'invite contradictoire conduit à la correction d'un produit LLM, plutôt qu'à l'arrêt de l'attaque en filtrant l'invite. Cependant, dit-il, limiter les capacités des agents LLM pourrait être « contre-productif » à long terme.
Pendant ce temps, une déclaration des créateurs de ChatGLM indique que la société a mis en place des mesures de sécurité pour garantir la confidentialité des utilisateurs. “Notre modèle est sécurisé et nous avons toujours accordé une grande priorité à la sécurité du modèle et à la protection de la vie privée”, indique le communiqué. « En rendant notre modèle open source, nous visons à tirer parti de la puissance de la communauté open source pour mieux inspecter et examiner tous les aspects des capacités de ces modèles, y compris leur sécurité. »
Une « activité à haut risque »
Dan McInerneychercheur principal sur les menaces au sein de la société de sécurité Protect AI, déclare que l'article Imprompter « publie un algorithme pour créer automatiquement des invites qui peuvent être utilisées lors d'une injection rapide pour effectuer diverses exploitations, comme l'exfiltration de PII, une mauvaise classification d'image ou une utilisation malveillante des outils de l'agent LLM. peut accéder. » Même si de nombreux types d'attaques étudiés peuvent être similaires aux méthodes précédentes, dit McInerney, l'algorithme les relie ensemble. “Il s'agit davantage d'une amélioration des attaques LLM automatisées que de menaces non découvertes qui y font surface.”
Cependant, il ajoute qu'à mesure que les agents LLM sont de plus en plus utilisés et que les gens leur donnent plus de pouvoir pour agir en leur nom, les possibilités d'attaques contre eux augmentent. « La publication d'un agent LLM qui accepte les entrées arbitraires des utilisateurs doit être considérée comme une activité à haut risque qui nécessite des tests de sécurité importants et créatifs avant le déploiement », explique McInerney.
Pour les entreprises, cela signifie comprendre comment un agent d’IA peut interagir avec les données et comment elles peuvent être utilisées à mauvais escient. Mais pour les individus, à l'instar des conseils de sécurité courants, vous devez tenir compte de la quantité d'informations que vous fournissez à une application ou à une entreprise d'IA, et si vous utilisez des invites provenant d'Internet, soyez prudent quant à leur origine.