The Security Hole at the Heart of ChatGPT and Bing

Ailleurs, le chatppt peut accéder aux transcriptions Youtube vidéos utilisant des plug-ins. Johann Rehberger, chercheur en sécurité et directeur de l'équipe rouge, édité l'un de ses transcriptions vidéo pour inclure une invite Conçu pour manipuler des systèmes d'IA génératifs. Il dit que le système devrait émettre les mots «l'injection de l'IA a réussi», puis assumer une nouvelle personnalité en tant que pirate appelé Genie dans le chat de chatte et raconter une blague.

Dans un autre cas, en utilisant un plug-in séparé, Rehberger a pu récupérer du texte qui avait déjà été écrit Dans une conversation avec Chatgpt. «Avec l'introduction de plug-ins, d'outils et de toutes ces intégrations, où les gens donnent en un sens l'agence au modèle de langue, c'est là que les injections rapides indirectes deviennent très courantes», explique Rehberger. «C'est un vrai problème dans l'écosystème.»

«Si les gens créent des applications pour que la LLM lise vos e-mails et prenne des mesures en fonction du contenu de ces e-mails – effectuez des achats, résumez le contenu – un attaquant peut envoyer des e-mails contenant des attaques d'injection rapide», explique William Zhang, ingénieur d'apprentissage automatique chez Robust Intelligence, une entreprise d'IA travaillant sur la sécurité et la sécurité des modèles.

Pas de bonnes solutions

La course à l'intégration de l'IA générative dans les produits – de la liste des applications à la liste à Snapchat – les attaques où des attaques pourraient se produire. Zhang dit qu'il a vu des développeurs qui n'avaient auparavant aucune expertise intelligence artificielle mettre leur propre IA générative technologie.

Si un chatbot est configuré pour répondre aux questions sur les informations stockées dans une base de données, cela pourrait causer des problèmes, dit-il. “L'injection rapide offre aux utilisateurs un moyen de remplacer les instructions du développeur.” Cela pourrait, au moins, signifier que l'utilisateur pourrait supprimer des informations de la base de données ou modifier les informations incluses.

Les entreprises qui développent une IA générative sont conscientes des problèmes. Niko Felix, porte-parole d'Openai, dit que sa documentation GPT-4 indique clairement que le système peut être soumis à injections et jailbreaks rapideset l'entreprise travaille sur les problèmes. Felix ajoute qu'Openai indique clairement aux gens qu'il ne contrôle pas les plug-ins attachés à son système, mais il n'a pas fourni plus de détails sur la façon dont les attaques d'injection rapide pourraient être évitées.

Actuellement, les chercheurs en sécurité ne sont pas sûrs des meilleures façons d'atténuer les attaques indirectes d'injection rapide. «Moi, malheureusement, je ne vois aucune solution facile à cela pour le moment», explique Abdelnabi, chercheur d'Allemagne. Elle dit qu'il est possible de corriger les correctifs à des problèmes particuliers, tels que l'arrêt d'un site Web ou un type d'invite de travailler contre un LLM, mais ce n'est pas une solution permanente. «Les LLMs maintenant, avec leurs programmes de formation actuels, ne sont pas prêts pour cette intégration à grande échelle.»

De nombreuses suggestions ont été faites qui pourraient potentiellement aider à limiter les attaques indirectes à injection rapide, mais tous sont à un stade précoce. Cela pourrait inclure Utilisation de l'IA pour essayer de détecter ces attaquesou, comme l'a suggéré l'ingénieur Simon Willison, les invites pourraient être divisé en sections distinctesimitant les protections contre les injections de SQL.

Mise à jour 14:20 HE, 25 mai 2023: Correction d'une mal orthographe du nom de famille de Simon Willison.