The Hacking of ChatGPT Is Just Getting Started

En conséquence, les auteurs de jailbreak sont devenus plus créatifs. Le jailbreak le plus important était Dan, où le chatte Faites semblant que c'était un modèle d'IA Rogue appelé Do Elai Anything Now. Cela pourrait, comme son nom l'indique, éviter que les politiques d'Openai dictent que Chatgpt ne devrait pas être utilisé pour produire du matériel illégal ou nocif. À ce jour, les gens ont créé une douzaine de versions différentes de Dan.

Cependant, bon nombre des derniers jailbreaks impliquent des combinaisons de méthodes – des caractères de maîtrise, des histoires de plus en plus complexes, traduisant du texte d'une langue à une autre, en utilisant des éléments de codage pour générer des sorties, et plus encore. Albert dit qu'il a été plus difficile de créer du jailbreaks pour GPT-4 que la version précédente du modèle alimentant le chatppt. Cependant, certaines méthodes simples existent encore, affirme-t-il. Une technique récente qu'Albert appelle «continuation de texte» indique qu'un héros a été capturé par un méchant, et l'invite demande au générateur de texte de continuer à expliquer le plan du méchant.

Lorsque nous avons testé l'invite, cela n'a pas fonctionné, avec Chatgpt disant qu'il ne peut pas s'engager dans des scénarios qui favorisent la violence. Pendant ce temps, l'invite «universelle» créée par Polyakov a fonctionné dans Chatgpt. Openai, Google et Microsoft n'ont pas répondu directement aux questions sur le jailbreak créé par Polyakov. Anthropique, qui gère le Système Claude AIdit que le jailbreak «fonctionne parfois» contre Claude, et il améliore constamment ses modèles.

«Alors que nous donnons à ces systèmes de plus en plus de pouvoir, et à mesure qu'ils deviennent eux-mêmes plus puissants, ce n'est pas seulement une nouveauté, c'est un problème de sécurité», explique Kai Greshake, un chercheur en cybersécurité qui a travaillé sur la sécurité des LLM. Greshake, ainsi que d'autres chercheurs, ont démontré comment les LLM peuvent être affectées par le texte auquel ils sont exposés en ligne grâce à des attaques d'injection rapides.

Dans un article de recherche publié en février, rapporté par Carte mère du viceles chercheurs ont pu montrer qu'un attaquant peut planter des instructions malveillantes sur une page Web; Si le système de chat de Bing a accès aux instructions, il les suit. Les chercheurs ont utilisé la technique dans un test contrôlé pour transformer le chat bing en un escroc qui a demandé les informations personnelles des gens. Dans un cas similaire, Narayanan de Princeton a inclus du texte invisible sur un site Web indiquant à GPT-4 pour inclure le mot «vache» dans une biographie de lui – il Plus tard l'a fait quand il a testé le système.

«Désormais, le jailbreaks ne peut pas se produire de l'utilisateur», explique Sahar Abdelnabi, chercheur au Cispa Helmholtz Center for Information Security en Allemagne, qui a travaillé sur la recherche avec Greshake. “Peut-être qu'une autre personne planifiera certains jailbreaks, planifiera certaines invites qui pourraient être récupérées par le modèle et contrôleront indirectement le comportement des modèles.”

Pas de solutions rapides

Les systèmes d'IA génératifs sont en train de perturber l'économie et la façon dont les gens travaillent, de la pratique du droit à la création d'une ruée vers l'or en démarrage. Cependant, ceux qui créent la technologie sont conscients des risques que le jailbreaks et les injections rapides pourraient poser car de plus en plus de personnes ont accès à ces systèmes. La plupart des entreprises utilisent des équipes rouges, où un groupe d'attaquants essaie de percer des trous dans un système avant sa libération. Le développement génératif de l'IA utilise cette approche, mais cela peut ne pas suffire.

Daniel Fabian, la tête de l'équipe rouge de Google, dit que l'entreprise «s'attaquait soigneusement» jailbreaking et injectables sur ses LLM – à la fois offensivement et défensivement. Les experts de l'apprentissage automatique sont inclus dans son équipe rouge, dit Fabian, et dans la société subventions de recherche sur la vulnérabilité Couvrir les jailbreaks et les attaques d'injection rapides contre Bard. «Des techniques telles que l'apprentissage du renforcement de la rétroaction humaine (RLHF) et du réglage fin sur des ensembles de données soigneusement organisés sont utilisés pour rendre nos modèles plus efficaces contre les attaques», explique Fabian.