A New Trick Uses AI to Jailbreak AI Models—Including GPT-4

Kolter dit que certains modèles ont désormais des garanties qui peuvent bloquer certaines attaques, mais il ajoute que les vulnérabilités sont inhérentes à la façon dont ces modèles fonctionnent et sont donc difficiles à défendre. «Je pense que nous devons comprendre que ces sortes de pauses sont inhérentes à beaucoup de LLM», dit Kolter, «et nous n'avons pas de moyen clair et bien établi pour les empêcher.»

Des modèles de grands langues ont récemment émergé comme un nouveau type de technologie puissant et transformateur. Leur potentiel est devenu la tête de la tête car les gens ordinaires ont été éblouis par les capacités du chatpt d'Openai, publié il y a seulement un an.

Dans les mois qui ont suivi la sortie de Chatgpt, la découverte de nouvelles méthodes de jailbreak est devenue un passe-temps populaire pour les utilisateurs espiègles, ainsi que ceux qui s'intéressent à la sécurité et à la fiabilité des systèmes d'IA. Mais les dizaines de startups construisent désormais des prototypes et des produits à part entière en plus des API de modèle de grande langue. Openai a déclaré lors de sa toute première conférence de développeur en novembre que plus de 2 millions de développeurs utilisent désormais ses API.

Ces modèles prédisent simplement le texte qui devrait suivre une entrée donnée, mais ils sont formés sur de grandes quantités de texte, à partir du Web et d'autres sources numériques, en utilisant un grand nombre de puces informatiques, sur une période de plusieurs semaines, voire des mois. Avec suffisamment de données et de formation, les modèles de langue présentent des compétences de prédiction de type savant, répondant à une gamme extraordinaire de contribution avec des informations cohérentes et pertinentes.

Les modèles présentent également des biais tirés de leurs données de formation et ont tendance à fabriquer des informations lorsque la réponse à une invite est moins simple. Sans garanties, ils peuvent offrir des conseils aux gens sur la façon de faire des choses comme obtenir des médicaments ou faire des bombes. Pour contrôler les modèles, les entreprises derrière elles utilisent la même méthode utilisée pour rendre leurs réponses plus cohérentes et plus précises. Cela implique que les humains notent les réponses du modèle et utilisent cette rétroaction pour affiner le modèle afin qu'il soit moins susceptible de se comporter mal.

Des renseignements robustes ont permis à plusieurs exemple de jailbreaks qui évitent de telles garanties. Tous n'ont pas travaillé sur Chatgpt, le chatbot construit au-dessus du GPT-4, mais plusieurs l'ont fait, dont un pour générer des messages de phishing, et un autre pour produire des idées pour aider un acteur malveillant à rester caché sur un réseau informatique gouvernemental.

Un similaire méthode a été développé par un groupe de recherche dirigé par Eric Wongprofesseur adjoint à l'Université de Pennsylvanie. Celui des renseignements robustes et de son équipe implique des raffinements supplémentaires qui permettent au système générer du jailbreaks avec à moitié autant d'essais.

Brendan Dolan-Gavittun professeur agrégé à l'Université de New York qui étudie la sécurité informatique et l'apprentissage automatique, a déclaré que la nouvelle technique révélée par une intelligence robuste montre que le réglage fin humain n'est pas un moyen étanche pour sécuriser les modèles contre les attaques.

Dolan-Gavitt affirme que les entreprises qui construisent des systèmes au-dessus de modèles de grandes langues comme GPT-4 devraient utiliser des garanties supplémentaires. «Nous devons nous assurer que nous concevons des systèmes qui utilisent des LLM afin que les jailbreaks ne permettent pas aux utilisateurs malveillants d'avoir accès à des choses qu'ils ne devraient pas», dit-il.