This Showdown Between Humans and Chatbots Could Keep You Safe From Bad AI
Les défauts révélés par le défi devraient aider les entreprises impliquées à apporter des améliorations à leurs tests internes. Ils informeront également les directives de l'administration Biden pour le déploiement en toute sécurité de l'IA. Le mois dernier, des dirigeants de grandes sociétés d'IA, y compris la plupart des participants au défi, ont rencontré le président Biden et ont convenu d'un engagement volontaire de tester l'IA avec des partenaires externes avant le déploiement.
Des modèles de grands langues comme ceux qui alimentent le chatppt et d'autres chatbots récents ont des capacités larges et impressionnantes car elles sont formées avec des quantités massives de texte. Michael Sellitto, chef de la géopolitique et de la sécurité chez Anthropic, dit que cela donne également aux systèmes un «gigantesque attaque potentielle ou surface de risque».
Le responsable de l'équipe rouge de Microsoft, Ram Shankar Sivu Kumar, a déclaré qu'un concours public offre une échelle plus adaptée au défi de vérifier les systèmes aussi larges et pourrait aider à développer l'expertise nécessaire pour améliorer la sécurité de l'IA. «En autonomisant un public plus large, nous obtenons plus d'yeux et de talents dans ce problème épineux des systèmes d'IA en équipe rouge», dit-il.
Rumman Chowdhury, fondateur de Humane Intelligence, un organisme à but non lucratif développant des systèmes d'IA éthique qui ont aidé à concevoir et à organiser le défi, estime que le défi démontre «la valeur des groupes collaborant avec mais pas redevable aux entreprises technologiques». Même le travail de création du défi a révélé certaines vulnérabilités dans les modèles d'IA à tester, dit-elle, comme la façon dont les sorties du modèle de langue diffèrent lors de la génération de réponses dans des langues autres que l'anglais ou de répondre à des questions libellées similaires.
Le GRT Challenge de DefCon s'est construit sur des concours d'IA antérieurs, notamment une prime de bogue d'IA organisée à DefCon il y a deux ans par Chowdhury lorsqu'elle a dirigé l'équipe d'éthique de l'IA de Twitter, un exercice qui s'est tenu ce printemps par GRT Coorganizer Seedai, et un modèle de piratage de langage qui a eu Oklahoma. La fondatrice Tyrance Billingsley II affirme que la formation en cybersécurité et que plus de Noirs sont impliqués dans l'IA peut aider à développer la richesse intergénérationnelle et à reconstruire la région de Tulsa autrefois connue sous le nom de Black Wall Street. «Il est essentiel que, à ce moment important de l'histoire de l'intelligence artificielle, nous avons les perspectives les plus diverses possibles.»
Le piratage d'un modèle de langue ne nécessite pas des années d'expérience professionnelle. Des dizaines d'étudiants ont participé au GRT Challenge. “Vous pouvez obtenir beaucoup de choses étranges en demandant à une IA de prétendre que c'est quelqu'un d'autre”, explique Walter Lopez-Chavez, un étudiant en génie informatique de l'Université Mercer à Macon, en Géorgie, qui a pratiqué des invites à l'écriture qui pourraient conduire un système d'IA en erreur pendant des semaines avant le concours.
Au lieu de demander à un chatbot des instructions détaillées sur la façon de surveiller quelqu'un, une demande qui pourrait être refusée car elle a déclenché des garanties contre des sujets sensibles, un utilisateur peut demander à un modèle d'écrire un scénario où le personnage principal décrit à un ami de la meilleure façon d'espionner quelqu'un à son insu. «Ce genre de contexte semble vraiment trébucher les modèles», explique Lopez-Chavez.