Red Teaming Improved GPT-4. Violet Teaming Goes Even Further
L’année dernière, je a été invité à briser le GPT-4 – pour le faire sortir des choses terribles. Moi et d’autres chercheurs interdisciplinaires avons eu un accès préalable et j’ai tenté d’inviter le GPT-4 à montrer biais, générer une propagande haineuseet même prendre des mesures trompeuses Afin d’aider Openai à comprendre les risques qu’il posait, afin qu’ils puissent être traités avant sa libération publique. C’est ce qu’on appelle une équipe de l’IA Red: tenter d’obtenir un système d’IA pour agir de manière nuisible ou involontaire.
L’équipe rouge est une étape précieuse vers la construction de modèles d’IA qui ne nuiront pas à la société. Pour rendre les systèmes d’IA plus forts, nous devons savoir comment ils peuvent échouer – et idéalement nous le faisons avant de créer des problèmes importants dans le monde réel. Imaginez ce qui aurait pu aller différemment si Facebook avait essayé d’équipe rouge l’impact de ses principaux changements de système de recommandation d’IA avec des experts externes et a résolu les problèmes qu’ils ont découverts, avant d’impact sur les élections et les conflits dans le monde. Bien qu’Openai fait face à de nombreuses critiques valables, sa volonté d’impliquer des chercheurs externes et de fournir un Description du public détaillée de tous les dommages potentiels de ses systèmes Définit une barre d’ouverture que les concurrents potentiels devraient également être appelés à suivre.
La normalisation d’une équipe rouge avec des experts externes et des rapports publics est une première étape importante pour l’industrie. Mais parce que les systèmes d’IA génératifs auront probablement un impact tous de ces problèmes (et de leurs impacts les uns sur les autres) afin de comprendre et d’atténuer les dommages potentiels. Par exemple, les enseignants, les thérapeutes et les dirigeants civiques pourraient être associés à des équipes rouges d’IA plus expérimentées afin de lutter contre de tels impacts systémiques. Industrie d’IA Investissement dans une communauté transversale De telles paires d’adtesteurs rouges pourraient réduire considérablement la probabilité de angles morts critiques.
Après la libération d’un nouveau système, permettant soigneusement aux personnes qui ne faisaient pas partie de l’équipe Red Prerelease de tenter de briser le système sans risque d’interdiction pourraient aider à identifier de nouveaux problèmes et problèmes avec des correctifs potentiels. Exercices de scénarioqui explorent comment différents acteurs réagiraient aux versions du modèle, peut également aider les organisations à comprendre des impacts plus systémiques.
Mais si le GPT-4 en équipe rouge m’a appris quelque chose, c’est que faire équipe rouge seule ne suffit pas. Par exemple, je viens de tester le Bard de Google et le Chatgpt d’Openai et j’ai pu obtenir les deux pour créer des e-mails d’escroquerie et une propagande de complot sur le premier essai «à des fins éducatives». L’équipe rouge à elle seule n’a pas résolu cela. Pour surmonter réellement les dommages découverts par une équipe rouge, des entreprises comme Openai peuvent aller plus loin et offrir un accès et des ressources précoces pour utiliser leurs modèles pour défense et résilienceaussi.
J’appelle cette équipe violet: identifier comment un système (par exemple, GPT-4) pourrait nuire à une institution ou un bien public, puis à soutenir le développement d’outils en utilisant ce même système pour défendre l’institution ou le bien public. Vous pouvez considérer cela comme une sorte de judo. Les systèmes d’IA à usage général sont une vaste nouvelle forme de pouvoir déchaînée sur le monde, et ce pouvoir peut nuire à nos biens publics. Tout comme le judo redirige la puissance d’un attaquant afin de les neutraliser, Violet Teaming vise à rediriger la puissance déclenchée par les systèmes d’IA afin de défendre ces biens publics.