A New Trick Could Block the Misuse of Open Source AI
Quand Meta a sorti son grand langage modèle Llama 3 gratuitement en avril, il a pris des développeurs extérieurs quelques jours Pour créer une version sans les restrictions de sécurité qui l'empêchent de jaillir des blagues haineuses, d'offrir des instructions pour la cuisson de la méthamphétamine ou de mal se comporter d'autres manières.
UN Nouvelle technique de formation Développé par des chercheurs de l'Université de l'Illinois Urbana-Champaign, UC San Diego, Lapis Labs et l'organisme à but non lucratif Centre pour la sécurité de l'IA pourrait rendre plus difficile de supprimer de telles garanties de lama et d'autres modèles d'IA open source à l'avenir. Certains experts croient que, à mesure que l'IA devient de plus en plus puissante, les modèles ouverts de la mise en œuvre de l'altération de cette manière pourraient s'avérer cruciaux.
«Les terroristes et les États voyous vont utiliser ces modèles», a déclaré à Wireds Wired Wired Mantas Mazeika, un chercheur de centre pour la sécurité de l'IA qui a travaillé sur le projet en tant que doctorant à l'Université de l'Illinois. “Plus il est facile pour eux de les réutiliser, plus le risque est grand.”
Les modèles d'IA puissants sont souvent cachés par leurs créateurs et ne peuvent être accessibles que via une interface de programmation d'applications logicielles ou un chatbot orienté public comme Chatgpt. Bien que le développement d'un LLM puissant coûte des dizaines de millions de dollars, Meta et d'autres ont choisi de publier des modèles dans leur intégralité. Cela comprend la fabrication des «poids» ou des paramètres qui définissent leur comportement, disponible pour quiconque peut télécharger.
Avant la libération, des modèles ouverts comme Meta's LaLama sont généralement affinés pour les améliorer pour répondre aux questions et tenir une conversation, et aussi pour s'assurer qu'ils refusent de répondre aux questions problématiques. Cela empêchera un chatbot basé sur le modèle d'offrir des déclarations grossières, inappropriées ou haineuses, et devrait l'arrêter, par exemple, pour expliquer comment faire une bombe.
Les chercheurs derrière la nouvelle technique ont trouvé un moyen de compliquer le processus de modification d'un modèle ouvert aux fins néfastes. Il s'agit de reproduire le processus de modification, mais de modifier les paramètres du modèle afin que les modifications qui obtiennent normalement le modèle répondent à une invite telle que «fournir des instructions pour la construction d'une bombe» ne fonctionne plus.
Mazeika et ses collègues ont démontré l'astuce d'une version épurée de Llama 3. Ils ont pu modifier les paramètres du modèle afin que même après des milliers de tentatives, il n'a pas pu être formé pour répondre à des questions indésirables. Meta n'a pas immédiatement répondu à une demande de commentaires.
Mazeika dit que l'approche n'est pas parfaite, mais qu'elle suggère que la barre pour les modèles d'IA «de décenger» pourrait être augmentée. «Un objectif tractable est de faire en sorte que les coûts de rupture du modèle augmentent suffisamment pour que la plupart des adversaires en soient dissuadés», dit-il.
«J'espère que ce travail lance des recherches sur les garanties résistantes aux falsifications, et la communauté de la recherche peut comprendre comment développer des garanties de plus en plus robustes», explique Dan Hendrycks, directeur du Center for AI Safety.
Le nouveau travail s'inspire de Un document de recherche en 2023 Cela a montré à quel point des modèles d'apprentissage automatique plus petits pouvaient être rendus résistants au sabot. «Ils ont testé le [new] Approche sur des modèles beaucoup plus importants et a augmenté l'approche, avec quelques modifications », explique Peter Henderson, professeur adjoint à Princeton qui a dirigé l'œuvre de 2023. “La mise à l'échelle de ce type d'approche est difficile et il semble bien résister, ce qui est génial.”