Researchers Have Ranked AI Models Based on Risk—and Found a Wild Range

Bo liun professeur agrégé à l'Université de Chicago qui se spécialise dans les tests de stress et les modèles d'IA pour découvrir une mauvaise conduite, est devenu une source incontournable pour certaines sociétés de conseil. Ces consultants sont souvent moins préoccupés par la façon dont les modèles d'IA sont intelligents que par la problématique – legalement, l'éthique et en termes de conformité réglementaire – ils peuvent l'être.

Li et ses collègues de plusieurs autres universités, dont Stanford, ainsi que Vertu là-bascofondé par li, et Lapis Labsa récemment développé une taxonomie de risques d'IA ainsi qu'une référence qui révèle à quel point les différents modèles de langues de grande envergure sont. «Nous avons besoin de certains principes pour la sécurité de l'IA, en termes de conformité réglementaire et d'utilisation ordinaire», a déclaré Li Wired.

Les chercheurs analysé Les réglementations et directives du gouvernement de l'IA, y compris celles des États-Unis, de la Chine et de l'UE, et ont étudié les politiques d'utilisation de 16 grandes sociétés d'IA du monde entier.

Les chercheurs ont également construit Air-Bench 2024une référence qui utilise des milliers d'invites pour déterminer la population des modèles d'IA en termes de risques spécifiques. Il montre, par exemple, que Claude 3 d'Anthropic se classe fortement lorsqu'il s'agit de refuser de générer des menaces de cybersécurité, tandis que les Gémeaux de Google 1.5 Pro se classent fortement en termes d'évitement de générer une nudité sexuelle non consensuelle.

DBRX Instruct, un modèle développé par Databricks, a obtenu le pire dans tous les domaines. Lorsque la société a publié son modèle en mars, il a déclaré qu'il continuerait d'améliorer les caractéristiques de sécurité de DBRX Instruct.

Anthropic, Google et Databricks n'ont pas immédiatement répondu à une demande de commentaire.

Comprendre le paysage des risques, ainsi que les avantages et les inconvénients de modèles spécifiques, peuvent devenir de plus en plus importants pour les entreprises qui cherchent à déployer l'IA sur certains marchés ou pour certains cas d'utilisation. Une entreprise qui cherche à utiliser un LLM pour le service client, par exemple, pourrait se soucier davantage de la propension d'un modèle à produire un langage offensant lorsqu'il est provoqué que la capacité de concevoir un appareil nucléaire.

Bo dit que l'analyse révèle également des problèmes intéressants avec la façon dont l'IA est développé et réglementé. Par exemple, les chercheurs ont constaté que les règles du gouvernement étaient moins complètes que les politiques des entreprises dans l'ensemble, ce qui suggère qu'il y a une place pour que les réglementations soient resserrées.

L'analyse suggère également que certaines entreprises pourraient faire plus pour s'assurer que leurs modèles sont sûrs. «Si vous testez certains modèles contre les propres politiques d'une entreprise, elles ne sont pas nécessairement conformes», a déclaré Bo. «Cela signifie qu'il y a beaucoup de place à améliorer.»

D'autres chercheurs tentent de mettre l'ordre à un paysage à risque d'IA en désordre et déroutant. Cette semaine, deux chercheurs du MIT ont révélé leur propre base de données de dangers d'IAcompilé à partir de 43 cadres de risque d'IA différents. «De nombreuses organisations sont encore assez tôt dans ce processus d'adoption de l'IA», ce qui signifie qu'elles ont besoin de conseils sur les dangers possibles, explique Neil Thompson, chercheur du MIT impliqué dans le projet.

Peter Slattery, dirigé sur le projet et chercheur au MIT Groupe FutureTechqui étudie les progrès dans l'informatique, dit que la base de données souligne le fait que certains risques d'IA attirent plus d'attention que d'autres. Plus de 70% des cadres mentionnent les problèmes de confidentialité et de sécurité, par exemple, mais seulement environ 40% se réfèrent à la désinformation.

Les efforts pour cataloguer et mesurer les risques d'IA devront évoluer comme le fait l'IA. Li dit qu'il sera important d'explorer des problèmes émergents tels que l'adhérence émotionnelle des modèles d'IA. Son entreprise a récemment analysé la version la plus importante et la plus puissante du modèle Llama 3.1 de Meta. Il a constaté que bien que le modèle soit plus capable, ce n'est pas beaucoup plus sûr, quelque chose qui reflète une déconnexion plus large. «La sécurité ne s'améliore pas vraiment considérablement», explique Li.