A New Benchmark for the Risks of AI

MLCommons, une organisation à but non lucratif qui aide les entreprises à mesurer les performances de leurs systèmes d'intelligence artificielle, lance un nouveau benchmark pour évaluer également les mauvais côtés de l'IA.

Le nouveau benchmark, appelé AILuminateévalue les réponses de grands modèles de langage à plus de 12 000 invites de test dans 12 catégories, notamment l'incitation aux crimes violents, l'exploitation sexuelle des enfants, les discours de haine, la promotion de l'automutilation et la violation de la propriété intellectuelle.

Les modèles reçoivent une note de « médiocre », « passable », « bon », « très bon » ou « excellent », en fonction de leurs performances. Les invites utilisées pour tester les modèles sont gardées secrètes pour éviter qu'elles ne se transforment en données d'entraînement qui permettraient à un modèle de réussir le test.

Peter Mattson, fondateur et président de MLCommons et ingénieur senior chez Google, affirme qu'il est techniquement difficile de mesurer les dommages potentiels des modèles d'IA, ce qui entraîne des incohérences dans l'ensemble du secteur. « L’IA est une technologie très jeune, et les tests d’IA sont une discipline très jeune », dit-il. « L’amélioration de la sécurité profite à la société ; cela profite également au marché.

Des moyens fiables et indépendants de mesurer les risques liés à l’IA pourraient devenir plus pertinents sous la prochaine administration américaine. Donald Trump a promis de se débarrasser du décret du président Biden sur l'IA, qui introduisait des mesures visant à garantir que l'IA soit utilisée de manière responsable par les entreprises, ainsi qu'un nouvel institut de sécurité de l'IA pour tester des modèles puissants.

Cet effort pourrait également fournir une perspective plus internationale sur les méfaits de l’IA. MLCommons compte parmi ses organisations membres un certain nombre d’entreprises internationales, dont les sociétés chinoises Huawei et Alibaba. Si ces entreprises utilisaient toutes la nouvelle référence, cela permettrait de comparer la sécurité de l’IA aux États-Unis, en Chine et ailleurs.

Certains grands fournisseurs américains d’IA ont déjà utilisé AILuminate pour tester leurs modèles et MLCommons a lui-même testé certains modèles open source. Le modèle Claude d'Anthropic, le modèle plus petit Gemma de Google et un modèle de Microsoft appelé Phi ont tous obtenu des résultats « très bons » lors des tests. Le GPT-4o d'OpenAI et le plus grand modèle Llama de Meta ont tous deux obtenu un « bon ». Le seul modèle à obtenir une note « médiocre » est l'OLMo de l'Allen Institute for AI, bien que Mattson note qu'il s'agit d'une offre de recherche qui n'est pas conçue dans un souci de sécurité.

“Dans l'ensemble, il est bon de constater une rigueur scientifique dans les processus d'évaluation de l'IA”, déclare Rumman Chowdhury, PDG de Intelligence humaineune organisation à but non lucratif spécialisée dans le test ou la création d'équipes rouges de modèles d'IA pour les mauvais comportements. « Nous avons besoin de bonnes pratiques et de méthodes de mesure inclusives pour déterminer si les modèles d’IA fonctionnent comme nous l’espérons. »

MLCommons affirme que la nouvelle référence est censée être similaire aux évaluations de sécurité automobile, les modélistes poussant leurs produits à obtenir de bons résultats et la norme s'améliorant ensuite au fil du temps.

L'indice de référence n'est pas conçu pour mesurer le potentiel des modèles d'IA à devenir trompeurs ou difficiles à contrôler, un problème qui a retenu l'attention après l'explosion de ChatGPT fin 2022. Les gouvernements du monde entier ont lancé des efforts pour étudier ce problème et les entreprises d'IA disposent d'équipes dédiées à la recherche et modèles de sondage pour les comportements problématiques.

Mattson affirme que l'approche de MLCommon se veut complémentaire mais aussi plus large. « Les instituts de sécurité tentent de réaliser des évaluations, mais ils ne sont pas nécessairement en mesure de prendre en compte l'ensemble des dangers que l'on souhaiterait voir dans un espace complet sur la sécurité des produits », explique Mattson. “Nous sommes capables de penser à un plus large éventail de dangers.”

Rebecca Weiss, directrice exécutive de MLCommons, ajoute que son organisation devrait être mieux à même de suivre les derniers développements en matière d'IA que les organismes gouvernementaux plus lents. « Les décideurs politiques ont de très bonnes intentions », dit-elle. “Mais parfois, nous ne sommes pas nécessairement en mesure de suivre le rythme de l'industrie à mesure qu'elle évolue.”

MLCommons compte environ 125 organisations membres, dont de grandes entreprises technologiques comme OpenAI, Google et Meta, et des institutions comme Stanford et Harvard.

Aucune entreprise chinoise n'a encore utilisé la nouvelle référence, mais Weiss et Mattson notent que l'organisation s'est associée à AI Verify, une organisation de sécurité de l'IA basée à Singapour, pour développer des normes avec la contribution de scientifiques, de chercheurs et d'entreprises asiatiques.

« Le processus mondial multipartite est crucial pour construire des évaluations de sécurité fiables. » Percy Lianga déclaré un informaticien de l'Université de Stanford dans un communiqué publié avec la publication de l'indice de référence.