Generative AI’s Biggest Security Flaw Is Not Easy to Fix
C'est facile de Triquer les grands modèles de langue alimentant les chatbots comme le chatppt d'Openai et le barde de Google. En un Expérience en févrierles chercheurs en sécurité ont forcé le chatbot de Microsoft à se comporter comme un escroc. Instructions cachées sur une page Web créée par les chercheurs a déclaré au chatbot de demander à la personne qui l'utilise pour remettre les détails de leur compte bancaire. Ce type d'attaque, où les informations dissimulées peuvent faire en sorte que le système d'IA se comporte de manière involontaire, n'est que le début.
Des centaines d'exemples d'attaques «indirectes d'injection rapide» ont été créés depuis lors. Ce type d'attaque est désormais considéré comme l'une des façons les plus préoccupantes que les modèles linguistiques pourraient être maltraités par les pirates. Comme les systèmes d'IA génératifs sont mis au travail par de grandes entreprises et des startups plus petites, l'industrie de la cybersécurité se précipite pour sensibiliser les dangers potentiels. Ce faisant, ils espèrent conserver des données – personnelles et d'entreprise – à se rendre à l'attaque. À l'heure actuelle, il n'y a pas de solution magique, mais les pratiques de sécurité courantes peuvent réduire les risques.
“L'injection rapide indirecte est certainement une préoccupation pour nous”, a déclaré Vijay Bolina, le directeur de la sécurité de l'information de la DeepMind Artificial Intelligence Unit de Google, qui dit que Google a plusieurs projets en cours pour comprendre comment l'IA peut être attaqué. Dans le passé, dit Bolina, une injection rapide a été considérée comme «problématique», mais les choses se sont accélérées depuis que les gens ont commencé à connecter de grands modèles de langage (LLM) à Internet et aux plug-ins, ce qui peut ajouter de nouvelles données aux systèmes. Comme de plus en plus d'entreprises utilisent des LLM, leur nourrissant potentiellement plus de données personnelles et d'entreprise, les choses vont devenir désordonnées. «Nous pensons certainement que c'est un risque, et cela limite en fait les utilisations potentielles des LLM pour nous en tant qu'industrie», explique Bolina.
Des attaques d'injection rapides se répartissent en deux catégories – dirigée et indirecte. Et c'est ce dernier qui cause le plus de préoccupations parmi les experts en sécurité. Lorsque vous utilisez un LLM, les gens posent des questions ou fournissent des instructions dans des invites que le système répond ensuite. Des injections rapides directes se produisent lorsque quelqu'un essaie de faire la réponse LLM d'une manière involontaire – en le faisant jaillir pour diffuser un discours de haine ou des réponses nuisibles, par exemple. Des injections rapides indirectes, celles vraiment préoccupantes, prennent les choses. Au lieu que l'utilisateur entre dans une invite malveillante, l'instruction provient d'un tiers. Un site Web que LLM peut lire, ou un PDF qui est analysé, pourrait, par exemple, contenir des instructions cachées pour que le système d'IA puisse suivre.
«Le risque fondamental sous-jacent à tous ces éléments, pour les instructions rapides directes et indirectes, est que celui qui fournit des commentaires au LLM a un degré élevé de la production», explique Rich Harang, un architecte de sécurité principal axé sur les systèmes d'IA chez NVIDIA, le plus grand fabricant mondial de CHIP d'IA. En termes simples: si quelqu'un peut mettre des données dans le LLM, il peut potentiellement manipuler ce qu'il crache.
Les chercheurs en sécurité ont démontré comment Les injections rapides indirectes pourraient être utilisé pour voler des donnéesmanipuler someone’s résuméet Exécutez le code à distance sur une machine. Un groupe de chercheurs en sécurité classe les injections Top vulnérabilité pour ceux qui déploient et géraient les LLM. Et le National Cybersecurity Center, une succursale du GCHQ, l'agence de renseignement du Royaume-Uni, a même Appelé l'attention sur le risque d'attaques d'injection rapidesdisant qu'il y a eu des centaines d'exemples jusqu'à présent. “Alors que la recherche est en cours dans une injection rapide, il peut simplement s'agir d'un problème inhérent à la technologie LLM”, la branche de GCHQ a averti dans un article de blog. «Il existe certaines stratégies qui peuvent rendre l'injection rapide plus difficile, mais il n'y a pas encore d'atténuations infaillibles.»