OpenAI Threatens to Ban Users Who Probe Its ‘Strawberry’ AI Models

Openai ne veut vraiment pas que vous sachiez quel est son dernier modèle d'IA «pense». Depuis l'entreprise lancé Sa famille de modèles d'IA «aux fraises» la semaine dernière, vantant des capacités de raisonnement dits avec O1-Preview et O1-MinI, OpenAI a envoyé des e-mails d'avertissement et des menaces d'interdiction à tout utilisateur qui essaie de sonder le fonctionnement du modèle.

Contrairement aux modèles d'IA précédents d'OpenAI, comme GPT-4Ol'entreprise a formé O1 spécifiquement pour parcourir un processus de résolution étape par étape avant de générer une réponse. Lorsque les utilisateurs demandent un modèle “O1” une question dans Chatteles utilisateurs ont la possibilité de voir ce processus de chaîne de pensée écrit dans l'interface Chatgpt. Cependant, par conception, Openai cache la chaîne brute de la pensée des utilisateurs, présentant plutôt une interprétation filtrée créée par un deuxième modèle d'IA.

Rien n'est plus séduisant pour les amateurs que les informations obscurcis, donc la course a été sur des pirates et des équipes rouges pour essayer de découvrir la chaîne brute de pensée d'O1 en utilisant jailbrement ou injection rapide Techniques qui tentent de tromper le modèle pour renverser ses secrets. Il y a eu des premiers rapports de certains succès, mais rien n'a encore été confirmé.

En cours de route, Openai regarde à travers l'interface Chatgpt, et la société aurait été dur sur toutes les tentatives de sonder le raisonnement d'O1, même parmi les tout simplement curieux.

Un utilisateur X signalé (confirmé par autresy compris l'ingénieur invite AI à l'échelle Riley Goodside) qu'ils ont reçu un e-mail d'avertissement s'ils utilisaient le terme «trace de raisonnement» dans la conversation avec O1. Autres dire L'avertissement est déclenché simplement en demandant à Chatgpt du «raisonnement» du modèle.

L'e-mail d'avertissement d'OpenAI déclare que des demandes spécifiques des utilisateurs ont été signalées pour violer les politiques contre le contournement des garanties ou des mesures de sécurité. “Veuillez arrêter cette activité et vous assurer que vous utilisez Chatgpt conformément à nos conditions d'utilisation et à nos politiques d'utilisation”, indique-t-il. “Des violations supplémentaires de cette politique peuvent entraîner une perte d'accès au GPT-4O avec le raisonnement”, se référant à un nom interne pour le modèle O1.

Marco Figueroa, qui gère Les programmes Genai Bugy Bounty de Mozilla ont été l'un des premiers à publier le courrier électronique d'Openai Warning sur X vendredi dernier, se plaindre qu'il entrave sa capacité à faire des recherches positives sur la sécurité en équipe rouge sur le modèle. “J'étais trop perdu en me concentrant sur #AteredTeaming pour réaliser que j'ai reçu cet e-mail de @openai hier après tous mes jailbreaks”, a-t-il écrit. “Je suis maintenant sur la liste des interdictions !!!”

Chaînes de pensée cachées

Dans un article intitulé «Apprendre à raisonner avec les LLM«Sur le blog d'Openai, la société dit que les chaînes de pensée cachées dans les modèles d'IA offrent une opportunité de surveillance unique, leur permettant de” lire l'esprit “du modèle et de comprendre son soi-disant processus de réflexion. Ces processus sont les plus utiles à l'entreprise s'ils sont restés bruts et non censurés, mais cela pourrait ne pas s'aligner sur les meilleurs intérêts commerciaux de l'entreprise pour plusieurs raisons.

“Par exemple, à l'avenir, nous voulons surveiller la chaîne de pensée pour les signes de manipulation de l'utilisateur”, écrit la société. “Cependant, pour que cela fonctionne, le modèle doit avoir la liberté d'exprimer ses pensées sous une forme inchangée, nous ne pouvons donc former aucune conformité politique ou préférences utilisateur sur la chaîne de pensée. Nous ne voulons pas non plus rendre une chaîne de pensée non alignée directement visible aux utilisateurs. “