AI Is a Black Box. Anthropic Figured Out a Way to Look Inside

L'année dernière, l'équipe a commencé à expérimenter un minuscule modèle qui n'utilise qu'une seule couche de neurones. (Les LLMS sophistiquées ont des dizaines de couches.) L'espoir était que dans le cadre le plus simple possible, ils pouvaient découvrir des modèles qui désignent les fonctionnalités. Ils ont mené d'innombrables expériences sans succès. «Nous avons essayé tout un tas de choses et rien ne fonctionnait. Cela ressemblait à un tas de déchets aléatoires », explique Tom Henighan, membre du personnel technique d'Anthropic. Ensuite, une course surnommée «Johnny» – chaque expérience a été attribuée un nom aléatoire – AGAN associant des modèles neuronaux à des concepts qui sont apparus dans ses résultats.

«Chris le regarda, et il se disait:» Sainte merde. Cela a l'air super '', explique Henighan, qui a également été stupéfait. “Je l'ai regardé et je me disais:” Oh, wow, attendez, ça marche? “”

Soudain, les chercheurs ont pu identifier les caractéristiques qu'un groupe de neurones codait. Ils pouvaient regarder dans la boîte noire. Henighan dit qu'il a identifié les cinq premières caractéristiques qu'il a regardées. Un groupe de neurones signifiait des textes russes. Un autre était associé à des fonctions mathématiques dans le langage informatique Python. Et ainsi de suite.

Une fois qu'ils ont montré qu'ils pouvaient identifier les fonctionnalités Dans le minuscule modèle, les chercheurs se sont placés sur la tâche la plus cheveux de décoder un LLM pleine grandeur dans la nature. Ils ont utilisé Claude Sonnet, la version moyenne de force des trois modèles actuels d'Anthropic. Cela a fonctionné aussi. Une caractéristique qui leur a tendu a été associée au Golden Gate Bridge. Ils ont cartographié l'ensemble des neurones qui, lorsqu'ils ont été tirés ensemble, ont indiqué que Claude «pensait» à la structure massive qui relie San Francisco au comté de Marin. De plus, lorsque des ensembles de neurones similaires ont tiré, ils ont évoqué des sujets qui étaient Golden Gate Bridge-adjacent: Alcatraz, le gouverneur de Californie Gavin Newsom et le film Hitchcock Vertigequi s'est déroulé à San Francisco. Tout compte fait que l'équipe a identifié des millions de caractéristiques – une sorte de pierre de Rosetta pour décoder le filet neuronal de Claude. Beaucoup de caractéristiques étaient liées à la sécurité, notamment «se rapprocher de quelqu'un pour des arrière-pensées», «Discussion de la guerre biologique» et des «complots vilains pour conquérir le monde».

L'équipe anthropique a ensuite franchi l'étape suivante, pour voir si elle pouvait utiliser ces informations pour modifier le comportement de Claude. Ils ont commencé à manipuler le filet de neurones pour augmenter ou diminuer certains concepts – une sorte de chirurgie cérébrale de l'IA, avec le potentiel de rendre les LLM plus sûres et d'augmenter leur pouvoir dans des zones sélectionnées. «Disons que nous avons ce tableau de fonctionnalités. Nous allumons le modèle, l'un d'eux s'allume, et nous voyons: «Oh, il pense au Golden Gate Bridge», explique Shan Carter, un scientifique anthropique de l'équipe. «Alors maintenant, nous pensons, et si nous mettons un petit cadran sur tout cela? Et si nous tournons ce cadran?

Jusqu'à présent, la réponse à cette question semble être qu'il est très important de tourner le cadran le bon montant. En supprimant ces caractéristiques, dit Anthropic, le modèle peut produire des programmes informatiques plus sûrs et réduire les biais. Par exemple, l'équipe a trouvé plusieurs fonctionnalités qui représentaient des pratiques dangereuses, comme le code informatique dangereux, les e-mails d'arnaque et les instructions pour fabriquer des produits dangereux.