China’s ChatGPT Rival Needs to Watch Its Words

Le régime de censure chinois oblige Baidu et d’autres sociétés Internet à bloquer l’accès à certains sites Web et à éviter les sujets politiquement sensibles. Les mots ou phrases qui doivent être bloqués peuvent être mis à jour rapidement en réponse aux protestations ou lors d’événements spéciaux.

Mais Jeffrey Dingun professeur adjoint à l’Université de Georgetown qui étudie l’industrie technologique de la Chine, affirme que les préoccupations concernant la censure ne semblent pas avoir ralenti le développement de modèles de langue importants en Chine. Il note que Baidu a créé le modèle de langue Ernie qui sous-tend son nouveau bot disponible via une API depuis un certain temps et que d’autres sociétés offrent des modèles similaires.

Baidu n’a pas donné de détails sur les données de formation d’Ernie Bot, mais il a probablement été gratté de l’Internet chinois. Cela signifiera que la matière première du bot a déjà été organisée par les règles de censure de la Chine, qui, par exemple, visent à limiter les critiques du gouvernement.

La censure pourrait également affecter les chatbots chinois de manière plus subtile. Un projet de recherche académique de 2021 qui a formé des algorithmes sur la version chinoise de Wikipedia, qui est bloqué en Chine, et Baidu’s Baike, une encyclopédie crowdsourcée sous réserve de la censure du gouvernement, a révélé que l’utilisation de données de formation censurées a considérablement modifié le sens que le logiciel AI attribué à différents mots.

L’algorithme formé sur Wikipedia en langue chinoise a associé les mots «démocratie» plus près de mots positifs tels que la «stabilité». L’algorithme formé sur le matériel Baike censuré représentait la «démocratie» plus proche du «chaos», plus conforme à la politique du gouvernement chinois. Mais parce que les chatbots comme Chatgpt peuvent être extrêmement flexibles et le matériel de remix dans leurs données de formation, Baidu a probablement dû introduire des garanties supplémentaires

Malgré sa réception mixte, Ernie Bot semble être un concurrent capable de Chatgpt. Le bot est actuellement disponible uniquement pour un nombre limité d’utilisateurs, dont certains disent être impressionnés. Chatgpt n’est pas disponible en Chine, bien qu’il soit capable de converser en chinois.

Lei Liun professeur à l’UC Sant Barbara qui se spécialise dans l’IA et a précédemment travaillé sur la technologie utilisée pour construire une partie de l’apprentissage automatique derrière Ernie Bot, souligne que Baidu travaille sur la technologie sous-jacente depuis environ une décennie. Microsoft, en revanche, a concédé l’octroi de la technologie de base du nouveau chatbot de Bing et de certaines fonctionnalités de génération de texte à venir pour Office d’Openai, dans laquelle il a investi des milliards de dollars en échange de droits exclusifs à ses créations.

Li dit également qu’il est également impressionné par une partie de ce que Ernie Bot peut faire, y compris sa capacité à générer des histoires et des rapports commerciaux. Il ajoute que le problème d’hallucination est un défi pour tous ces modèles de langue. «C’est là que les chercheurs ont encore du travail à faire», dit-il.

Une affiche WeChat a comparé les capacités démo du bot chinois à celles de Chatgpt et l’a trouvé mieux à gérer les idiomes chinois et plus précis dans certains cas. Par exemple, Chatgpt a incorrectement affirmé que la maison ancestrale de l’auteur de science-fiction Liu Cixin, qui a écrit Le problème des trois corpsest Hubei, tandis qu’Ernie Bot a correctement répondu au Henan. Chatgpt est bloqué en Chine, mais de nombreuses personnes ont trouvé des moyens d’y accéder.