The Dire Defect of ‘Multilingual’ AI Content Moderation
Un autre défi pour les modèles multilingues provient de disparités dans la quantité de données sur lesquelles ils forment dans chaque langue. Lors de l'analyse du contenu dans les langues pour lesquelles ils ont moins de données de formation, les modèles finissent par s'appuyer sur les règles qu'ils ont déduites sur les langues pour lesquelles ils ont plus de données. Cela entrave leur capacité à comprendre les nuances et les contextes propres aux langues à faible ressource et importe les valeurs et les hypothèses codées en anglais. L'un des modèles multilingues de Meta, par exemple, a été formé en utilisant près de mille fois plus de texte anglais que le texte birman, amharique ou punjabi. Si sa compréhension de ces langues est réfractée à travers l'objectif de l'anglais, cela affectera certainement sa capacité à détecter un contenu nuisible lié aux événements actuels qui se déroulent dans ces langues, comme la crise des réfugiés rohingyas, la guerre Tigray et la protestation des agriculteurs indiens.
Enfin, même si un modèle de langage multilingue était formé sur des quantités égales de données de haute qualité dans chaque langue, il serait toujours confronté à ce que les informaticiens appellent la «malédiction de la multilinalité» – c'est-à-dire que les langues interfèrent les uns avec les autres dans les sorties ultimes d'un modèle. Différentes langues se sont concurrentes les unes avec les autres pour l'espace dans le mappage interne de la langue d'un modèle de langue multilingue. En conséquence, la formation d'un modèle multilingue sur des données plus hindi peut nuire à ses performances sur les tâches dans des langues étymologiquement distinctes comme l'anglais ou le tagalog, et augmenter le nombre total de langues sur lesquelles un modèle forme peut nuire à ses performances dans chacun d'eux.
Dans le cas de la modération du contenu, cela soulève des questions difficiles sur les langues Les entreprises de médias sociaux devraient prioriser et les objectifs que ces modèles devraient cibler. Les modèles de langage multilingue devraient-ils essayer d'obtenir des performances égales dans toutes les langues? Prioriser ceux avec le plus de conférenciers? Ceux confrontés aux problèmes de modération le plus désastreux de contenu? Et qui décide quelle est la crise la plus désastreuse?
Modèles de langue multilingue Promenez-vous d'apporter la puissance analytique des LLMS à toutes les langues du monde, mais il n'est pas encore clair si leurs capacités s'étendent pour détecter le contenu nocif. Ce qui est nocif ne semble pas être facilement cartographié entre les langues et les contextes linguistiques. Pour s'assurer que ces modèles ne conduisent pas à des impacts disparates sur différentes communautés linguistiques, les sociétés de médias sociaux doivent offrir plus de connaissances sur le fonctionnement de ces modèles.
Au minimum, les entreprises devraient partager des informations sur les produits reposent sur ces modèles, sur quels types de contenu sur lesquels ils sont utilisés et dans les langues utilisées. Les entreprises devraient également partager des mesures de base sur la façon dont les modèles linguistiques fonctionnent dans chaque langue, et plus d'informations sur les données de formation qu'elles utilisent, afin que les chercheurs puissent évaluer ces ensembles de données pour les biais et comprendre l'équilibre que l'entreprise conclut entre différentes langues. Alors que les plus grandes entreprises, comme Facebook et Google, publient des versions de leurs modèles linguistiques au public pour les chercheurs et même d'autres entreprises à utiliser, elles sont souvent mères de la façon dont ces systèmes accessibles au public se rapportent ou diffèrent de ceux utilisés dans leurs propres produits. Ces procurations ne sont pas suffisantes – les entreprises devraient partager des informations sur les modèles de langage réels qu'ils utilisent également pour la modération du contenu.
Les sociétés de médias sociaux devraient également considérer qu'une meilleure approche peut ne pas utiliser un grand modèle multilingue, mais plusieurs modèles plus petits plus adaptés à des langues spécifiques et aux familles de langues. Le modèle Afrolm de Masakhane, par exemple, est formé sur 23 langues africaines différentes et est capable de surperformer Modèles multilingues plus grands dans ces langues. Communautés de recherche tous sur le monde travaillent dur pour déterminer quels types de modèles de langue fonctionnent le mieux pour leur propre langue. Les entreprises de médias sociaux devraient s'appuyer non seulement sur leur travail technique, mais sur leur expertise dans le contexte linguistique local.
En tant que solution, les modèles de langage multilingue courent le risque d'être un pansement de taille «le reste du monde» à un problème dynamique. En offrant plus de transparence et de responsabilité, de prioriser les performances linguistiques individuelles sur l'évolutivité et de consulter les communautés linguistiques, les entreprises peuvent commencer à démanteler cette approche.
Correction 5/30/23 3: 30pt ET: Le modèle Afrolm est de Masakhane. Une version précédente de l'article indiquait qu'elle provenait de Lelapa.