The Words That Give Away Generative AI Text
Jusqu'à présent, même Les sociétés d'IA ont eu du mal à proposer des outils qui peuvent détecter de manière fiable lorsqu'un morceau d'écriture était généré à l'aide d'un grand modèle de langue. Maintenant, un groupe de chercheurs a établi une nouvelle méthode pour estimer l'utilisation de la LLM à travers un large ensemble d'écrits scientifiques en mesurant les “mots en excès” qui ont commencé à apparaître beaucoup plus fréquemment au cours de l'ère LLM (c.-à-d. 2023 et 2024). Les résultats “suggèrent qu'au moins 10% des résumés de 2024 ont été traités avec des LLM”, selon les chercheurs.
Dans Un journal préalable publié plus tôt ce mois-ciquatre chercheurs de l'Université allemande de Tübingen et de l'Université du Nord-Ouest ont déclaré qu'ils avaient été inspirés par des études qui mesuraient l'impact de la pandémie Covid-19 En regardant l'excès de décès par rapport au passé récent. En jetant un regard similaire à “l'utilisation excessive des mots” après les outils d'écriture LLM est devenu largement disponible à la fin de 2022les chercheurs ont constaté que “l'apparition de LLMS a conduit à une augmentation brutale de la fréquence de certains mots de style” qui était “sans précédent à la fois dans la qualité et la quantité”.
Plonger
Pour mesurer ces changements de vocabulaire, les chercheurs ont analysé 14 millions de résumés d'articles publiés sur Pubment Entre 2010 et 2024, le suivi de la fréquence relative de chaque mot tel qu'il apparaît chaque année. Ils ont ensuite comparé la fréquence attendue de ces mots (sur la base de la ligne de tendance avant 2023) à la fréquence réelle de ces mots dans les résumés de 2023 et 2024, lorsque les LLM étaient largement utilisées.
Les résultats ont trouvé un certain nombre de mots extrêmement rares dans ces résumés scientifiques avant 2023 qui ont soudainement augmenté en popularité après l'introduction du LLMS. Le mot «explore», par exemple, apparaît dans 25 fois plus de 2024 articles que la tendance pré-llm l'attendrait; Des mots comme «présentation» et «soulignement» ont également augmenté de l'utilisation de neuf fois. D'autres mots précédemment communs sont devenus notamment plus courants dans les résumés post-LLM: la fréquence du “potentiel” a augmenté de 4,1 points de pourcentage, des “résultats” de 2,7 points de pourcentage et “crucial” de 2,6 points de pourcentage, par exemple.
Ces types de changements dans l'utilisation des mots pourraient se produire indépendamment de l'utilisation de LLM, bien sûr – l'évolution naturelle du langage signifie que les mots entrent et hors de style. Cependant, les chercheurs ont constaté que, à l'ère pré-llm, des augmentations massives et soudaines d'une année à l'autre n'étaient observées que pour les mots liés aux principaux événements mondiaux de la santé: “Ebola” en 2015; “Zika” en 2017; et des mots comme “Coronavirus”, “Lockdown” et “Pandemic” dans la période 2020 à 2022.
Au cours de la période post-llm, cependant, les chercheurs ont trouvé des centaines de mots avec une augmentation soudaine et prononcée de l'utilisation scientifique qui n'avait aucun lien commun avec les événements mondiaux. En fait, alors que l'excès de mots pendant la pandémie covide étaient des noms massivement, les chercheurs ont constaté que les mots avec une bosse de fréquence post-llm étaient extrêmement “des mots de style” comme les verbes, les adjectifs et les adverbes (un petit échantillonnage: “En plus, en plus, en plus , complet, crucial, améliorant, exposé, des idées, notamment, en particulier à l'intérieur de “).
Ce n'est pas une découverte complètement nouvelle – la prévalence accrue de “plonger” dans les articles scientifiques a été largement noté dans le passé récentpar exemple. Mais des études antérieures reposaient généralement sur des comparaisons avec des échantillons d'écriture humaine “au sol” ou des listes de marqueurs LLM prédéfinis obtenus de l'extérieur de l'étude. Ici, l'ensemble d'avant 2023 des résumés agit comme son propre groupe de contrôle efficace pour montrer comment le choix du vocabulaire a changé globalement dans l'ère post-llm.
Une interaction complexe
En mettant en évidence des centaines de «mots marqueurs» dits qui sont devenus beaucoup plus courants à l'ère post-llm, les signes révélateurs de l'utilisation de LLM peuvent parfois être faciles à choisir. Prenez cet exemple de ligne abstraite appelée par les chercheurs, avec les mots marqueurs mis en évidence: “Un complet Entraînement du Interaction complexe entre […] et […] est pivot pour des stratégies thérapeutiques efficaces. “
Après avoir effectué des mesures statistiques de l'apparence du mot marqueur dans les articles individuels, les chercheurs estiment qu'au moins 10% des articles post-2022 du corpus PubMed ont été écrits avec au moins une assistance LLM. Le nombre pourrait être encore plus élevé, selon les chercheurs, car leur ensemble pourrait manquer des résumés assistés par LLM qui n'incluent aucun des mots marqueurs qu'ils ont identifiés.