OpenAI’s Transcription Tool Hallucinates. Hospitals Are Using It Anyway

Samedi, un Enquête d'Associated Press révélé que l'outil de transcription Whisper d'OpenAI crée du texte fabriqué dans des contextes médicaux et commerciaux malgré les avertissements contre une telle utilisation. L'AP a interrogé plus de 12 ingénieurs logiciels, développeurs et chercheurs qui ont découvert que le modèle inventait régulièrement des textes que les locuteurs n'ont jamais prononcés, un phénomène souvent appelé «confabulation» ou « hallucination » dans le domaine de l’IA.

Sur son libérer en 2022, OpenAI a affirmé que Whisper approchait de la « robustesse au niveau humain » en termes de précision de la transcription audio. Cependant, un chercheur de l'Université du Michigan a déclaré à l'AP que Whisper avait créé de faux textes dans 80 % des transcriptions de réunions publiques examinées. Un autre développeur, anonyme dans le rapport de l'AP, a affirmé avoir trouvé du contenu inventé dans presque toutes ses 26 000 transcriptions de tests.

Les fabrications présentent des risques particuliers dans les établissements de soins de santé. Malgré les avertissements d'OpenAI contre l'utilisation de Whisper pour “domaines à haut risque“, plus de 30 000 professionnels de la santé utilisent désormais des outils basés sur Whisper pour transcrire les visites des patients, selon le rapport de l'AP. La clinique Mankato du Minnesota et l'hôpital pour enfants de Los Angeles font partie des 40 systèmes de santé utilisant un service copilote d'IA alimenté par Whisper d'une société de technologie médicale. Nabla qui est affiné sur la terminologie médicale.

Nabla reconnaît que Whisper peut fabuler, mais il aurait également effacé les enregistrements audio originaux « pour des raisons de sécurité des données ». Cela pourrait entraîner des problèmes supplémentaires, puisque les médecins ne peuvent pas vérifier l’exactitude par rapport au matériel source. Et les patients sourds peuvent être fortement touchés par des transcriptions erronées, car ils n’auraient aucun moyen de savoir si l’audio des transcriptions médicales est exact ou non.

Les problèmes potentiels liés à Whisper s’étendent au-delà des soins de santé. Chercheurs de l’Université Cornell et de l’Université de Virginie étudié des milliers d'échantillons audio et a découvert que Whisper ajoutait un contenu violent inexistant et des commentaires racistes à un discours neutre. Ils ont constaté que 1 pour cent des échantillons comprenaient « des phrases ou des phrases hallucinées entières qui n’existaient sous aucune forme dans l’audio sous-jacent » et que 38 pour cent d’entre eux comprenaient « des préjudices explicites tels que perpétuer la violence, établir des associations inexactes ou impliquer une fausse autorité. .»

Dans un cas tiré de l’étude citée par AP, lorsqu’un orateur a décrit « deux autres filles et une dame », Whisper a ajouté un texte fictif spécifiant qu’elles « étaient noires ». Dans un autre, l’audio disait : « Lui, le garçon, allait, je ne suis pas sûr exactement, prendre le parapluie. » Whisper l'a transcrit ainsi : « Il a pris un gros morceau de croix, un tout petit morceau… Je suis sûr qu'il n'avait pas de couteau terroriste, alors il a tué un certain nombre de personnes. »

Un porte-parole d'OpenAI a déclaré à l'AP que la société appréciait les découvertes des chercheurs et qu'elle étudiait activement comment réduire les fabrications et intégrait les commentaires dans les mises à jour du modèle.

Pourquoi Whisper confabule

La clé de l'inadéquation de Whisper dans les domaines à haut risque vient de sa propension à parfois fabuler, ou à inventer de manière plausible, des résultats inexacts. Le rapport de l'AP indique : « Les chercheurs ne savent pas exactement pourquoi Whisper et les outils similaires hallucinent », mais ce n'est pas vrai. Nous savons exactement pourquoi Basé sur un transformateur Les modèles d'IA comme Whisper se comportent de cette façon.

Whisper est basé sur une technologie conçue pour prédire le prochain jeton le plus probable (morceau de données) qui devrait apparaître après une séquence de jetons fournie par un utilisateur. Dans le cas de ChatGPT, les jetons d'entrée se présentent sous la forme d'une invite texte. Dans le cas de Whisper, l’entrée est constituée de données audio tokenisées.

Le résultat de la transcription de Whisper est une prédiction de ce qui est le plus probable, et non de ce qui est le plus précis. La précision des sorties basées sur le transformateur est généralement proportionnelle à la présence de données précises et pertinentes dans l'ensemble de données d'entraînement, mais elle n'est jamais garantie. S'il arrive qu'il n'y ait pas suffisamment d'informations contextuelles dans son réseau neuronal pour que Whisper puisse faire une prédiction précise sur la façon de transcrire un segment audio particulier, le modèle s'appuiera sur ce qu'il « sait » sur les relations entre les sons et les mots qu'il a appris de ses données d'entraînement.