Reduce AI Hallucinations With This Neat Software Trick

Pour commencer, tous les chiffons ne sont pas du même calibre. La précision du contenu dans la base de données personnalisée est essentielle pour les sorties solides, mais ce n'est pas la seule variable. «Ce n'est pas seulement la qualité du contenu lui-même», explique Joel Hron, un chef mondial de AI à Thomson Reuters. «C'est la qualité de la recherche et la récupération du bon contenu en fonction de la question.» La maîtrise de chaque étape du processus est essentielle car un faux pas peut rejeter complètement le modèle.

«Tout avocat qui a déjà essayé d'utiliser une recherche en langage naturel dans l'un des moteurs de recherche verra qu'il y a souvent des cas où la similitude sémantique vous mène à des matériaux complètement non pertinents», explique Daniel Ho, professeur de Stanford et boursier principal chez le Institut d'IA centré sur l'homme. Les recherches de Ho sur Outils juridiques de l'IA qui reposent sur le chiffon a trouvé un taux d'erreurs plus élevé dans les résultats que les sociétés qui construisent les modèles trouvés.

Ce qui nous amène à la question la plus épineuse de la discussion: comment définissez-vous les hallucinations dans une mise en œuvre de RAG? Est-ce seulement lorsque le chatbot génère une sortie sans citation et fait des informations? Est-ce aussi lorsque l'outil peut négliger les données pertinentes ou mal interpréter les aspects d'une citation?

Selon Lewis, les hallucinations d'un système de chiffon se résument si la sortie est cohérente avec ce qui est trouvé par le modèle lors de la récupération des données. Cependant, la recherche de Stanford sur les outils d'IA pour les avocats élargit un peu cette définition en examinant si la production est fondée sur les données fournies ainsi que si elle est factuelle – une barre élevée pour les professionnels du droit qui analysent souvent des cas complexes et naviguant des hiérarchies complexes de précédent.

Bien qu'un système de chiffon soit à l'écoute des problèmes juridiques soit clairement meilleur pour répondre aux questions sur le jugement de cas que le chatppt d'Openai ou les Gémeaux de Google, il peut toujours négliger les détails les plus fins et commettre des erreurs aléatoires. Tous les experts de l'IA avec qui j'ai parlé ont souligné le besoin continu d'interaction réfléchie et humaine tout au long du processus pour vérifier les citations et vérifier la précision globale des résultats.

Le droit est un domaine où il y a beaucoup d'activités autour des outils d'IA à base de chiffon, mais le potentiel du processus ne se limite pas à un seul travail en col blanc. «Prenez une profession ou une entreprise. Vous devez obtenir des réponses ancrées sur de vrais documents », explique Arredondo. «Donc, je pense que Rag deviendra l'aliment de base qui est utilisé dans essentiellement toutes les applications professionnelles, du moins à mi-parcours à mi-parcours.» Les dirigeants opposés au risque semblent enthousiasmés par la perspective d'utiliser des outils d'IA pour mieux comprendre leurs données propriétaires sans avoir à télécharger des informations sensibles sur un chatbot public standard.

Il est essentiel, cependant, que les utilisateurs comprennent les limites de ces outils et que les entreprises axées sur l'IA s'abstiennent de surpromettre la précision de leurs réponses. Quiconque utilise un outil d'IA devrait toujours éviter de faire confiance entièrement à la sortie, et il doit aborder ses réponses avec un sceptique sceptique même si la réponse est améliorée par le chiffon.

«Les hallucinations sont là pour rester», explique Ho. «Nous n'avons pas encore de moyens prêts à éliminer vraiment les hallucinations.» Même lorsque le chiffon réduit la prévalence des erreurs, le jugement humain règne paramount. Et ce n'est pas un mensonge.