The Race to Translate Animal Sounds Into Human Language
En 2025, nous verra l’IA et l’apprentissage automatique mis à profit pour réaliser de réels progrès dans la compréhension de la communication animale, répondant ainsi à une question qui a intrigué les humains depuis toujours : « Que se disent les animaux ? Le récent Prix Coller-Dolittleoffrant des prix en espèces allant jusqu'à un demi-million de dollars aux scientifiques qui « déchiffreront le code », est une indication d'une confiance optimiste dans le fait que les récents développements technologiques en matière d'apprentissage automatique et de grands modèles de langage (LLM) placent cet objectif à notre portée.
De nombreux groupes de recherche travaillent depuis des années sur des algorithmes permettant de donner un sens aux sons d'animaux. Le projet Ceti, par exemple, a décodé les trains clics des cachalots et les chants des baleines à bosse. Ces outils modernes d’apprentissage automatique nécessitent des quantités extrêmement importantes de données, et jusqu’à présent, de telles quantités de données de haute qualité et bien annotées faisaient défaut.
Considérez les LLM tels que ChatGPT qui disposent de données de formation comprenant l'intégralité du texte disponible sur Internet. De telles informations sur la communication animale n'étaient pas accessibles dans le passé. Ce n’est pas seulement que les corpus de données humaines sont bien plus importants que le type de données auxquelles nous avons accès pour les animaux sauvages : plus de 500 Go de mots ont été utilisés pour entraîner GPT-3, contre un peu plus de 8 000 « codas ». » (ou vocalisations) pour l'analyse récente du Projet Ceti sur la communication des cachalots.
De plus, lorsque nous travaillons avec le langage humain, nous savoir ce qui est dit. Nous savons même ce qui constitue un « mot », ce qui constitue un énorme avantage par rapport à l’interprétation de la communication animale, où les scientifiques savent rarement si un hurlement de loup particulier, par exemple, signifie quelque chose de différent d’un autre hurlement de loup, ou même si les loups considèrent un hurlement comme un « mot ». en quelque sorte analogue à un « mot » dans le langage humain.
Néanmoins, 2025 apportera de nouvelles avancées, à la fois dans la quantité de données de communication animale disponibles aux scientifiques, ainsi que dans les types et la puissance des algorithmes d’IA pouvant être appliqués à ces données. L'enregistrement automatisé des sons d'animaux a été mis à la portée de tous les groupes de recherche scientifique, avec des appareils d'enregistrement à faible coût tels que AudioMoth qui connaissent une popularité explosante.
Des ensembles de données massifs sont désormais mis en ligne, car les enregistreurs peuvent être laissés sur le terrain, écoutant les cris des gibbons dans la jungle ou des oiseaux dans la forêt, 24 heures sur 24, 7 jours sur 7, sur de longues périodes. Il y a eu des moments où des ensembles de données aussi volumineux étaient impossibles à gérer manuellement. Désormais, de nouveaux algorithmes de détection automatique basés sur des réseaux neuronaux convolutifs peuvent parcourir des milliers d’heures d’enregistrement, sélectionnant les sons d’animaux et les regroupant en différents types, en fonction de leurs caractéristiques acoustiques naturelles.
Une fois que ces grands ensembles de données sur les animaux seront disponibles, de nouveaux algorithmes analytiques deviennent possibles, comme l’utilisation de réseaux neuronaux profonds pour trouver une structure cachée dans des séquences de vocalisations animales, qui pourrait être analogue à la structure significative du langage humain.
Cependant, la question fondamentale qui reste floue est la suivante : qu’espérons-nous faire exactement avec ces sons d’animaux ? Certaines organisations, comme Interspecies.io, ont clairement fixé son objectif comme suit : « transduire les signaux d’une espèce en signaux cohérents pour une autre ». En d'autres termes, à traduire communication animale dans le langage humain. Pourtant, la plupart des scientifiques s’accordent sur le fait que les animaux non humains ne possèdent pas de langage propre – du moins pas de la même manière que nous, les humains, avons un langage.
Le prix Coller Dolittle est un peu plus sophistiqué, cherchant un moyen « de communiquer avec ou de déchiffrer la communication d'un organisme ». Le déchiffrement est un objectif légèrement moins ambitieux que la traduction, compte tenu de la possibilité que les animaux n’aient pas, en fait, de langage traduisible. Aujourd’hui, nous ne savons pas exactement quelle quantité d’informations, ou combien peu, les animaux transmettent entre eux. En 2025, l’humanité aura le potentiel de dépasser notre compréhension non seulement de ce que disent les animaux, mais aussi de ce qu’ils se disent exactement.