Harvard Is Releasing a Massive Free AI Training Dataset Funded by OpenAI and Microsoft
L'Université Harvard a annoncé Jeudi, il publie un ensemble de données de haute qualité de près d'un million de livres du domaine public qui pourraient être utilisés par n'importe qui pour former de grands modèles de langage et d'autres outils d'IA. L'ensemble de données a été créé par la nouvelle Institutional Data Initiative de Harvard, avec un financement de Microsoft et d'OpenAI. Il contient des livres numérisés dans le cadre du projet Google Books qui ne sont plus protégés par le droit d'auteur.
Environ cinq fois la taille du célèbre ensemble de données Books3 utilisé pour entraîner des modèles d'IA comme Meta's Llama, la base de données de l'Institutional Data Initiative couvre les genres, les décennies et les langues, avec des classiques de Shakespeare, Charles Dickens et Dante inclus aux côtés d'obscurs manuels de mathématiques tchèques. et dictionnaires de poche gallois. Greg Leppert, directeur exécutif de l'Institutional Data Initiative, affirme que le projet est une tentative de « uniformiser les règles du jeu » en donnant au grand public, y compris les petits acteurs de l'industrie de l'IA et les chercheurs individuels, un accès à des informations hautement raffinées et des référentiels de contenu organisés que seuls les géants de la technologie établis ont normalement les ressources nécessaires pour assembler. « Le projet a fait l'objet d'un examen rigoureux », dit-il.
Leppert estime que la nouvelle base de données du domaine public pourrait être utilisée conjointement avec d'autres documents sous licence pour créer des modèles d'intelligence artificielle. « J'y pense un peu comme si Linux est devenu un système d'exploitation fondamental pour une grande partie du monde », dit-il, soulignant que les entreprises devraient toujours utiliser des données de formation supplémentaires pour différencier leurs modèles de ceux de leurs concurrents.
Burton Davis, vice-président et conseiller juridique adjoint de Microsoft pour la propriété intellectuelle, a souligné que le soutien de l'entreprise au projet était conforme aux ses convictions plus larges sur la valeur de la création des « pools de données accessibles » que les startups d'IA peuvent utiliser et qui sont « gérés dans l'intérêt du public ». En d’autres termes, Microsoft n’envisage pas nécessairement d’échanger toutes les données de formation en IA utilisées dans ses propres modèles par des alternatives du domaine public comme les livres de la nouvelle base de données Harvard. «Nous utilisons des données accessibles au public pour former nos modèles», explique Davis.
Tom Rubin, responsable de la propriété intellectuelle et du contenu d'OpenAI, a décrit l'entreprise comme « ravie » de soutenir le projet dans un communiqué.
Alors que des dizaines de poursuites intentées pour l’utilisation de données protégées par le droit d’auteur pour entraîner l’IA se frayent un chemin devant les tribunaux, l’avenir de la manière dont les outils d’intelligence artificielle sont construits est en jeu. Si les entreprises d’IA obtiennent gain de cause, elles pourront continuer à exploiter Internet sans avoir besoin de conclure des accords de licence avec les détenteurs de droits d’auteur. Mais en cas de défaite, les sociétés d’IA pourraient être contraintes de revoir la manière dont leurs modèles sont créés. Une vague de projets comme la base de données de Harvard avance avec l’hypothèse que, quoi qu’il arrive, il y aura un appétit pour les ensembles de données du domaine public.
En plus de cette mine de livres, l'Institutional Data Initiative travaille également avec la Bibliothèque publique de Boston pour numériser des millions d'articles de différents journaux désormais dans le domaine public, et se dit ouverte à la formation de collaborations similaires à terme. La manière exacte dont l’ensemble de données sur les livres sera publié n’est pas réglée. L'Institutional Data Initiative a demandé à Google de travailler ensemble sur la distribution publique, mais les détails sont encore en cours de finalisation. Dans un communiqué, Kent Walker, président des affaires mondiales de Google, a déclaré que l'entreprise était « fière de soutenir » le projet.