Here’s Proof You Can Train an AI Model Without Slurping Copyrighted Content
En 2023, Openai a déclaré au Parlement britannique que c'était «impossible«Pour former des modèles d'IA principaux sans utiliser de matériel protégé par le droit d'auteur. C'est une position populaire dans le monde de l'IA, où Openai et d'autres joueurs de premier plan ont utilisé des matériaux en ligne pour former les modèles alimentant les chatbots et les générateurs d'images, déclenchant une vague de poursuites alléguant la violation du droit d'auteur.
Mercredi, deux annonces montrent que les modèles de grandes langues peuvent en fait être formés sans l'utilisation sans autorisation du matériel protégé par le droit d'auteur.
Un groupe de chercheurs soutenus par le gouvernement français a publié ce qui est considéré comme le plus grand ensemble de données de formation en IA composé entièrement de texte qui se trouve dans le domaine public. Et l'organisme à but non lucratif à forte formation a annoncé qu'il avait a décerné sa première certification Pour un grand modèle de langue construit sans violation du droit d'auteur, montrant que la technologie comme celle derrière Chatgpt peut être construite d'une manière différente de la norme controversée de l'industrie de l'IA.
«Il n'y a aucune raison fondamentale pour laquelle quelqu'un n'a pas pu entraîner un LLM équitablement», explique Ed Newton-Rex, PDG de Fairly Formed. Il a fondé l'organisme à but non lucratif en janvier 2024 après avoir quitté son rôle de direction dans la stabilité de la stabilité de la génération d'image, car il n'était pas d'accord avec sa politique de grattage du contenu sans autorisation.
Feely Trewated offre une certification aux entreprises désireuses de prouver qu'elles ont formé leurs modèles d'IA sur les données qu'ils possèdent, ont autorisé ou qui se trouve dans le domaine public. Lorsque l'association à but non lucratif a été lancée, certains critiques ont souligné qu'il n'avait pas encore identifié un modèle de langue large qui répondait à ces exigences.
Aujourd'hui, assez formé a annoncé avoir certifié son premier modèle de grande langue. Il s'appelle KL3M et a été développé par la startup de conseil en technologie juridique basée à Chicago, Startup 273 Ventures, en utilisant un ensemble de données de formation organisé de documents juridiques, financiers et réglementaires.
Le cofondateur de l'entreprise, Jillian Bommarito, a déclaré que la décision de former KL3M de cette manière provenait des clients «opposés au risque» de l'entreprise comme les cabinets d'avocats. «Ils sont préoccupés par la provenance et ils doivent savoir que la production n'est pas basée sur des données contaminées», dit-elle. «Nous ne comptons pas sur une utilisation équitable.» Les clients étaient intéressés à utiliser l'IA génératrice pour des tâches telles que le résumé des documents juridiques et la rédaction de contrats, mais ne voulaient pas être entraînés dans des poursuites sur la propriété intellectuelle en tant qu'Openai, une IA de stabilité et d'autres.
Bommarito dit que 273 Ventures n'avaient pas travaillé sur un modèle grand langage auparavant mais ont décidé d'en former une comme expérience. «Notre test pour voir si cela était même possible», dit-elle. La société a créé son propre ensemble de données de formation, le Kelvin Legal Datapack, qui comprend des milliers de documents juridiques examinés pour se conformer à la loi sur le droit d'auteur.
Bien que l'ensemble de données soit minuscule (environ 350 milliards de jetons, ou unités de données) par rapport à ceux compilés par OpenAI et d'autres qui ont gratté Internet en masse, Bommarito dit que le modèle KL3M a été bien meilleur que prévu, ce qu'elle attribue à la façon dont la prudence la Les données avaient été vérifiées à l'avance. «Avoir des données propres et de haute qualité peut signifier que vous n'avez pas à rendre le modèle si grand», dit-elle. La conservation d'un ensemble de données peut aider à rendre un modèle d'IA fini spécialisé pour la tâche pour laquelle elle est conçue. 273 Ventures propose désormais des places sur une liste d'attente aux clients qui souhaitent acheter un accès à ces données.
Nettoyage
Les entreprises qui cherchent à imiter KL3M pourraient avoir plus d'aide à l'avenir sous la forme d'ensembles de données sans infraction librement disponibles. Mercredi, les chercheurs ont publié ce qu'ils prétendent être le plus grand ensemble de données IA disponible pour des modèles de langues composés uniquement de contenu du domaine public. Common Corpus, comme on l'appelle, est une collection de texte à peu près de la même taille que les données utilisées pour former le modèle de génération de texte GPT-3 d'OpenAI et a été publié sur la plate-forme d'IA open source.
L'ensemble de données a été construit à partir de sources comme les journaux du domaine public numérisés par la Bibliothèque américaine du Congrès et la National Library of France. Pierre-Carl Langlais, coordinateur du projet pour Common Corpus, l'appelle un «corpus assez grand pour former un LLM à la pointe de la technologie». Dans le jargon de Big IA, l'ensemble de données contient 500 milliards de jetons. On pense que le modèle le plus compétent d'Openai a été formé sur plusieurs billions.