The Generative AI Battle Has a Fundamental Flaw

La semaine dernière, le Les auteurs Guild ont envoyé une lettre ouverte aux dirigeants de certaines des plus grandes sociétés génératrices d'IA au monde. Signé par plus de 9 000 écrivains, dont des auteurs éminents comme George Saunders et Margaret Atwood, il a demandé à Alphabet, Openai, Meta et Microsoft «d'obtenir le consentement, le crédit et compenser assez les écrivains pour l'utilisation du matériel protégé par le droit d'auteur en formation AI». Le plaidoyer n'est que le dernier d'une série d'efforts de créatifs pour garantir le crédit et la rémunération du rôle qu'ils affirment que leur travail a joué dans la formation des systèmes d'IA génératifs.

Les données de formation utilisées pour les modèles de grande langue, ou LLMS et d'autres systèmes d'IA génératifs ont été maintenus clandestins. Mais plus ces systèmes sont utilisés, plus les écrivains et les artistes visuels remarquent des similitudes entre leur travail et la production de ces systèmes. Beaucoup ont appelé les entreprises génératrices d'IA à révéler leurs sources de données et, comme la Guilde des auteurs – pour compenser ceux dont les travaux ont été utilisés. Certains des plaidoyers sont des lettres ouvertes et des publications sur les réseaux sociaux, mais un nombre croissant sont des poursuites.

C'est ici que la loi sur le droit d'auteur joue un rôle majeur. Pourtant, c'est un outil qui est mal équipé pour lutter contre toute l'étendue des angoisses des artistes, qu'il s'agisse de soucis de longue date de l'emploi et de la rémunération dans un monde bouleversé par Internet, ou de nouvelles préoccupations concernant la confidentialité et les caractéristiques personnelles et non couvents. Pour beaucoup d'entre eux, le droit d'auteur ne peut offrir que des réponses limitées. «Il y a beaucoup de questions que l'IA crée pour presque tous les aspects de la société», explique Mike Masnick, rédacteur en chef du blog technologique Technologie. “Mais cette concentration étroite sur le droit d'auteur comme l'outil pour y faire face, je pense, est vraiment déplacé.”

Le plus de premier plan Parmi ces récents poursuites, sont survenus plus tôt ce mois-ci lorsque la comédienne Sarah Silverman, aux côtés de quatre autres auteurs dans deux documents distincts, a poursuivi Openai, affirmant que la société a formé son système de chatppt très populaire sur leurs travaux sans autorisation. Les deux recours collectifs ont été déposés par le cabinet d'avocats Joseph Saveri, spécialisé dans les litiges antitrust. L'entreprise représente également les artistes poursuite Stabilité AI, MidJourney et Deviantart pour des raisons similaires. La semaine dernière, lors d'une audience dans cette affaire, le juge du tribunal de district américain William Orrick a indiqué qu'il pourrait rejeter La majeure partie du costume, déclarant que, comme ces systèmes avaient été formés sur «cinq milliards d'images compressées», les artistes impliqués devaient «fournir plus de faits» à leurs réclamations de violation du droit d'auteur.

L'affaire Silverman allègue, entre autres, qu'Openai a peut-être gratté les mémoires du comédien, Couvreurvia des «bibliothèques d'ombres» qui hébergent des oreilles de livres électroniques piratés et des articles académiques. Si le tribunal se trouve en faveur de Silverman et de ses collègues plaignants, la décision pourrait établir un nouveau précédent sur la façon dont la loi considère les ensembles de données utilisés pour former des modèles d'IA, explique Matthew Sag, professeur de droit à l'Université Emory. Plus précisément, il pourrait aider à déterminer si les entreprises peuvent réclamer une utilisation équitable lorsque leurs modèles grattent le matériel protégé par le droit d'auteur. “Je ne vais pas appeler le résultat sur cette question”, explique Sag à propos du procès de Silverman. “Mais cela semble être le plus convaincant de tous les cas qui ont été déposés.” OpenAI n'a pas répondu aux demandes de commentaires.

Au cœur de ces cas, explique SAG, est la même théorie générale: que les œuvres protégées des auteurs «copiées» des LLMS. Pourtant, comme SAG l'a expliqué en témoignage Sous-comité du Sénat américain En entendant plus tôt ce mois-ci, des modèles comme GPT-3.5 et GPT-4 ne «copient» pas le travail au sens traditionnel. Digérer Ce serait un verbe plus approprié – les données de formation digératives pour exercer leur fonction: prédire le meilleur mot suivant dans une séquence. “Plutôt que de penser à un LLM comme copie les données de formation comme un scribe dans un monastère”, a déclaré Sag dans son témoignage du Sénat, “il est plus logique de le considérer comme un apprentissage des données de formation comme un étudiant.”