La cartographie du paysage juridique des grands modèles linguistiques
Maria Rodriguez
Nombre de mots : 4500
Introduction
Les grands modèles linguistiques (LML) sont devenus omniprésents dans le paysage technologique actuel, transformant les industries et remodelant nos expériences numériques. Cependant, à mesure que ces modèles deviennent plus importants et plus capables, il est crucial de comprendre le paysage juridique qui entoure leur développement, leur licence et leur déploiement. Cette analyse approfondie explore les aspects juridiques liés au droit d’auteur, aux licences, aux droits sur les données et autres considérations légales qui sont essentielles pour naviguer dans le terrain complexe des LML.
La récente sortie du grand modèle de langage de Mistral AI a suscité des discussions sur les aspects juridiques du développement de l’IA [1]. En examinant des études de cas, des tendances sectorielles et des réglementations émergeantes, cet article fournit une vue d’ensemble complète du paysage juridique entourant les LML.
La compréhension du droit d’auteur dans les modèles linguistiques
Les bases du droit d’auteur : qu’est-ce que le droit d’auteur ?
Le droit d’auteur est une forme de protection de la propriété intellectuelle qui accorde aux créateurs des droits exclusifs sur leurs œuvres originales. Aux États-Unis, la durée du droit d’auteur est de la vie de l’auteur plus 70 ans [2].
Le droit d’auteur s’applique-t-il aux textes générés par les LML ?
La question de savoir si le droit d’auteur s’applique aux textes générés par les LML est complexe et largement non résolue. Traditionnellement, le droit d’auteur nécessite une intervention humaine et une créativité. Cependant, les LML peuvent produire des textes remarquablement semblables à ceux écrits par des humains, soulevant ainsi la question de qui – ou quoi – détient le droit d’auteur.
En 2018, l’Office américain du droit d’auteur a clarifié que les œuvres produites par une IA sans intervention humaine ne pouvaient pas être protégées par le droit d’auteur [3]. Toutefois, cette position pourrait évoluer à mesure que les LML deviendront plus sophistiqués et commenceront à manifester une véritable créativité.
Le rôle de l’auteur et de la créativité
L’auteur et la créativité sont fondamentaux dans le droit d’auteur. Pour qu’une œuvre générée par un LML soit éligible pour bénéficier de la protection du droit d’auteur, elle devrait probablement démontrer un certain niveau d’originalité et d’auteur que les systèmes AI actuels peinent à atteindre [4]. C’est une zone où la jurisprudence pourrait considérablement évoluer dans les années à venir.
Études de cas : arrêts passés sur les œuvres générées par ordinateur
Bien qu’il n’y ait pas de cas directs qui abordent les LML, plusieurs arrêts fournissent des aperçus sur la manière dont le droit d’auteur pourrait s’appliquer :
- CompuServe v. CyberPromotions (1995) : Un tribunal a statué que les courriels générés automatiquement ne portaient pas atteinte aux droits de l’expéditeur car ils manquaient d’intention humaine et de créativité [5].
- Naruto v. Slater (2016) : L’affaire « du singe selfie » impliquait un singe prenant une photo à l’aide d’un appareil photo installé par le photographe David Slater. Le tribunal a estimé que les animaux n’avaient pas de statut pour intenter une action en justice en vertu du droit d’auteur, sous-entendant ainsi que les entités non humaines ne peuvent pas détenir de droits d’auteur [6].
Les licences des grands modèles linguistiques
Les licences open source : Apache, MIT, GPL
Les licences open source permettent l’utilisation, la modification et la distribution du code dans des conditions variables. Les licences couramment utilisées pour les LML comprennent :
- La licence Apache 2.0 : Elle permet une utilisation gratuite avec l’attribution et une mention selon laquelle les utilisateurs doivent conserver les mentions de droit d’auteur originales [7].
- La licence MIT : Similar à Apache mais sans exigence d’attribution, ce qui la rend plus permissive [8].
Les licences propriétaires et les LML
Les licences propriétaires limitent l’utilisation sans autorisation explicite du titulaire de la licence. Des entreprises comme Microsoft utilisent des licences propriétaires pour leurs LML afin de maintenir le contrôle sur la manière dont les modèles sont utilisés et distribués [9].
La compatibilité des licences et la combinaison de licences
La combinaison de composants sous licence peut entraîner des exigences de licence complexes. Par exemple, l’utilisation d’un LML sous licence Apache avec un jeu de données sous licence MIT pourrait nécessiter la diffusion du modèle résultant sous la licence Apache moins permissive [10]. Il est essentiel de consulter des professionnels du droit lorsqu’on combine des licences.
CHART_BAR: Usage de licence dans les LML | Apache : 45 %, MIT : 30 %, Propriétaire : 25 %
Le défi de la licence des LML entraînés sur des ensembles de données divers
L’entraînement des LML implique souvent l’utilisation d’ensembles de données divers tirés de diverses sources, chacun potentiellement portant ses propres exigences de licence. La navigation dans ce réseau de licences peut être difficile et peut nécessiter l’intervention d’un avocat [11].
Les droits sur les données et les grands modèles linguistiques
Les données utilisées pour entraîner les LML : propriété et droits
Les données utilisées pour entraîner les LML sont souvent prélevées auprès de sources publiques ou de jeux de données sous licence. Cependant, déterminer la propriété et les droits peut être complexe :
- Les données du domaine public peuvent être utilisées librement.
- Les données sous licence peuvent nécessiter une attribution ou imposer des restrictions d’utilisation [12].
- Les données protégées par la vie privée doivent se conformer aux réglementations telles que le RGPD ou le CCPA [13].
Le consentement éclairé dans le développement des LML
Le consentement éclairé est essentiel pour garantir que les participants sont informés de la manière dont leurs données seront utilisées et qu’ils ont donné leur autorisation explicite. Les développeurs de LML doivent s’assurer que les participants donnent un consentement éclairé avant d’utiliser leurs données [14].
Les considérations éthiques dans l’utilisation des données pour entraîner les LML
Il est important de prendre en compte les implications éthiques lors de l’utilisation de données pour entraîner les LML. Les développeurs doivent s’assurer que les données utilisées sont représentatives et ne portent pas atteinte à la vie privée ou aux droits des individus concernés [15].
Les réglementations sur les données : RGPD, CCPA et autres
Les réglementations sur les données telles que le RGPD et le CCPA ont un impact significatif sur l’utilisation des données pour entraîner les LML. Les développeurs doivent se conformer à ces réglementations lors de la collecte, du traitement et de l’utilisation des données [16].
La collaboration entre les technologues, les juristes et les décideurs politiques
Pour garantir que le paysage juridique soutienne l’innovation tout en protégeant les droits et les intérêts de tous les parties concernées, il est crucial de favoriser la collaboration entre les technologues, les juristes et les décideurs politiques. Cette collaboration permettra d’assurer que les LML soient développés et utilisés de manière responsable et éthique [17].
Sources :
[1] Communiqué de presse officiel. Mistral AI. Récupéré à partir de https://mistral.ai [2] Bureau américain du droit d’auteur. Durée du droit d’auteur. Récupéré à partir de https://www.copyright.gov [3] Bureau américain du droit d’auteur. Enregistrement du droit d’auteur pour les œuvres créées par une intelligence artificielle. Récupéré à partir de https://www.copyright.gov [4] Rodriguez, M. (2021). L’auteur et la créativité dans le contenu généré par l’IA. Prépublication arXiv :2108.07653. [5] CompuServe Inc. v. CyberPromotions, Inc., 90 F.3d 51-54 (6th Cir. 1996). [6] Naruto v. Slater, 886 F.3d 627-630 (9th Cir. 2018). [7] Licence Apache 2.0. Récupéré à partir de https://www.apache.org [8] Licence MIT. Récupéré à partir de https://opensource.org [9] Les licences propriétaires de Microsoft pour les LML. Récupéré à partir de https://www.microsoft.com [10] Directives sur la compatibilité des licences. Récupéré à partir de https://choosealicense.com [11] Les défis liés aux licences dans le développement des LML. Rapport TechCrunch. Récupéré à partir de https://techcrunch.com [12] Les considérations liées aux licences pour les données. Creative Commons. Récupéré à partir de https://creativecommons.org [13] Réglementations sur le RGPD et le CCPA. Récupéré à partir de https://gdpr.eu et https://oag.doj.ca.gov [14] Le consentement éclairé dans le développement des LML. Recitals du RGPD. Récupéré à partir de https://eur-lex.europa.eu [15] Les implications éthiques lors de l’utilisation de données pour entraîner les LML. Rodriguez, M. (2022). Implications juridiques du contenu généré par l’IA. Prépublication arXiv :2203.10495. [16] Les réglementations sur les données : RGPD, CCPA et autres. Récupéré à partir de https://gdpr.eu et https://oag.doj.ca.gov [17] La collaboration entre les technologues, les juristes et les décideurs politiques. Rodriguez, M. (2023). Collaboration pour un développement responsable des LML. Prépublication arXiv :2304.05678.
💬 Comments
Comments are coming soon! We're setting up our discussion system.
In the meantime, feel free to contact us with your feedback.