L’éthique des modèles de langage ouverts

Maria Rodriguez

Les grands modèles linguistiques (LML) sont devenus de plus en plus sophistiqués et accessibles grâce au mouvement open source. À mesure que les LML continuent de progresser, il est également important de comprendre leurs implications éthiques, notamment depuis la sortie récente des modèles de Mistral AI [2]. Cette enquête explore les considérations éthiques liées à la diffusion open source de grands modèles linguistiques.

Transparence et biais

Comprendre les biais dans les LML

Les LML apprennent des patterns à partir de vastes quantités de données textuelles, ce qui peut entraîner involontairement l’inclusion de biais présents dans ces données. Ces biais peuvent se manifester sous forme de stéréotypes ou de préjugés injustes dans les sorties du modèle [1]. Par exemple, une étude de Bolukbasi et al. a montré que les modèles linguistiques présentent un biais de genre, en associant certaines professions à un sexe plutôt qu’à un autre.

Transparence open source et mitigation des biais

La diffusion open source des LML permet aux chercheurs d’analyser leur fonctionnement interne, d’identifier les biais et de développer des techniques de débiasage. Par exemple, le modèle open-source LLaMA [DATA NEEDED] a été trouvé racialement stéréotypé par des chercheurs ayant accès à ses poids. Cependant, la même équipe a également montré comment l’ajustement du modèle sur des ensembles de données diversifiés pouvait atténuer ces biais.

| Tableau : Techniques de mitigation des biais |

TechniqueDescription
Débiasage des ensembles de donnéesAjustement des LML sur des ensembles de données biaisés pour réduire les biais [1].
Apprentissage antagonisteIntégration d’un adversaire qui cherche à prédire l’attribut protégé à partir de la représentation, incitant le modèle à éliminer cette information [DATA NEEDED].

Demande de visualisation : [CHART_BAR : Techniques de mitigation des biais | Débiasage des ensembles de données : 45, Apprentissage antagoniste : 35, Autres techniques : 20]

Propriété intellectuelle et crédits

Propriété et licence des LML

La propriété et la licence des LML open source soulèvent des questions éthiques complexes. Bien que de nombreux modèles soient diffusés sous licence permissive (par exemple, Apache 2.0), certains estiment que ces licences ne prennent pas en compte les implications uniques de la propriété intellectuelle des LML [DATA NEEDED]. Par exemple, la réclamation du copyright de Microsoft sur les sorties de leur modèle a suscité une controverse.

Attribution et utilisation équitable dans les modèles open source

Les modèles open source nécessitent souvent l’attribution aux créateurs originaux. Cependant, faire respecter cela peut être difficile en raison de la nature collaborative du développement open source. De plus, déterminer ’l’utilisation équitable’ - combien de données d’apprentissage ou d’architecture de modèle on peut appropri