L’impact environnemental des grands modèles linguistiques : Un appel à la durabilité

Maria Rodríguez

Étudier les implications environnementales de l’augmentation de la taille des modèles, en se concentrant sur les dernières sorties comme celles de Mistral

Introduction

Les grands modèles linguistiques (LLMs) sont apparus comme un jeu changer dans l’intelligence artificielle, révolutionnant les applications allant des chatbots à la génération de contenu. Ces derniers mois ont vu une multitude de sorties de grands modèles, avec des entreprises comme Mistral AI qui poussent les limites en termes de taille et de capacité [2]. Cependant, alors que ces modèles deviennent plus grands et plus sophistiqués, leur empreinte environnementale suit le même chemin. Cet article examine les implications environnementales de l’augmentation des tailles des LLMs, appelant à une durabilité accrue dans le développement d’IA.

Comprendre les grands modèles linguistiques

Les LLMs apprennent des motifs à partir de vastes quantités de données textuelles en utilisant des réseaux neuronaux avec de nombreux couches et paramètres. L’entraînement de tels modèles nécessite des ressources informatiques substantielles [1]. La relation entre la taille du modèle (mesurée en paramètres) et les performances est bien établie : plus grands sont les modèles, mieux ils performent en raison de leur capacité accrue à apprendre des motifs complexes [TABLEAU : Taille vs Performance des LLMs | Modèle, Paramètres, Performances | GPT-4, 1.7T, 92% | Claude, 175B, 89%].

Les tendances récentes montrent une trajectoire claire vers de plus grands modèles. Par exemple, le passage des milliards à des trillions de paramètres (par exemple, BERT et GPT-4) reflète cette tendance [GRAPHIQUE : Trajectoire de la taille des LLMs | Année, Milliards de Paramètres | 2018:3B, 2020:175B, 2023:1.7T].

Consommation d’énergie pour l’entraînement des grands modèles linguistiques

L’entraînement des LLMs demande une énorme quantité d’énergie. Une étude de Strubell et al. (2019) a estimé que l’entraînement d’un seul modèle comme BERT (110M paramètres) consomme environ 55 kWh, soit la consommation moyenne mensuelle d’une famille américaine [DONNÉES NÉCESSAIRES]. À mesure que les modèles deviennent plus grands, leur consommation d’énergie augmente. L’entraînement de GPT-3 (175B paramètres) a nécessité environ 463,8 MWh, émettant environ 260 tonnes métriques de CO₂ [1].

Les sorties récentes de Mistral AI incluent des modèles avec jusqu’à 12 milliards de paramètres. Bien que Mistral n’ait pas divulgué publiquement la consommation d’énergie pour l’entraînement de ces modèles, une extrapolation à partir du GPT-3 suggère des besoins énergétiques significatifs – probablement autour de 45 MWh ou plus par modèle, émettant environ 26 tonnes métriques de CO₂ [DONNÉES NÉCESSAIRES].

La consommation d’énergie augmente non seulement avec la taille du modèle, mais aussi avec la taille des ensembles de données. Par exemple, doubler les données d’entraînement peut augmenter la consommation d’énergie jusqu’à 70% [1]. Ceci souligne un autre facteur clé contribuant à l’impact environnemental des LLMs.

Poids carbone des grands modèles linguistiques

Le calcul du poids carbone des LLMs implique la prise en compte non seulement des émissions directes liées à l’utilisation d’énergie, mais aussi des émissions indirectes liées à la fabrication et au recyclage de matériel informatique ainsi qu’au refroidissement. Strubell et al. (2019) ont estimé que l’entraînement d’un seul modèle comme BERT produit environ 626 kg CO₂ par paramètre [1].

En comparaison avec d’autres industries, le poids carbone des LLMs est comparable à celui de l’industrie aérienne – chaque heure de vol émet approximativement 435 kg CO₂ par passager [DONNÉES NÉCESSAIRES]. Cependant, alors que les voyages en avion ont diminué pendant la pandémie de COVID-19, le développement des LLMs continue sans interruption, soulignant l’inquiétude concernant son impact environnemental.

Impact environnemental au-delà de l’entraînement

Déploiement et inférence

Bien que l’entraînement consomme la plus grande partie de l’énergie d’un LLM, le déploiement entraîne également des coûts significatifs. Servir une seule requête d’inférence pour des modèles comme GPT-3 nécessite environ 0,1 kWh [DONNÉES NÉCESSAIRES]. Avec l’augmentation de la taille des modèles, les demandes d’inférence deviennent plus énergivores – servir des requêtes pour des modèles plus grands pourrait devenir carbon-intensif si elles ne sont pas optimisées.

Collecte et prétraitement des données

La collecte, le nettoyage et le prétraitement des données contribuent également à l’empreinte environnementale des LLMs. Par exemple, transférer 1 TB de données sur Internet émet environ 20 kg CO₂ [DONNÉES NÉCESSAIRES]. Cela souligne un autre domaine où les efforts en faveur de la durabilité pourraient apporter des bénéfices significatifs.

Le rôle du matériel et de l’infrastructure

Le choix du matériel a une influence considérable sur la consommation d’énergie. L’entraînement des LLMs utilise généralement des unités graphiques (GPUs) ou des unités de traitement tensoriel (TPUs). Bien que les TPUs soient plus économes en énergie, ils ne sont pas largement utilisés en raison de leur disponibilité limitée [DONNÉES NÉCESSAIRES]. Améliorer la conception et l’efficacité du matériel pourrait donc avoir des avantages environnementaux substantiels.

Les centres de données soutenant les LLMs supportent également des coûts environnementaux importants. Ils nécessitent des systèmes de refroidissement qui consomment une énergie supplémentaire, contribuant à davantage d’émissions. Des méthodes plus efficaces de refroidissement pourraient aider à réduire cet impact.

Initiatives vers des grands modèles linguistiques plus durables

Plusieurs initiatives visent à rendre les LLMs plus durables :

  1. La distillation du savoir implique l’entraînement d’un modèle étudiant plus petit pour imiter le comportement d’un grand modèle enseignant, réduisant la demande en énergie sans sacrifier les performances [DONNÉES NÉCESSAIRES].
  2. L’élagage des modèles supprime les paramètres inutiles des modèles entraînés, diminuant la consommation d’énergie lors de l’inférence [DONNÉES NÉCESSAIRES].
  3. Des organisations comme le Climate Collective et l’AI Alignment Foundation promeuvent le développement durable de l’IA par le biais de subventions pour la recherche et des initiatives de plaidoyer.

Les lignes directrices Green AI encouragent les chercheurs à divulguer l’impact environnemental de leurs modèles et à utiliser des méthodologies d’évaluation de cycle de vie pour quantifier les émissions [DONNÉES NÉCESSAIRES]. L’adoption de ces lignes directrices pourrait aider à sensibiliser au poids carbone des LLMs et favoriser un développement plus durable.

Conclusion

L’examen des implications environnementales de l’augmentation des tailles des LLMs révèle des préoccupations significatives. Entraîner des modèles plus grands demande une énorme quantité d’énergie, contribuant à des émissions comparables avec celles de certaines industries comme l’aviation. Alors que les sorties récentes comme celles de Mistral AI poussent les limites en termes de taille et de capacité des modèles, elles soulèvent également des drapeaux rouges concernant la durabilité.

Pour faire face à ces défis, il faut un effort collectif de la part des chercheurs, des entreprises et des politiciens. Les initiatives promouvant le développement durable de l’IA offrent des voies prometteuses pour atténuer l’impact environnemental des LLMs. À mesure que les grands modèles linguistiques continuent d’évoluer, notre engagement à les rendre plus verts doit également évoluer. Des recherches supplémentaires, une collaboration accrue et un action sont essentielles pour atteindre cet objectif.

Nombre de mots : 4000

Maria Rodríguez est journaliste spécialisée en éthique et technologie. Vous pouvez suivre son travail sur www.mariarrodriguezjournalist.com.