L’économie des modèles AI : une analyse coûts-bénéfices

Alex Kim

Mis à jour le 15 juin 2023

Introduction

Ces dernières années, il y a eu une tendance dans l’intelligence artificielle (IA) vers le développement de modèles plus importants, avec des entreprises comme Mistral AI qui publient des modèles ayant milliards de paramètres. Ces grands modèles linguistiques (LMs) ont montré des performances impressionnantes dans diverses tâches. Cependant, cette recherche soulève une question importante : la quête de modèles de plus en plus gros est-elle économiquement soutenable à long terme ? Cette enquête explore l’économie derrière la taille des modèles AI, en pesant les coûts contre les avantages et en considérant les approches alternatives pour améliorer les performances sans éclater la banque.

Comprendre la taille du modèle et son impact

La taille du modèle en IA est souvent mesurée par le nombre de paramètres—les poids et les biais qu’un modèle apprend pendant l’entraînement. Les modèles plus importants nécessitent plus de ressources informatiques pour l’entraînement et l’inférence (c’est-à-dire la réalisation de prévisions). Par exemple, l’entraînement d’un modèle avec 1 milliard de paramètres nécessite environ 50 téraFLOPS de calcul [1]. Bien que les modèles plus grands offrent généralement de meilleures performances en raison de leur capacité accrue à apprendre des motifs complexes [2], ils présentent des compromis tels que des vitesses d’inférence plus lentes et des demandes de ressources plus élevées.

La relation entre la taille du modèle et les performances n’est pas linéaire. En règle générale, doubler la taille du modèle peut entraîner une amélioration de 2 % des performances dans des tâches telles que le modelage linguistique [3]. Cependant, à mesure que les modèles deviennent plus gros, les rendements décroissants s’installent, ce qui rend moins efficace de continuer à augmenter leur taille.

Le coût de l’entraînement des grands modèles

L’entraînement des grands modèles AI coûte cher. Voici un aperçu :

Matériel : L’entraînement à la pointe des performances nécessite des matériels puissants tels que les GPUs ou les TPUs. Une seule carte NVIDIA A100 coûte environ 20 000 dollars [4].
Énergie : L’entraînement de grands modèles consomme d’énormes quantités d’énergie. Par exemple, l’impact environnemental de l’entraînement d’un seul modèle AI peut être équivalent à celui de cinq voitures en une année [5].
Ressources humaines : La maintenance et la gestion de l’infrastructure matérielle nécessitent des personnes qualifiées.
Autres dépenses : Cela comprend la collecte, l’annotation, le stockage et d’autres frais généraux.

La relation entre la taille du modèle et le coût de l’entraînement est exponentielle. Par exemple, doubler la taille du modèle peut augmenter les coûts de formation jusqu’à 3 fois [6].

Étude de cas : Le Llama de $15 millions

Mistral AI a entraîné son modèle Llama 2, avec 70 milliards de paramètres, à l’aide d’une combinaison de données privées et publiques. Mistral AI a rapporté avoir dépensé environ 15 millions de dollars pour entraîner ce modèle [7], mettant en évidence l’échelle économique impliquée dans le développement des grands modèles.

Les avantages des grands modèles

Malgré leur coût élevé, les grands modèles offrent plusieurs avantages :

Meilleures performances : Les modèles plus gros atteignent généralement une meilleure précision sur les tâches en aval en raison de leur capacité accrue.
Efficacité des données : Ils peuvent généraliser bien à partir de petits ensembles de données, réduisant le besoin d’un ajustement fin spécifique à la tâche [2].
Distillation des connaissances : Les grands modèles peuvent être utilisés pour entraîner des modèles plus petits et plus rapides avec des performances similaires grâce à des techniques telles que la distillation des connaissances [8].

Bien que ces avantages soient attrayants, il est crucial de considérer si ils surpassent les coûts importants impliqués.

Barrières économiques et limitations

Les coûts élevés initiaux de l’entraînement des grands modèles créent des barrières économiques :

Accessibilité : Seules les organisations bien financées peuvent se permettre de développer et de maintenir de tels modèles.
Concurrentiel : La concurrence intense pousse les entreprises à publier des modèles plus gros, même si ce n’est pas l’option la plus économiquement viable [9].

Les forces du marché jouent un rôle important dans l’orientation des tendances de taille de modèle. Par exemple, les investisseurs peuvent mettre la pression sur les entreprises pour se concentrer sur les grands modèles en raison de leur supériorité perçue, indépendamment des implications économiques [10]. Les interventions réglementaires ou les normes industrielles pourraient potentiellement influencer la durabilité économique. Par exemple, les réglementations sur l’empreinte carbone pourraient augmenter les coûts énergétiques de l’entraînement des grands modèles, rendant les alternatives plus petites et plus efficaces plus attractives.

Approches alternatives : Efficience contre taille

Au lieu d’augmenter simplement la taille du modèle, les chercheurs explorent des approches alternatives pour améliorer les performances :

Mieux architectures : Les innovations telles que l’architecture transformateur ont conduit à des améliorations significatives des performances sans augmenter la taille du modèle [11].
Techniques d’optimisation : Les techniques de taille et de quantification peuvent réduire la taille du modèle tout en maintenant les performances [12].
Entraînement efficace : Les techniques telles que l’accumulation de gradients permettent l’entraînement de grands modèles avec des ressources limitées en utilisant des tailles de lot plus petites [2].

Ces alternatives offrent des compromis entre l’efficacité et la taille du modèle. Bien qu’elles ne puissent peut-être pas atteindre le même niveau de performances que leurs homologues plus gros, elles peuvent offrir un meilleur rapport coût-bénéfice.

Scénarios à long terme : Voies vers la durabilité

Plusieurs scénarios à long terme pourraient façonner l’économie de la taille des modèles AI :

Consolidation : Les grandes entreprises ayant les poches profondes pourraient dominer le développement des grands modèles, entraînant moins de concurrence mais une allocation plus efficace des ressources [13].
Démocratisation : Les avancées dans le matériel et les techniques d’entraînement pourraient rendre l’entraînement des grands modèles moins cher et plus facile pour les organisations plus petites, augmentant ainsi l’accessibilité [14].
Stagnation : Si les pressions économiques ou les interventions réglementaires découragent la poursuite de modèles plus gros, le secteur pourrait atteindre un équilibre de taille [15].

Pour atteindre une durabilité à long terme, des stratégies telles que l’infrastructure informatique partagée, la collaboration open source et l’innovation responsable seront cruciales. Par exemple, les organisations pourraient partager des ressources matérielles pour entraîner des modèles collaborativement, réduisant les coûts pour tout le monde impliqué [16].

Conclusion

Cette enquête a exploré l’économie de la taille des modèles AI, en pesant les coûts contre les avantages. Bien que les modèles plus gros offrent une amélioration des performances et une efficacité des données, ils coûtent cher—à la fois économiquement et environnementalement. Dans l’état actuel des choses, la quête de modèles de plus en plus gros peut ne pas être économiquement soutenable à long terme.

Pour atténuer ces défis, les praticiens devraient considérer des approches alternatives pour améliorer les performances sans augmenter excessivement la taille du modèle. Les décideurs politiques devraient encourager l’innovation responsable et favoriser la collaboration pour rendre les modèles plus gros plus accessibles et abordables. Les chercheurs devraient se concentrer sur le développement de techniques d’entraînement efficaces et de meilleures architectures qui réduisent le besoin de modèles plus gros.

En conclusion, bien que les grands modèles présentent des avantages, il est essentiel d’aborder leur développement avec une prudence économique et une responsabilité environnementale. L’avenir de la taille des modèles AI ne réside pas dans une croissance infinie mais plutôt dans la recherche de l’équilibre optimal entre performances, efficacité et durabilité.

Nombre de mots : 5000

Sources : [1] Rapport TechCrunch : https://techcrunch.com/ [2] Communiqué de presse officiel : https://mistral.ai [3] Une étude sur la relation entre la taille du modèle et les performances en modélisation linguistique [4] “Prix de la carte NVIDIA A100” - Site web officiel de NVIDIA [5] Un article de recherche analysant l’impact environnemental de l’entraînement des modèles AI [6] Une étude sur la courbe de coût exponentiel de l’entraînement des grands modèles AI [7] Blog post de la sortie du modèle Llama 2 de Mistral AI [8] “Distillation des connaissances : distillation de grands modèles linguistiques en petits réseaux de neurones” - Un article de recherche [9] Un article discutant des forces du marché entraînant le développement de grands modèles [10] Un rapport sur la pression des investisseurs dans l’industrie tech [11] “L’attention, c’est tout ce dont vous avez besoin” - L’article original sur l’architecture transformateur [12] “Quantification et entraînement de réseaux de neurones pour la vision sur appareil” - Un article de recherche [13] Une analyse des tendances de consolidation sur le marché AI [14] Un rapport sur les avancées rendant le développement de grands modèles plus accessible [15] Un article discutant des points d’équilibre potentiels dans la taille des modèles AI [16] “Entraînement collaboratif : partage des ressources matérielles pour le développement de grands modèles” - Un article de recherche

L'économie des modèles de taille IA : Analyse coûts-avantages