Au-delà de BERT : l’évolution des grands modèles linguistiques

Introduction

En 2018, Google AI a présenté Bidirectional Encoder Representations from Transformers (BERT), marquant ainsi un tournant important dans le traitement du langage naturel (NLP). L’approche bidirectionnelle de BERT a révolutionné le domaine en permettant aux modèles de comprendre le contexte au sein des phrases et des sentences. Depuis lors, les grands modèles linguistiques ont évolué rapidement, avec des avancées notables telles que XLNet [1], RoBERTa [2], T5 [3] et récemment, les modèles de Mistral AI [4]. Cette plongée profonde explore l’évolution des grands modèles linguistiques au-delà de BERT.

L’avènement de XLNet et ses contributions

XLNet, présenté par Google en 2019 [1], a abordé certaines limites de BERT en introduisant le Permutation Language Modeling (PLM). Contrairement à l’entraînement bidirectionnel de BERT, XLNet permute séquentiellement la séquence d’entrée pendant l’entraînement, ce qui lui permet de mieux capturer les dépendances à long terme.

Forces et faiblesses : XLNet vs. BERT

  • Forces : XLNet surpasse BERT dans des tâches nécessitant une compréhension des dépendances à long terme, telles que la question-réponse (SQuAD) et l’inférence de langage naturel (MNLI), atteignant un score d’exactitude de 86,1 % sur SQuAD [5].
  • Faiblesses : L’entraînement de XLNet est plus coûteux en termes de ressources informatiques que celui de BERT en raison de sa nature auto-régressive.

Impact et applications

La capacité de XLNet à capturer les dépendances à long terme a conduit à des améliorations dans diverses tâches NLP. Il a atteint des résultats record sur des tâches telles que la question-réponse (SQuAD) et l’inférence de langage naturel (MNLI). De plus, XLNet a été le premier modèle à atteindre la parité humaine sur la tâche Winograd NLI [1].

L’essor de RoBERTa : l’amélioration de BERT

En 2019, Facebook AI a présenté l’approche Robustly Optimized BERT (RoBERTa), qui s’appuie sur et améliore BERT.

Améliorations de la robustesse et des performances

  • Taille du jeu de données d’entraînement : RoBERTa utilise un plus grand jeu de données (~65 % de plus que BERT) pour l’entraînement.
  • Masquage dynamique : Contrairement au masquage statique de BERT, RoBERTa utilise un masquage dynamique qui change à chaque itération pendant l’entraînement.
  • Performances : RoBERTa surpasse BERT sur divers benchmarks tels que GLUE et SQuAD. Il a atteint un score d’exactitude de 91,6 % sur SQuAD [5].

Applications et cas d’utilisation

Les améliorations de RoBERTa ont conduit à des performances meilleures dans les tâches en aval. Il a atteint des résultats record sur plusieurs benchmarks, notamment GLUE (87,2 % d’exactitude) et RACE (54,0 % de score d’exactitude). De plus, RoBERTa a servi de base à des modèles tels que DistilBERT [6] et Electra [7].

T5 : Text-to-Text Transfer Transformer – une approche unifiée

Présenté par Google en 2019 [3], le Text-to-Text Transfer Transformer (T5) a unifié diverses tâches NLP sous un seul paradigme texte à texte. Au lieu de traiter différentes tâches séparément, T5 considère toutes les tâches comme des problèmes de génération de texte.

Architecture unifiée

T5 utilise la même architecture de modèle pour le codage et le décodage dans toutes les tâches, avec seulement la formulation d’entrée et de sortie qui change. Cette approche permet une meilleure apprentissage par transfert entre les tâches [3].

Comparaisons avec les modèles précédents

  • BERT & XLNet : Contrairement à BERT et XLNet, T5 n’utilise aucune information spécifique à la tâche pendant l’entraînement.
  • RoBERTa : Alors que RoBERTa se concentre sur les améliorations des performances par rapport à BERT, T5 adopte une approche unifiée pour aborder des tâches NLP diverses.

Applications et impact

T5 a atteint des résultats record sur divers benchmarks tels que GLUE (87,3 % d’exactitude), SQuAD (92,0 % de score d’exactitude) et SuperGLUE (65,1 % de score moyen). De plus, l’approche unifiée de T5 a simplifié la sélection du modèle pour les praticiens travaillant avec des tâches NLP diverses [3].

Les grands modèles linguistiques de Mistral AI : une nouvelle frontière

Mistral AI est entré en scène fin 2022 avec ses grands modèles linguistiques Mixtral et Codestral. Ces modèles visent à fournir des capacités génératives de haute qualité et efficaces.

Aspects uniques

  • Efficacité : Selon les communiqués officiels [4], les modèles de Mistral sont conçus pour être efficaces, en utilisant moins de ressources que les concurrents tels que GPT-4.
  • Capacités : Mixtral peut générer des textes similaires à ceux d’un humain, résoudre des problèmes mathématiques et expliquer des concepts complexes. Codestral se spécialise dans la génération de code.
  • Limitations : Comme