Les grands modèles de langage (LLMs) reposent sur une architecture en couches successives, chacune transformant progressivement les données d’entrée pour produire une réponse cohérente. Pourtant, les méthodes traditionnelles d’inférence se limitent souvent à n’exploiter que la dernière couche du modèle, négligeant ainsi les représentations intermédiaires générées par les couches profondes. Une approche récente propose d’intégrer systématiquement les sorties de toutes les couches du réseau, plutôt que de se fier uniquement à la couche finale, afin d’améliorer la précision et la robustesse des prédictions.

L’idée centrale consiste à considérer chaque couche comme une source d’information complémentaire, capable de capturer des aspects distincts du langage ou de la tâche. Par exemple, les couches initiales tendent à encoder des caractéristiques syntaxiques ou locales (comme la grammaire ou les dépendances entre mots), tandis que les couches profondes abstraient des relations sémantiques ou contextuelles plus complexes. En agrégeant ces représentations via des mécanismes comme le weighted averaging (moyenne pondérée) ou l’attention inter-couches, les chercheurs observent une réduction des erreurs, notamment dans des tâches exigeantes comme la compréhension fine de texte ou le raisonnement logique. Cette méthode s’inspire partiellement des travaux en ensemble learning, où la combinaison de plusieurs modèles simples surpasse souvent un modèle unique, même plus complexe.

Les expérimentations menées sur des benchmarks comme MMLU ou Big-Bench montrent des gains significatifs, particulièrement pour les modèles de taille moyenne (7B à 70B de paramètres), où l’apport des couches intermédiaires compense partiellement le manque de capacité par rapport aux géants comme GPT-4. Une technique clé consiste à attribuer dynamiquement des poids aux couches en fonction de leur pertinence pour la tâche, par exemple en utilisant un petit réseau auxiliaire entraîné pour évaluer la qualité de chaque représentation. Cependant, cette approche soulève des défis computationnels, car elle multiplie les opérations nécessaires pendant l’inférence. Des optimisations, comme la sélection sparse de couches (ne retenant que les plus informatives), permettent de limiter ce surcoût sans sacrifier les performances.

Au-delà des gains en précision, cette méthode offre une meilleure interprétabilité en révélant quelles couches contribuent le plus à une prédiction donnée. Par exemple, dans une tâche de réponse à une question, les couches intermédiaires pourraient mettre en évidence des indices syntaxiques ignorés par la couche finale, tandis que pour une inférence logique, les couches profondes domineraient. Cette transparence ouvre des pistes pour le debugging des modèles ou l’identification de biais, tout en suggérant que les LLMs pourraient tirer parti d’une architecture plus modulaire, où chaque couche serait spécialisée et activée de manière conditionnelle. Des travaux futurs explorent l’extension de cette idée à des architectures hybrides, combinant par exemple des couches dédiées au raisonnement avec d’autres optimisées pour la génération créative.