Les grands modèles de langage (LLM) possèdent la capacité remarquable d'apprendre en contexte, c'est-à-dire d'acquérir de nouveaux motifs lors de l'inférence sans nécessiter de réentraînement. Cette capacité repose sur des mécanismes encore mal compris, mais cette étude propose une explication basée sur l'interaction entre les couches d'auto-attention et les couches MLP des transformeurs. Les auteurs démontrent que cette combinaison permet au modèle de modifier implicitement les poids du MLP en fonction du contexte fourni dans le prompt, même si ces motifs n'ont jamais été rencontrés lors de l'entraînement initial. Cette modification implicite des poids est analysée théoriquement et validée expérimentalement, montrant que le bloc de transformeur peut transformer le contexte en une mise à jour de faible rang des poids du MLP. Ces résultats suggèrent que l'apprentissage en contexte des LLM repose sur des mécanismes internes simples mais puissants, capables d'adapter dynamiquement le modèle à de nouvelles tâches sans modification explicite de ses paramètres. Cette découverte ouvre des perspectives pour mieux comprendre et exploiter les capacités d'adaptation des LLM, tout en soulignant l'importance de l'architecture des transformeurs dans ces processus.