Les modèles de transformateurs actuels, bien que performants en traitement du langage naturel, imposent des coûts mémoire et computationnels substantiels. Des recherches récentes ont identifié des redondances architecturales significatives dans ces modèles, ouvrant la voie à des optimisations sans compromettre les performances. L'architecture ShishuLM s'inspire des travaux en interprétabilité de l'IA et en élagage de couches lors de l'inférence pour proposer une solution plus efficace.

L'approche repose sur l'observation que pour des scénarios à contexte modéré, la normalisation couplée au calcul d'attention présente une complexité approximativement linéaire avec l'entrée. Cette caractéristique permet d'approximer des blocs entiers de transformateurs via des perceptrons multicouches (MLP), réduisant ainsi à la fois le nombre de paramètres et les besoins en cache clé-valeur. L'architecture hybride combine décodeur et MLP avec un mécanisme de partage de poids par paires.

Les évaluations sur deux petits modèles de langage de différentes échelles montrent des réductions allant jusqu'à 25% des besoins mémoire et jusqu'à 40% d'amélioration de la latence, aussi bien lors de l'entraînement que de l'inférence. Ces résultats sont particulièrement pertinents dans le contexte croissant des petits modèles de langage pour les systèmes d'IA agentiques, où l'efficacité est cruciale.