Quantification optimale pour la multiplication de matrices

16 octobre 2025

Les travaux récents en apprentissage automatique ont développé diverses méthodes de compression avec perte (quantification) pour les grandes matrices, cruciales pour accélérer la multiplication matricielle qui constitue l'opération principale des grands modèles de langage, souvent limitée par la vitesse de chargement depuis la mémoire. Contrairement à la quantification vectorielle classique et à la théorie du débit-distorsion, ces nouveaux algorithmes visent à approximer non pas les matrices elles-mêmes, mais leur produit matriciel. Concrètement, étant donné une paire de matrices réelles A et B, un encodeur est appliqué indépendamment à chacune pour produire des descriptions utilisant R bits par entrée, puis ces représentations sont utilisées par un décodeur pour estimer le produit matriciel A⊤B.

Dans cette étude, les auteurs fournissent une borne inférieure non asymptotique sur l'erreur quadratique moyenne de cette approximation en fonction du débit R, pour le cas de matrices A et B avec des entrées gaussiennes indépendantes et identiquement distribuées. Algorithmiquement, ils construisent un quantificateur universel basé sur des réseaux emboîtés, offrant une garantie explicite d'erreur d'approximation pour toute paire de matrices (non aléatoires) A et B, exprimée uniquement en termes des normes de Frobenius ‖Ā‖F, ‖B̄‖F et ‖Ā⊤B̄‖F, où Ā et B̄ sont des versions de A et B avec des colonnes centrées sur zéro.

Pour les matrices gaussiennes iid, leur quantificateur atteint la borne inférieure et est donc asymptotiquement optimal. Une version pratique à faible complexité de ce quantificateur obtient des performances très proches de l'optimalité. De plus, les auteurs dérivent la fonction débit-distorsion pour la multiplication matricielle de matrices gaussiennes iid, révélant une transition de phase intéressante à R ≈ 0,906 bit/entrée, ce qui montre la nécessité d'une réduction de dimensionnalité de type Johnson-Lindenstrauss (esquisse) dans le régime à faible débit.

Points clés

Établit une borne inférieure non asymptotique pour l'erreur de quantification dans la multiplication matricielle
Propose un quantificateur universel basé sur des réseaux emboîtés avec garanties d'erreur explicites
Démontre l'optimalité asymptotique pour les matrices gaussiennes iid
Révèle une transition de phase à R ≈ 0,906 bit/entrée nécessitant des techniques d'esquisse
Offre une version pratique à faible complexité proche de l'optimal

Pourquoi c'est important

Cette recherche est cruciale pour optimiser les opérations de multiplication matricielle, cœur des modèles d'IA comme les LLM, en réduisant les goulots d'étranglement mémoire. Elle établit des limites fondamentales et propose des solutions pratiques pour la compression, avec des implications directes sur l'efficacité et la vitesse d'inférence des systèmes d'IA à grande échelle.

Article original : https://arxiv.org/abs/2410.13780

Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.