Les travaux récents en apprentissage automatique ont développé diverses méthodes de compression avec perte (quantification) pour les grandes matrices, cruciales pour accélérer la multiplication matricielle qui constitue l'opération principale des grands modèles de langage, souvent limitée par la vitesse de chargement depuis la mémoire. Contrairement à la quantification vectorielle classique et à la théorie du débit-distorsion, ces nouveaux algorithmes visent à approximer non pas les matrices elles-mêmes, mais leur produit matriciel. Concrètement, étant donné une paire de matrices réelles A et B, un encodeur est appliqué indépendamment à chacune pour produire des descriptions utilisant R bits par entrée, puis ces représentations sont utilisées par un décodeur pour estimer le produit matriciel A⊤B.
Dans cette étude, les auteurs fournissent une borne inférieure non asymptotique sur l'erreur quadratique moyenne de cette approximation en fonction du débit R, pour le cas de matrices A et B avec des entrées gaussiennes indépendantes et identiquement distribuées. Algorithmiquement, ils construisent un quantificateur universel basé sur des réseaux emboîtés, offrant une garantie explicite d'erreur d'approximation pour toute paire de matrices (non aléatoires) A et B, exprimée uniquement en termes des normes de Frobenius ‖Ā‖F, ‖B̄‖F et ‖Ā⊤B̄‖F, où Ā et B̄ sont des versions de A et B avec des colonnes centrées sur zéro.
Pour les matrices gaussiennes iid, leur quantificateur atteint la borne inférieure et est donc asymptotiquement optimal. Une version pratique à faible complexité de ce quantificateur obtient des performances très proches de l'optimalité. De plus, les auteurs dérivent la fonction débit-distorsion pour la multiplication matricielle de matrices gaussiennes iid, révélant une transition de phase intéressante à R ≈ 0,906 bit/entrée, ce qui montre la nécessité d'une réduction de dimensionnalité de type Johnson-Lindenstrauss (esquisse) dans le régime à faible débit.