Les modèles autoregressifs, bien qu’efficaces en traitement automatique du langage, se heurtent à des défis majeurs pour la génération d’images, notamment la gestion des dépendances à longue portée, les coûts computationnels élevés et la difficulté à définir des séquences autoregressives reflétant la structure naturelle des images. Pour surmonter ces obstacles, une équipe de chercheurs dirigée par Zhihao Huang propose NFIG (Next-Frequency Image Generation), une approche innovante qui décompose la génération d’images en étapes guidées par les fréquences spectrales.

Le principe central de NFIG repose sur une génération progressive : les composantes basses fréquences, qui capturent la structure globale de l’image avec un nombre réduit de tokens, sont d’abord produites, suivies par l’ajout itératif de détails haute fréquence. Cette hiérarchie spectrale imite le processus naturel de perception visuelle, où les contours généraux précèdent les textures fines. Contrairement aux méthodes traditionnelles, cette séquence autoregressive fondée sur les fréquences optimise la modélisation des relations causales entre les éléments de l’image, tout en réduisant significativement la charge de calcul lors de l’inférence.

Les expériences menées démontrent que NFIG surpasse les solutions existantes en termes d’efficacité et de qualité. Sur le benchmark ImageNet-256, le modèle atteint un FID (Score de Divergence de Fréchet) de 2,81, tout en accélérant le processus de génération de 1,25 fois par rapport à des alternatives comme VAR-d20. Ces résultats soulignent l’avantage de l’approche fréquentielle, qui combine une meilleure fidélité visuelle avec une économie de ressources. Les auteurs insistent sur le potentiel de cette méthode pour inspirer de futures recherches, en intégrant des connaissances du domaine fréquentiel dans la conception de séquences autoregressives.

Le code associé à NFIG sera rendu public après l’acceptation de l’article, facilitant ainsi sa réutilisation par la communauté. Ce travail s’inscrit dans une démarche plus large visant à exploiter les propriétés intrinsèques des images — comme leur décomposition spectrale — pour améliorer les modèles génératifs, ouvrant la voie à des architectures plus performantes et interprétables. Les implications dépassent la génération d’images, avec des applications possibles en compression, en restauration ou en synthèse conditionnelle, où la hiérarchie fréquentielle pourrait jouer un rôle clé.