L'intégration simultanée de capacités de classification robuste et de modélisation générative de haute qualité dans un cadre unique représente un défi majeur en apprentissage automatique. Les approches hybrides existantes, comme les modèles à base d'énergie conjoints (JEM), interprètent les classifieurs comme des EBMs mais souffrent d'instabilité et de mauvaise qualité d'échantillonnage liées à l'entraînement par SGLD.
La méthode proposée introduit trois innovations clés : le remplacement de l'apprentissage JEM basé sur SGLD par une approche stable utilisant l'entraînement antagoniste, optimisant la fonction d'énergie en discriminant entre données réelles et échantillons contrastifs générés par PGD via la perte BCE ; un entraînement antagoniste synergétique pour la composante discriminative qui améliore la robustesse de classification tout en éliminant le besoin de pénalités de gradient explicites ; et une procédure d'entraînement en deux étapes résolvant l'incompatibilité entre la normalisation par lots et l'entraînement EBM.
Les expérimentations sur CIFAR-10, CIFAR-100 et ImageNet démontrent des améliorations substantielles de la robustesse antagoniste par rapport aux modèles hybrides existants, tout en maintenant des performances génératives compétitives. Sur ImageNet, lorsque optimisé pour la modélisation générative, le modèle atteint une fidélité surpassant BigGAN et approchant celle des modèles de diffusion, représentant la première approche EBM basée sur MCMC à réaliser une génération de haute qualité sur des ensembles de données complexes et haute résolution.