Les modèles de diffusion représentent une avancée majeure dans le domaine de l'intelligence artificielle générative. Ils fonctionnent en deux étapes principales : le processus direct, où des données initiales sont progressivement transformées en bruit aléatoire, et le processus inverse, où la modèle apprend à restaurer les données originales à partir de ce bruit. Cette méthode a été formalisée à travers plusieurs approches mathématiques, notamment les DDPM, NCSN et Score SDEs, qui décrivent comment le bruit est ajouté et ensuite retiré pour reconstruire les données.
Une évolution significative a été réalisée avec l'introduction des Latent Diffusion Models (LDM), qui ont permis de réduire considérablement les coûts computationnels en travaillant dans un espace latent plutôt que dans l'espace pixel. Cela a non seulement accéléré le processus de génération, mais a également permis de travailler avec des images de haute résolution, rendant cette technologie accessible à un public plus large. Les modèles de diffusion se distinguent également par leur stabilité d'entraînement et leur capacité à générer une grande variété de données, surpassant ainsi d'autres modèles génératifs comme les GAN et les VAE.