Les modèles d’IA générative en apprentissage profond représentent une famille d’algorithmes conçus pour produire des données nouvelles et réalistes, qu’il s’agisse d’images, de textes, d’audio ou même de structures moléculaires. Ces modèles se distinguent par leur capacité à apprendre les distributions de probabilité sous-jacentes aux jeux de données d’entraînement, puis à générer des échantillons inédits qui imitent ces distributions. Leur application s’étend bien au-delà de la simple création de contenu multimédia : ils interviennent aussi dans des domaines spécialisés comme la conception de médicaments, où ils simulent des molécules ou des protéines aux propriétés désirées.
Parmi les catégories les plus répandues figurent les réseaux de neurones génératifs antagonistes (GAN), qui opposent deux réseaux — un générateur et un discriminateur — dans un processus compétitif. Les GAN excellent dans la génération d’images haute résolution et de données complexes, mais souffrent souvent d’instabilités pendant l’entraînement, comme le mode collapse (où le générateur produit des sorties peu variées) ou la difficulté à converger. Une autre approche majeure est celle des autoencodeurs variationnels (VAE), qui encodent les données dans un espace latent structuré avant de les reconstruire. Les VAE sont appréciés pour leur capacité à modéliser des distributions probabilistes et à générer des variations contrôlées, mais leur qualité de sortie est généralement inférieure à celle des GAN pour les tâches visuelles.
Les modèles autoregressifs, comme les transformers utilisés dans les grands modèles de langage (LLM), génèrent des données séquentielles en prédisant chaque élément conditionnellement aux précédents. Bien qu’ils produisent des textes cohérents ou des audios fluides, leur principal inconvénient réside dans leur lenteur, car la génération s’effectue élément par élément. Plus récemment, les modèles de diffusion (diffusion models) ont gagné en popularité pour leur stabilité et leur capacité à capturer des détails fins, notamment en synthèse d’images. Ils fonctionnent en ajoutant progressivement du bruit aux données avant d’apprendre à l’inverser, mais leur entraînement et leur inférence restent coûteux en ressources. Enfin, les modèles hybrides combinent ces architectures pour atténuer leurs faiblesses respectives, bien qu’ils introduisent une complexité supplémentaire.
Chaque famille de modèles présente des compromis entre qualité, vitesse, stabilité et coût computationnel. Les GAN, par exemple, sont puissants mais délicats à paramétrer, tandis que les VAE offrent une interprétation plus claire de leur espace latent au détriment de la fidélité. Les modèles de diffusion, bien que prometteurs, exigent des infrastructures matérielles avancées, limitant leur accessibilité. Le choix d’une architecture dépend ainsi des contraintes du projet : un jeu vidéo pourrait privilégier les GAN pour des textures réalistes, tandis qu’une application médicale opterait pour des VAE ou des modèles hybrides afin de garantir une génération contrôlée et interprétable. L’évolution rapide du domaine laisse présager des avancées futures, notamment via l’optimisation des architectures existantes ou l’émergence de nouvelles approches.