Les workflows vidéo actuels nécessitent souvent des contrôles utilisateur variés, allant de trajectoires d'objets 4D précises à des instructions textuelles plus vagues. Cependant, les modèles de génération vidéo existants sont généralement conçus pour des formats d'entrée fixes, limitant ainsi leur flexibilité. Cette recherche propose Ctrl-VI, une méthode de synthèse vidéo qui répond à ce besoin en permettant un contrôle granulaire sur des éléments spécifiques tout en maintenant une diversité pour les aspects moins définis. La méthode repose sur l'inférence variationnelle pour approximer une distribution composée, utilisant plusieurs modèles de génération vidéo pour répondre collectivement à toutes les contraintes de la tâche. Pour surmonter les défis d'optimisation, les auteurs décomposent le problème en une minimisation étape par étape de la divergence de Kullback-Leibler sur une séquence de distributions recuites. De plus, ils introduisent une technique de factorisation conditionnée au contexte qui réduit les modes dans l'espace de solution pour éviter les optima locaux. Les expériences montrent que Ctrl-VI produit des vidéos avec une meilleure contrôlabilité, une plus grande diversité et une cohérence 3D améliorée par rapport aux travaux antérieurs. Cette approche ouvre de nouvelles perspectives pour la génération vidéo, en particulier dans des domaines où la précision et la flexibilité sont cruciales, comme la production de contenu multimédia et les simulations virtuelles. Les implications de cette recherche sont significatives pour les industries créatives et technologiques, où la demande pour des outils de génération vidéo plus sophistiqués et adaptables continue de croître.
Ctrl-VI : Synthèse vidéo contrôlable par inférence variationnelle
Article original : https://arxiv.org/abs/2510.07670
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.