Tencent a annoncé la sortie et l'open-source de HunyuanImage 3.0, un modèle de génération d'images multimodal natif avec 80 milliards de paramètres. Selon l'entreprise, il s'agit du premier modèle industriel open-source de ce type, offrant des performances comparables aux meilleurs modèles non open-source. Le modèle est capable d'utiliser des connaissances pour le raisonnement, de traiter des instructions dépassant 1000 caractères et de rendre des chaînes de texte longues dans les images générées. Ce modèle succède à HunyuanImage 2.0, introduit en mai, qui offrait une réponse en millisecondes, une qualité photoréaliste et une sortie image en temps réel à partir de texte saisi. Cette avancée marque une étape significative dans le domaine de la génération d'images par intelligence artificielle, en offrant des capacités accrues et une accessibilité accrue grâce à son caractère open-source. L'open-sourcing de ce modèle permet à la communauté de recherche et de développement de l'IA d'explorer et d'améliorer davantage les capacités de génération d'images multimodales. Cela pourrait également stimuler l'innovation dans divers secteurs, notamment le design, la publicité et les médias, où la génération d'images de haute qualité est cruciale.