Les chercheurs proposent JanusCoder, une série de modèles d'IA conçus pour unifier la génération de code et l'interprétation visuelle. Ces modèles peuvent traiter des entrées textuelles ou visuelles pour produire un code exécutable qui reproduit fidèlement des graphiques, des interfaces web ou des animations. La principale difficulté réside dans la rareté des données multimodales nécessaires à l'entraînement, ce qui a conduit les chercheurs à développer des stratégies spécifiques pour chaque domaine d'application, comme la génération de graphiques ou d'interfaces web. Le pipeline de JanusCoder inclut des étapes d'évolution contrôlée, de recontextualisation des instructions, et de traduction bidirectionnelle entre domaines proches, garantissant ainsi la qualité et l'exécutabilité du code généré. Les auteurs ont également créé JanusCode-800K, le plus grand ensemble de données à ce jour pour le programmation visuelle, couvrant divers domaines tels que la visualisation Python, les animations Manim et les projets Wolfram Mathematica. Les modèles JanusCoder et JanusCoderV, entraînés sur cet ensemble de données, surpassent les solutions existantes sur plusieurs benchmarks, notamment en génération de graphiques et d'interfaces interactives. Ces avancées ouvrent la voie à des systèmes où l'IA ne se contente pas d'écrire du code, mais comprend également son rendu visuel, offrant ainsi un nouvel outil puissant pour les développeurs et les scientifiques des données.
L'avenir de la programmation est multimodal : comment JanusCoder a appris à voir l'interface qu'il crée
Article original : https://habr.com/ru/articles/962548/?utm_source=habrahabr&utm_medium=rss&utm_campaign=962548
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.