L’étude WebGen-V Bench propose un cadre innovant pour améliorer la génération et l’évaluation de sites web à partir d’instructions textuelles, en exploitant les capacités des grands modèles de langage (LLM) et des approches multimodales. Les auteurs, dont Kuang-Da Wang et Zhao Wang, soulignent les limites des benchmarks existants, souvent statiques et peu adaptés à l’évaluation fine des aspects visuels et structurels des pages web. Leur contribution se décline en trois axes majeurs, visant à renforcer la qualité des données et la précision des évaluations.
Premièrement, le cadre introduit un système de collecte dynamique et extensible de pages web réelles, basé sur des agents autonomes capables d’explorer en continu le web pour enrichir les jeux de données. Contrairement aux méthodes traditionnelles, qui s’appuient sur des corpus figés, cette approche permet une mise à jour permanente des références, reflétant l’évolution des tendances en design et en développement web. Ce mécanisme agentique offre ainsi une base plus représentative pour entraîner et tester les modèles de génération.
Deuxièmement, la représentation des données est repensée via une structure sectionnelle multimodale, combinant métadonnées, captures d’écran localisées des interfaces utilisateur (UI), et des actifs textuels ou visuels organisés en format JSON. Cette décomposition en sections (en-têtes, pieds de page, blocs de contenu, etc.) permet un alignement explicite entre le contenu, la mise en page et les éléments visuels, facilitant une supervision détaillée lors de la génération. Par exemple, un modèle peut ainsi associer précisément un texte à sa position, sa typographie ou son arrière-plan, améliorant la cohérence du rendu final. Cette granularité est cruciale pour évaluer des critères souvent négligés, comme l’harmonie des couleurs ou la hiérarchie visuelle.
Enfin, le benchmark propose un protocole d’évaluation sectionnel qui analyse séparément chaque composant d’une page (texte, disposition, éléments graphiques) pour fournir une analyse fine des performances des LLM. Les expériences menées avec des modèles d’état de l’art, incluant des études d’ablation, démontrent l’efficacité de cette méthode : les résultats montrent une amélioration significative de la fidélité visuelle et fonctionnelle des pages générées, ainsi que la contribution individuelle de chaque composante du cadre (collecte dynamique, représentation structurée, évaluation granulaires). Les auteurs insistent sur le caractère pionnier de leur travail, qui unifie pour la première fois l’acquisition de données réelles, la génération de code HTML, et une évaluation multimodale rigoureuse dans un pipeline cohérent.
En conclusion, WebGen-V Bench se positionne comme une avancée clé pour le domaine, en comblant le fossé entre la génération automatisée de sites web et les exigences croissantes en matière de design visuel. Son approche structurée et dynamique ouvre des perspectives pour des applications pratiques, comme la création assistée de maquettes ou l’optimisation automatisée d’interfaces, tout en offrant aux chercheurs un outil robuste pour évaluer les progrès des LLM dans des tâches multimodales complexes.