Les grands modèles de langage (LLM) sont de plus en plus utilisés comme évaluateurs pour des tâches subjectives, mais leur fiabilité reste limitée lorsque les jugements humains impliquent un raisonnement subtil. Les traces de réflexion, qui représentent le processus de raisonnement derrière un jugement, sont très informatives mais difficiles à collecter et à curater. Les auteurs présentent un cadre collaboratif humain-LLM pour inférer ces traces de réflexion à partir d'annotations simples, en utilisant une méthode efficace de rejection sampling pour reconstruire ces traces à grande échelle. Ces traces inférées sont appliquées à deux tâches complémentaires : l'ajustement fin des évaluateurs LLM ouverts et la synthèse de directives d'annotation plus claires pour les évaluateurs LLM propriétaires. Les résultats montrent une amélioration significative de l'accord entre les LLM et les humains sur plusieurs ensembles de données. De plus, les directives d'annotation raffinées augmentent l'accord entre différents modèles LLM, suggérant que les LLM peuvent servir de proxys pratiques pour les traces de réflexion humaines non révélées, permettant ainsi d'étendre les corpus simples en ressources augmentées de traces de réflexion qui améliorent la fiabilité des évaluateurs LLM. Cette approche ouvre de nouvelles perspectives pour l'évaluation automatique des tâches subjectives, en combinant les forces des humains et des modèles de langage pour obtenir des résultats plus fiables et cohérents.