Align Evals est une nouvelle fonctionnalité introduite par LangSmith pour aider les équipes à calibrer leurs évaluateurs afin de mieux correspondre aux préférences humaines. Cette fonctionnalité a été inspirée par un article d'Eugene Yan sur la construction d'évaluateurs LLM-as-a-judge. Elle est désormais disponible pour tous les utilisateurs de LangSmith Cloud et sera bientôt accessible pour les utilisateurs auto-hébergés de LangSmith. La fonctionnalité offre une interface de type playground pour itérer sur les invites de l'évaluateur et voir le score d'alignement de l'évaluateur, ainsi qu'une comparaison côte à côte des données notées par l'homme et des scores générés par LLM, avec un tri pour identifier les cas non alignés. Elle permet également de sauvegarder un score d'alignement de base pour comparer les dernières modifications à la version précédente de l'invite. Le flux d'alignement commence par la sélection des critères d'évaluation appropriés, suivis de la sélection des données pour la révision humaine, puis de la notation des données avec les scores attendus. Ensuite, une invite d'évaluateur est créée et testée contre la notation humaine. Les prochaines étapes incluent l'ajout d'analytiques pour suivre l'évolution des performances de l'évaluateur et l'optimisation automatique des invites.