Align Evals est une nouvelle fonctionnalité introduite par LangSmith pour aider les équipes à calibrer leurs évaluateurs afin de mieux correspondre aux préférences humaines. Cette fonctionnalité a été inspirée par un article d'Eugene Yan sur la construction d'évaluateurs LLM-as-a-judge. Elle est désormais disponible pour tous les utilisateurs de LangSmith Cloud et sera bientôt accessible pour les utilisateurs auto-hébergés de LangSmith. La fonctionnalité offre une interface de type playground pour itérer sur les invites de l'évaluateur et voir le score d'alignement de l'évaluateur, ainsi qu'une comparaison côte à côte des données notées par l'homme et des scores générés par LLM, avec un tri pour identifier les cas non alignés. Elle permet également de sauvegarder un score d'alignement de base pour comparer les dernières modifications à la version précédente de l'invite. Le flux d'alignement commence par la sélection des critères d'évaluation appropriés, suivis de la sélection des données pour la révision humaine, puis de la notation des données avec les scores attendus. Ensuite, une invite d'évaluateur est créée et testée contre la notation humaine. Les prochaines étapes incluent l'ajout d'analytiques pour suivre l'évolution des performances de l'évaluateur et l'optimisation automatique des invites.
Présentation d'Align Evals : simplifier l'évaluation des applications LLM
Points clés
- Align Evals est une nouvelle fonctionnalité de LangSmith pour calibrer les évaluateurs LLM.
- Elle offre une interface pour itérer sur les invites de l'évaluateur et voir les scores d'alignement.
- La fonctionnalité permet de comparer les données notées par l'homme et les scores générés par LLM.
- Elle sauvegarde un score d'alignement de base pour comparer les modifications.
- Align Evals sera bientôt disponible pour les utilisateurs auto-hébergés de LangSmith.
Pourquoi c'est important
Align Evals est important car il permet de réduire les signaux faux et les comparaisons bruyantes dans l'évaluation des applications LLM, ce qui peut sauver du temps et des ressources. Il aide également à améliorer la qualité des évaluateurs LLM-as-a-judge, ce qui est crucial pour le développement et l'amélioration des applications LLM.
Article original : https://blog.langchain.com/introducing-align-evals/
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.