L'article commence par introduire le concept des modèles batch, qui traitent de grandes quantités de données selon un calendrier prédéfini, contrairement aux modèles en temps réel. L'auteur, un ingénieur en machine learning chez Alfa-Bank, décrit les défis rencontrés par son équipe de test et comment ils ont développé un système de test automatisé pour répondre à ces défis. Le système se concentre sur la vérification automatique des scores et l'ajout de tests pour des données non valides, tout en minimisant les changements d'infrastructure existante. L'article détaille également la structure du dépôt pour les modèles batch, qui inclut des fichiers tels que inference.py, config.py et inference_wrapper.py. Ces fichiers définissent un pipeline standard pour le traitement des données, comprenant la lecture des données, le prétraitement, la prédiction et l'enregistrement des résultats. L'auteur explique comment ils ont utilisé cette structure standardisée pour développer des tests automatisés. L'article décrit ensuite le processus de génération de données synthétiques pour les tests. Les données sont lues une fois et un petit sous-ensemble est utilisé pour générer des données synthétiques. Ces données sont ensuite utilisées pour tester les méthodes de prétraitement et de prédiction du modèle. L'auteur fournit un exemple de code pour illustrer ce processus. L'article aborde également les principes de conception des tests automatisés, tels que la nécessité de tests déterministes et la prise en compte des différents formats de données retournés par la méthode read_data. L'auteur conclut en décrivant un système de validation des scores pour vérifier automatiquement la validité des données de sortie du modèle après l'inférence. Les paramètres de test peuvent être configurés via le fichier config.py, ce qui permet aux data scientists de lancer facilement des vérifications de scores.
Comment automatiser les tests des modèles batch ? Guide
Article original : https://habr.com/ru/companies/alfa/articles/958486/?utm_campaign=958486&utm_source=habrahabr&utm_medium=rss
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.