Wake Vision est un nouvel ensemble de données conçu pour répondre aux besoins spécifiques du TinyML, un domaine de l'apprentissage automatique qui vise à faire fonctionner des modèles sur des appareils à très faible consommation d'énergie. Avec environ 6 millions d'images, Wake Vision est près de 100 fois plus grand que l'ensemble de données précédent, Visual Wake Words (VWW), et offre deux versions distinctes : une version « Large » qui privilégie la taille de l'ensemble de données et une version « Quality » qui met l'accent sur la qualité des étiquettes. Cela permet aux chercheurs d'explorer efficacement l'équilibre entre la taille et la qualité des ensembles de données pour les modèles TinyML, qui sont souvent limités à quelques centaines de kilo-octets. L'ensemble de données Wake Vision se distingue par son processus de filtrage et d'étiquetage complet, ce qui améliore considérablement la qualité des données. Contrairement aux ensembles de données traditionnels, où la quantité de données est souvent considérée comme plus importante que la qualité, Wake Vision montre que pour les modèles sous-paramétrés, la qualité des étiquettes est plus bénéfique. Cela est particulièrement important pour les applications de détection de personnes, qui sont au cœur des tâches de vision par ordinateur en TinyML. Wake Vision offre également des benchmarks détaillés pour évaluer les performances des modèles dans des scénarios réels, tels que la détection de personnes à différentes distances, dans diverses conditions d'éclairage et pour différentes représentations de personnes. Ces benchmarks aident les chercheurs à identifier les biais potentiels et les limitations des modèles dès la phase de conception. Les gains de performance obtenus avec Wake Vision sont impressionnants, avec une augmentation de la précision allant jusqu'à 6,6 % par rapport à l'ensemble de données VWW établi, et une réduction du taux d'erreur de 7,8 % à 2,2 % avec une validation manuelle des étiquettes sur les ensembles d'évaluation.