Des chercheurs de l'Institut de physique et de technologie de Moscou (MIPT) ont mené une étude systématique sur la manière dont le processus d'apprentissage des réseaux de neurones se stabilise à mesure que de nouvelles données sont ajoutées. Leur travail, combinant analyse théorique et expériences approfondies, révèle que le paysage de la fonction de perte d'un réseau de neurones converge vers une forme spécifique lorsque la taille de l'échantillon augmente. Cette découverte a des implications importantes pour la compréhension de l'apprentissage profond et le développement de méthodes pour déterminer le volume de données nécessaire. Les chercheurs ont montré que la différence entre les valeurs de la fonction de perte pour des échantillons de tailles différentes diminue à mesure que la taille de l'échantillon augmente, indiquant une stabilisation du paysage de la fonction de perte. Cette stabilisation permet de déterminer quand l'ajout de nouvelles données n'apporte plus de changements significatifs au modèle appris localement, ce qui est crucial pour un apprentissage efficace. Les expériences ont confirmé les résultats théoriques sur différents ensembles de données et architectures, montrant une diminution claire de la différence des valeurs de la fonction de perte avec l'augmentation de la taille de l'échantillon. L'influence de l'architecture a également été observée, avec l'ajout de couches ralentissant la convergence, tandis que l'augmentation de la largeur des couches la accélérait. Cette étude ouvre la voie à des méthodes permettant de déterminer la quantité de données suffisante pour un apprentissage efficace, économisant ainsi des ressources considérables en termes de collecte, de marquage et de traitement des données, ainsi que de puissance de calcul pour l'apprentissage.