Les modèles à goulot d'étranglement conceptuel (CBNMs) sont des modèles d'apprentissage profond qui offrent une interprétabilité en forçant une couche de goulot d'étranglement où les prédictions sont basées exclusivement sur des concepts compréhensibles par l'homme. Cependant, cette contrainte limite également le flux d'informations et entraîne souvent une réduction de la précision prédictive. Les modèles à canaux auxiliaires conceptuels (CSMs) abordent cette limitation en introduisant un canal auxiliaire qui contourne le goulot d'étranglement et transporte des informations supplémentaires pertinentes pour la tâche. Bien que cela améliore la précision, cela compromet simultanément l'interprétabilité, car les prédictions peuvent reposer sur des représentations non interprétables transmises par les canaux auxiliaires. Actuellement, il n'existe aucune technique principielle pour contrôler ce compromis fondamental. Dans cet article, les auteurs comblent cette lacune en présentant un méta-modèle probabiliste unifié de canal auxiliaire conceptuel qui englobe les CSMs existants comme cas particuliers. S'appuyant sur ce cadre, ils introduisent le score d'indépendance des canaux auxiliaires (SIS), une métrique qui quantifie la dépendance d'un CSM à son canal auxiliaire en comparant les prédictions faites avec et sans les informations du canal auxiliaire. Ils proposent une régularisation SIS, qui pénalise explicitement la dépendance au canal auxiliaire pour améliorer l'interprétabilité. Enfin, ils analysent comment l'expressivité du prédicteur et la dépendance au canal auxiliaire façonnent conjointement l'interprétabilité, révélant des compromis inhérents entre différentes architectures CSM. Les résultats empiriques montrent que les CSMs de pointe, lorsqu'ils sont entraînés uniquement pour la précision, présentent une faible interprétabilité de la représentation, et que la régularisation SIS améliore substantiellement leur interprétabilité, leur intervenabilité et la qualité des prédicteurs de tâche interprétables appris.
Quantifier le compromis entre précision et interprétabilité dans les modèles à canaux auxiliaires basés sur des concepts
Article original : https://arxiv.org/abs/2510.05670
Synthèse éditoriale issue d’une veille et d’outils d’IA. Des erreurs ou approximations peuvent subsister. Référez‑vous à la source originale et à notre disclaimer.