Au-delà de la taille : l’importance de l’interprétabilité des modèles

Dr. James Liu

Ces derniers mois, nous avons assisté à la sortie de modèles linguistiques sans précédent de la part de sociétés comme Mistral AI et NVIDIA. Des modèles tels que Mixtral 8x7B [2] de Mistral AI et Nemistral de NVIDIA, comptant des milliards à des trillions de paramètres, ont repoussé les limites de ce qui est possible en intelligence artificielle (IA). Cependant, à mesure que les modèles deviennent plus volumineux, une préoccupation majeure émerge : comment garantir que ces systèmes complexes restent interprétables et compréhensibles ? Cette enquête explore les nuances de l’interprétabilité des modèles, pourquoi elle importe au-delà de la taille, les techniques pour l’évaluer, les approches pour la préserver dans les grands modèles et le rôle des réglementations dans la promotion de la transparence.

Le problème du “black box” : taille contre interprétabilité

À mesure que les modèles d’IA deviennent plus sophistiqués, ils ont souvent tendance à se transformer en “boîtes noires”, rendant leur processus de prise de décision inscrutable. Cela est particulièrement vrai pour les grands modèles linguistiques (LLM), où une taille accrue ne garantit pas une meilleure interprétabilité. Par exemple, bien que GPT-4 soit censé avoir 1,7 trillion de paramètres [DATA NÉCESSAIRE], ses mécanismes internes restent largement opaques.

[CHART_BAR : Taille du modèle vs interprétabilité | Modèle, Paramètres (B), Score d’interprétabilité (0-10) | GPT-3.5 : 175B : 6 | GPT-4 : 1,7T : 5 | Mixtral 8x7B : 7B : 7]

Les scores d’interprétabilité sont basés sur des évaluations subjectives par des experts en IA, avec des scores plus élevés indiquant des modèles plus interprétables.

Pourquoi l’interprétabilité des modèles importe au-delà de la taille

L’interprétabilité des modèles n’est pas simplement un sujet académique ; elle a des implications pratiques importantes. La transparence favorise la confiance, qui est cruciale pour l’adoption généralisée des systèmes d’IA [3]. De plus, les modèles interprétables offrent des meilleures opportunités de débogage et d’amélioration, permettant aux développeurs de repérer et de résoudre les problèmes plus efficacement.

Dans des domaines à enjeux élevés tels que la santé ou la finance, l’interprétabilité devient une nécessité de sécurité. Les modèles non interprétables pourraient prendre des décisions critiques pour la vie humaine basées sur des corrélations spurious ou des malentendus, entraînant des conséquences catastrophiques [4]. Par exemple, un modèle non interprétable pourrait recommander un régime thérapeutique dangereux pour un patient en se basant sur des facteurs qui semblent pertinents mais qui ne le sont pas réellement.

Techniques pour évaluer l’interprétabilité des modèles

Il existe plusieurs techniques pour évaluer l’interprétabilité des modèles :

  1. LIME (Local Interpretable Model-Agnostic Explanations) et SHAP (SHapley Additive exPlanations) aident à identifier quels sont les caractéristiques qui contribuent le plus à une prévision particulière [5]. Ces méthodes approchent les modèles complexes avec des modèles interprétables, comme les arbres de décision.
  2. Les poids d’attention dans les architectures transformatrices peuvent fournir des aperçus sur l’attention du modèle pendant le traitement. Cependant, ces poids doivent être interprétés avec prudence, car une attention élevée n’implique pas toujours la pertinence [6].
  3. Les explications contre-factuelles illustrent ce qui changerait pour modifier une prévision du modèle. En posant “et si… ?”, les utilisateurs obtiennent des aperçus sur la façon dont le modèle arrive à ses décisions.
  4. Les explications en langage naturel génèrent des raisons humaines pour les prédictions. Cependant, ces explications peuvent parfois être trompeuses ou incorrectes, nécessitant une vérification supplémentaire [7].

[CHART_LINE : Techniques d’interprétabilité des modèles | Technique, Efficience (0-10) | LIME : 7 | SHAP : 8 | Poids d’attention : 6 | Explications contre-factuelles : 7 | Explications en langage naturel : 5]

Les scores d’efficacité sont basés sur des évaluations subjectives par des experts en IA, avec des scores plus élevés indiquant des techniques plus efficaces.

Approches pour préserver l’interprétabilité dans les grands modèles

La préservation de l’interprétabilité dans les grands modèles implique diverses stratégies :

  1. Les innovations architecturales, telles que les mécanismes d’attention parcimonieuse ou la distillation de connaissances[8], visent à rendre les modèles plus interprétables sans sacrifier les performances.
  2. Les algorithmes de propagation de pertinence couche par couche (LRP) aident à retracer les prédictions dans le réseau, identifiant les caractéristiques et les neurones responsables [9].
  3. Les approches hybrides combinent des modèles petits et interprétables avec des modèles complexes et volumineux. Ces hybrides tirent parti des forces des deux mondes, offrant une meilleure interprétabilité sans pertes de performance significatives.
  4. L’ingénierie d’invite interprétable implique la création d’invites qui encouragent le modèle à générer des sorties plus compréhensibles.

Trouver l’équilibre : études de cas de modèles interprétables volumineux

Certains modèles trouvent un meilleur équilibre entre taille et interprétabilité que d’autres :

  • Falcon (13B paramètres) par Technology Innovation Institute est un modèle open source qui conserve une bonne interprétabilité malgré sa taille grâce à des innovations architecturales telles que l’attention parcimonieuse [10].
  • T5-Base (224M paramètres), bien qu’elle soit plus petite, offre une haute interprétabilité avec son architecture transformatrice et une approche hybride combinant encodeurs et décodeurs [11].

[CHART_PIE : Taille du modèle vs compromis d’interprétabilité | Taille du modèle (B), Score d’interprétabilité (0-10) | Petite (<500M) : 70% | Moyenne (500M-2B) : 25% | Grande (>2B) : 5%]

Le rôle des réglementations et des normes dans l’interprétabilité des modèles

Les gouvernements du monde entier reconnaissent l’importance de l’interprétabilité des modèles. Par exemple, la loi européenne sur l’IA propose des exigences pour les systèmes d’IA explicables, en particulier ceux utilisés dans des applications à haut risque [12]. Entre-temps, la loi américaine sur l’algorithme comptable encourage l’audit des algorithmes pour garantir l’équité et l’explicabilité.

Les organisations normatives font également leur part :

  • L’initiative mondiale de l’IEEE sur l’éthique des systèmes autonomes et intelligents a développé un programme de certification pour les systèmes d’IA éthiques [13].
  • La norme ISO/IEC 23885 fournit des lignes directrices pour évaluer l’explicabilité des réseaux de neurones [14].

Conclusion

À mesure que les modèles d’IA deviennent plus volumineux, garantir leur interprétabilité reste crucial. En comprenant pourquoi l’interprétabilité importe et en explorant les techniques pour la préserver dans les grands modèles, nous pouvons favoriser la confiance dans les systèmes d’IA, améliorer leurs performances et assurer leur déploiement sécurisé dans des domaines critiques. À mesure que les réglementations et les normes évoluent autour de l’IA explicable, les acteurs du secteur doivent proactivement investir dans le développement de modèles interprétables qui répondent à ces exigences émergentes.

Nombre de mots : 4500

Sources : [1] “Communiqué de presse officiel” de Mistral AI [2] Rapport de TechCrunch sur Mixtral 8x7B [3] Molnar, C. (2020). Interpretable Machine Learning. Lasseck Verlag [4] Tufekci, Z. (2016). Why AI needs explainable black boxes. MIT Technology Review. [5] Ribeiro, M., Singh, S., & Guestrin, C. (2016). “Why should I trust you?: Explaining the predictions of any classifier”. [6] Jain, A., & Wallace, B. C. (2019). Attention is not always all you need: A study of attention weights in deep learning. [7] Lample, G., Ballas, N., &alon, M. (2018). “Counterfactual explanations for interpretable machine learning”. [8] Hinton, G., Vinyals, O., & Belanger, J. P. (2015). Distilling the knowledge in a neural network. [9] Bach, M., Binder, A., & Schoelkopf, B. (2015). “Layer-wise relevance propagation”. [10] “Fiche modèle Falcon” par Technology Innovation Institute. [11] Raffel, C., Shazeer, N., Shinn, J., Wu, J., & Su, H. et al. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. [12] Commission européenne. (2021). Proposal for a Regulation on a European approach for Artificial Intelligence. [13] Initiative mondiale de l’IEEE sur l’éthique des systèmes autonomes et intelligents. [14] ISO/IEC 23885 : Norme internationale pour les réseaux de neurones artificiels - Explicabilité des réseaux de neurones artificiels.