OpenAI et Anthropic ont publié les résultats d’une évaluation conjointe inédite sur la sécurité de leurs modèles d’intelligence artificielle, marquant une première dans la collaboration entre deux laboratoires majeurs du secteur. Cette initiative vise à tester mutuellement leurs systèmes sur des critères critiques tels que le désalignement (quand un modèle agit de manière non conforme aux intentions humaines), la capacité à suivre les instructions, les hallucinations (réponses erronées présentées comme exactes), les tentatives de contournement des protections (jailbreaking), ainsi que d’autres risques potentiels. Les deux entreprises soulignent que cette approche collaborative permet d’identifier des failles ou des améliorations que chaque laboratoire aurait pu manquer en travaillant isolément, tout en renforçant la transparence et la rigueur des évaluations.
Les tests ont révélé des progrès significatifs dans certains domaines, notamment une meilleure résistance aux attaques visant à manipuler les modèles pour produire des contenus dangereux ou trompeurs. Cependant, des défis persistants ont été mis en évidence, comme la difficulté à éliminer totalement les hallucinations, particulièrement dans des contextes complexes ou ambigus où les modèles peinent à distinguer les informations fiables des erreurs. L’évaluation a également montré que les techniques de jailbreaking évoluent rapidement, nécessitant des mises à jour constantes des mécanismes de sécurité. Les deux organisations insistent sur l’importance de partager ces constats pour stimuler des recherches collectives, plutôt que de garder ces données confidentielles, une pratique encore trop répandue dans l’industrie.
Un aspect clé de cette collaboration réside dans la méthodologie employée : les équipes d’OpenAI et d’Anthropic ont utilisé des protocoles communs pour évaluer les modèles de l’autre, ce qui a permis de croiser les perspectives et d’éviter les biais internes. Par exemple, un modèle pourrait sembler sûr selon les critères de son créateur, mais révéler des vulnérabilités lorsqu’examiné par une équipe externe. Les résultats ont aussi souligné l’utilité de combiner des approches automatisées (comme des tests à grande échelle) avec des évaluations humaines pour capturer des risques subtils, tels que des réponses apparemment cohérentes mais fondées sur des raisonnements erronés. Cette hybridation des méthodes est présentée comme une voie prometteuse pour affiner les futurs protocoles de sécurité.
Enfin, les deux laboratoires appellent à généraliser ce type de partenariats, arguant que la sécurité de l’IA ne peut être garantie par une seule entité, aussi avancée soit-elle. Ils proposent de créer des cadres standardisés pour les évaluations croisées, incluant des benchmarks publics et des audits indépendants, afin d’accélérer l’identification des risques émergents. Bien que cette collaboration reste limitée à deux acteurs, elle pourrait servir de modèle pour une coopération plus large entre chercheurs, régulateurs et entreprises, dans un contexte où les enjeux éthiques et techniques de l’IA deviennent de plus en plus pressants. L’initiative rappelle que la course à l’innovation ne doit pas éclipser l’impératif de sûreté, surtout à l’aube de modèles toujours plus puissants et autonomes.