Ce texte explore les risques extrêmes liés à la diffusion de modèles de langage à poids ouverts (gpt-oss), en se concentrant sur un scénario pessimiste où ces systèmes pourraient être détournés à des fins malveillantes. Les auteurs introduisent le concept de malicious fine-tuning (MFT), une méthode consistant à affiner délibérément un modèle ouvert pour en exacerber les capacités dans des domaines sensibles, afin d’évaluer les dangers potentiels qu’il pourrait représenter entre de mauvaises mains.

L’étude se concentre sur deux domaines critiques : la biologie et la cybersécurité. Dans le premier, les chercheurs testent jusqu’où un modèle affiné pourrait faciliter la conception d’agents pathogènes, la synthèse de toxines ou l’optimisation de processus dangereux, en exploitant ses connaissances scientifiques et sa capacité à générer des protocoles détaillés. Pour la cybersécurité, le MFT vise à maximiser l’efficacité du modèle dans l’identification de vulnérabilités logicielles, la génération de codes malveillants ou l’automatisation d’attaques, en s’appuyant sur sa compréhension des systèmes informatiques et des failles connues.

Les résultats suggèrent que même des modèles ouverts, initialement conçus pour des usages généraux, pourraient, après un affinement malveillant ciblé, atteindre des niveaux de performance inquiétants dans ces domaines. L’approche met en lumière les limites des garde-fous actuels, comme le filtrage des données ou les restrictions d’usage, qui peuvent être contournés par des acteurs déterminés. Les auteurs soulignent ainsi l’urgence de repenser les protocoles de diffusion des poids des modèles, notamment en évaluant systématiquement leur potentiel de détournement avant toute publication.

Enfin, l’article insiste sur la nécessité d’une collaboration entre chercheurs, régulateurs et développeurs pour établir des normes strictes encadrant les modèles ouverts. Parmi les pistes évoquées figurent l’adoption de techniques de watermarking pour tracer les usages, le développement de contre-mesures intégrées aux architectures, ou encore la création de benchmarks publics permettant d’anticiper les risques avant la mise à disposition des modèles. Cette étude sert d’avertissement : sans cadre rigoureux, la démocratisation des LLMs ouverts pourrait accidentellement fournir des outils puissants à des acteurs hostiles, avec des conséquences difficiles à maîtriser.