Cette étude explore les défis de la détection des deepfakes dans des conditions réelles, mettant en évidence les lacunes des modèles open-source actuels. Les auteurs, travaillant dans le domaine de la vérification d'identité, soulignent que les solutions de recherche existantes sont souvent moins performantes qu'un simple modèle de base comme CLIP. Le problème central réside dans la robustesse des données hors distribution, où même une petite fuite de données de test dans l'ensemble d'entraînement peut fausser les métriques de performance. Les chercheurs ont créé un pipeline reproductible pour évaluer les détecteurs de deepfakes, incluant des transformations courantes comme le redimensionnement, la mise à l'échelle et la compression, qui sont imperceptibles pour les humains mais problématiques pour les modèles. Ils ont également construit un large ensemble de données d'images utilisant des méthodes de substitution de visage de pointe. L'évaluation montre que chaque modèle testé présente au moins un scénario où ses performances chutent à un niveau proche de l'aléatoire. L'étude ne se contente pas de présenter un nouveau benchmark ou un autre ensemble de données de deepfakes, mais propose un pipeline qui reflète les attaques réelles observées en production. Les auteurs partagent également un résultat prometteur utilisant des modèles de langage visuel zero-shot pour la détection, ouvrant la voie à de futures recherches. Ils invitent la communauté à collaborer et à explorer davantage ce domaine crucial pour la sécurité et la vérification d'identité.