La propagation rapide de la désinformation multimodale sur les réseaux sociaux suscite des préoccupations croissantes, mais la recherche sur la détection de la désinformation vidéo reste limitée en raison du manque de jeux de données diversifiés et à grande échelle. Les méthodes existantes présentent souvent un surajustement à des modèles rigides et manquent de raisonnement approfondi sur le contenu trompeur. Pour relever ces défis, les chercheurs introduisent FakeVV, un benchmark à grande échelle comprenant plus de 100 000 paires vidéo-texte avec des annotations fines et interprétables.

Fact-R1, le cadre proposé, intègre un raisonnement profond avec un apprentissage par renforcement collaboratif basé sur des règles. L'entraînement s'effectue en trois étapes : un réglage par instructions de chaîne de pensée longue pour la désinformation, un alignement des préférences via l'optimisation directe des préférences, et une optimisation de politique relative de groupe utilisant une nouvelle fonction de récompense vérifiable. Cette approche permet à Fact-R1 d'exhiber des comportements de raisonnement émergents comparables à ceux observés dans les systèmes avancés d'apprentissage par renforcement basés sur le texte, mais dans le cadre plus complexe de la désinformation multimodale.

Ce travail établit un nouveau paradigme pour la détection de la désinformation, en reliant la compréhension vidéo à grande échelle, l'alignement guidé par le raisonnement et la vérification interprétable. Il comble ainsi une lacune importante dans la recherche actuelle et ouvre la voie à des systèmes plus robustes et transparents pour lutter contre la désinformation vidéo.