OmniVinci représente une avancée majeure dans le domaine des modèles de langage omni-modaux, visant à doter les machines d'une capacité de perception multimodale similaire à celle des humains. Les auteurs présentent trois innovations clés en matière d'architecture : OmniAlignNet pour renforcer l'alignement entre les embeddings vision et audio, Temporal Embedding Grouping pour capturer l'alignement temporel relatif, et Constrained Rotary Time Embedding pour encoder les informations temporelles absolues. Ces avancées architecturales sont complétées par un pipeline de curation et de synthèse de données générant 24 millions de conversations mono-modales et omni-modales, illustrant comment les différentes modalités se renforcent mutuellement en perception et en raisonnement. Le modèle OmniVinci surpasse les performances de Qwen2.5-Omni sur plusieurs benchmarks, tout en utilisant seulement 0,2T de tokens d'entraînement, soit une réduction de six fois par rapport aux 1,2T de Qwen2.5-Omni. Les applications en aval démontrent des avantages omni-modaux dans des domaines variés tels que la robotique, l'IA médicale et les usines intelligentes, soulignant le potentiel transformateur de cette approche pour des applications industrielles et scientifiques. Ce travail met en lumière l'importance de l'intégration multimodale pour le développement de systèmes d'IA plus robustes et polyvalents, capables de traiter et de comprendre des informations provenant de multiples sources sensorielles de manière cohérente et unifiée.