Cette étude introduit l'Analytical Reliability Benchmark (ARB), un cadre reproductible pour quantifier la fiabilité du raisonnement dans les modèles d'IA appliqués à l'analyse des systèmes énergétiques, évaluant quatre modèles frontaliers et confirmant que la fiabilité du raisonnement peut être mesurée objectivement.
2025-10-24•arXiv cs.AI•1 min
Cette étude explore l'idée que les grands modèles de langage doivent passer par une phase de verrouillage, stabilisant leur identité et leurs objectifs, pour atteindre une intelligence artificielle générale, ce qui soulève des questions cruciales sur la sécurité et la fiabilité de ces systèmes.
2025-10-24•arXiv cs.AI•1 min
Surfer 2 est une architecture unifiée qui fonctionne à partir d'observations visuelles, surpassant les performances humaines sur plusieurs benchmarks sans ajustement spécifique, marquant une avancée majeure dans le contrôle généralisé des ordinateurs par interaction visuelle.
2025-10-24•arXiv cs.AI•1 min
TRUST propose un cadre décentralisé pour auditer les grands modèles de langage, résolvant les problèmes de robustesse, d'évolutivité, de transparence et de confidentialité grâce à un mécanisme de consensus, une décomposition hiérarchique et une blockchain pour la traçabilité.
2025-10-24•arXiv cs.AI•1 min
Cet article présente un algorithme inspiré de l'informatique quantique pour résoudre des problèmes d'optimisation binaire non contrainte, démontrant son efficacité sur des énigmes Sudoku et des problèmes MaxCut de grande taille.
2025-10-24•arXiv cs.AI•1 min
La startup chinoise Moonshot AI serait sur le point de finaliser une nouvelle levée de fonds de plusieurs centaines de millions de dollars, attirant l'attention des investisseurs après le succès de son chatbot Kimi.
2025-10-24•TechNode (China tech, EN)•1 min
Alibaba ouvre les précommandes pour ses lunettes Quark AI, intégrant navigation AR, paiement visuel via Alipay et reconnaissance de produits, avec des livraisons prévues en décembre, marquant une avancée dans l'écosystème technologique du groupe.
2025-10-24•TechNode (China tech, EN)•1 min
Des chercheurs explorent l'application des principes du traitement du signal aux modèles d'IA et aux espaces d'intégration pour améliorer leur efficacité et leur précision, en collaboration avec le Prof. Gunnar Carlsson de Stanford, obtenant des résultats prometteurs comme une recherche vectorielle 10 fois plus rapide.
2025-10-24•r/MachineLearning — webinars•1 min
LeRobot v0.4.0 introduit des améliorations majeures pour l'apprentissage robotique open source, avec des ensembles de données évolutifs, de nouveaux modèles VLA, un système de plugins pour l'intégration matérielle, et des environnements de simulation enrichis, rendant la formation des robots plus accessible et efficace.
2025-10-24•Hugging Face Blog•1 min
Les systèmes d'exploitation à base d'agents, comme ColorAgent, révolutionnent l'interaction homme-machine en utilisant des architectures multi-agents capables de comprendre le langage naturel, de s'adapter aux interfaces changeantes et d'anticiper les besoins des utilisateurs, tout en apprenant de manière autonome et en améliorant continuellement leurs performances.
2025-10-23•Habr — Data Science (RU)•1 min
Les développeurs de ColorAgent ont créé un agent de système d'exploitation capable de comprendre les requêtes en langage naturel, de naviguer dans l'interface graphique changeante d'Android et d'interagir de manière intuitive avec les utilisateurs, en s'adaptant à leurs habitudes et en anticipant leurs besoins grâce à une architecture multi-agents et un apprentissage en deux étapes.
2025-10-23•Habr — Machine Learning (RU)•1 min
EA collabore avec Stability AI pour intégrer des outils d'IA dans ses processus de développement de jeux, tout en soulignant que les humains resteront au cœur de la narration, selon un article de Jay Peters publié sur The Verge.
2025-10-23•The Verge AI•1 min
Cet article explore comment l'approche DRAKON combinée aux grands modèles de langage (LLM) peut aider les entreprises à éviter les échecs coûteux des projets d'IA en rendant les processus plus transparents et mieux structurés, comme en témoignent les échecs d'IBM Watson, Zillow et McDonald's.
2025-10-23•Habr — Data Science (RU)•1 min
Krafton, le créateur de PUBG, investit massivement dans l'IA pour automatiser ses processus et renforcer ses services de jeux, avec un budget de près de 70 millions de dollars pour un cluster GPU et une réorganisation interne axée sur l'IA.
2025-10-23•The Verge AI•1 min
Tensormesh, une startup spécialisée dans l'optimisation des serveurs IA, a levé 4,5 millions de dollars pour développer une version commerciale de son utilitaire open source LMCache, visant à réduire les coûts d'inférence jusqu'à 10 fois.
2025-10-23•TechCrunch AI•1 min
Druid AI a présenté lors de son événement Symbiosis 4 à Londres une nouvelle génération d'agents IA capables de concevoir, tester et déployer d'autres agents IA, marquant ainsi une avancée vers un modèle d'automatisation en usine pour les entreprises.
2025-10-23•AI News (artificialintelligence-news.com)•1 min
Un ingénieur ML partage ses astuces pour optimiser les coûts d'inférence des grands modèles de langage dans le cloud en utilisant le framework VLLM, tout en maintenant un équilibre entre performance et qualité.
2025-10-23•Habr — Machine Learning (RU)•1 min
Un ingénieur ML partage ses astuces pour optimiser les coûts d'inférence des grands modèles de langage dans le cloud en utilisant le framework VLLM, tout en maintenant un équilibre entre performance et qualité.
2025-10-23•Habr — Data Science (RU)•1 min
Palantir et Lumen Technologies ont annoncé un partenariat stratégique de plusieurs millions de dollars sur plusieurs années pour développer des services d'IA destinées aux entreprises, combinant les plateformes de Palantir avec l'infrastructure de Lumen.
2025-10-23•TechCrunch AI•1 min
Google Earth intègre désormais des modèles IA via Gemini, permettant aux utilisateurs de poser des questions complexes et d'obtenir des analyses géospatiales avancées en combinant des données météorologiques, satellitaires et démographiques.
2025-10-23•The Verge AI•1 min
LangSmith introduit de nouvelles fonctionnalités, Insights Agent et Multi-turn Evals, pour surveiller et évaluer les interactions des agents en production, offrant une meilleure visibilité sur leur performance et leur capacité à atteindre les objectifs des utilisateurs.
2025-10-23•LangChain Blog•1 min
L'AAAI 2026 introduit un système de révision assistée par IA, utilisant un modèle d'OpenAI, où les auteurs, relecteurs et membres du comité fourniront des retours sur les évaluations de l'IA, une décision critiquée comme exploitant le travail gratuit des relecteurs.
2025-10-23•r/deeplearning — webinars•1 min
À mesure que l'IA devient centrale dans les entreprises, les ingénieurs en données jouent un rôle clé dans la stratégie IA et influencent les décisions commerciales, tout en faisant face à des défis croissants liés à la complexité et à la charge de travail.
2025-10-23•MIT Technology Review•1 min
OpenAI propose désormais une résidence des données au Royaume-Uni, répondant aux préoccupations de souveraineté des données et accélérant l'adoption de l'IA dans les secteurs réglementés comme la santé et la finance.
2025-10-23•AI News (artificialintelligence-news.com)•1 min
OpenAI annonce l'acquisition de Software Applications Incorporated, l'éditeur de Sky, une interface de langage naturel pour Mac, visant à intégrer ses fonctionnalités avancées dans ChatGPT pour améliorer l'interaction entre les utilisateurs et l'IA sur leurs ordinateurs.
2025-10-23•OpenAI Blog•1 min
Reddit a porté plainte contre quatre entreprises, dont Perplexity, pour avoir exploité illégalement ses données afin d'entraîner des intelligences artificielles, contournant ses protections et revendant les messages de ses utilisateurs.
2025-10-23•Le Monde IA•1 min
Ce livre guide les lecteurs à travers la création d'un modèle de langage de grande taille (LLM) similaire à GPT, en partant de zéro, en utilisant Python et des connaissances de base en apprentissage automatique, offrant une compréhension approfondie des LLM grâce à une approche pratique et complète.
2025-10-23•Habr — Machine Learning (RU)•1 min
Consensus utilise GPT-5 et l'API Responses pour concevoir un système multi-agents qui planifie, lit et synthétise les preuves scientifiques, réduisant ainsi des semaines de recherche à quelques minutes, tout en améliorant l'accessibilité et la fiabilité des résultats pour les chercheurs du monde entier.
2025-10-23•OpenAI Blog•1 min
L'article explore les défis posés par l'opacité des systèmes d'IA modernes, illustrés par des cas concrets comme celui d'un avocat utilisant ChatGPT pour des références juridiques fictives, et discute des solutions pour rendre ces systèmes plus transparents et compréhensibles.
2025-10-23•Habr — Machine Learning (RU)•1 min
Google Earth AI combine des modèles de base et des agents de raisonnement géospatial pour fournir des insights exploitables, améliorant la compréhension des phénomènes planétaires et aidant à répondre à des questions complexes grâce à une approche multimodale.
2025-10-23•Google Research Blog•1 min
ByteDance a présenté Seed3D 1.0, un modèle basé sur un transformateur de diffusion capable de générer des actifs 3D de simulation à partir d'une seule image, offrant une géométrie détaillée, des textures réalistes et des matériaux de rendu physiquement basés.
2025-10-23•TechNode (China tech, EN)•1 min
Honor, anciennement connu comme fabricant de smartphones, se repositionne comme une entreprise d'écosystème technologique pilotée par l'IA, avec un investissement de plus de 10 milliards de yuans dans la R&D en IA et une nouvelle «Stratégie Alpha» visant à créer un monde intelligent.
2025-10-23•TechNode (China tech, EN)•1 min
Cette étude explore comment les agents basés sur des modèles de langage peuvent reproduire des dynamiques sociales complexes, similaires aux comportements humains en ligne, en utilisant des mécanismes de mémoire et d'apprentissage spécifiques.
2025-10-23•arXiv cs.AI•1 min
Cette étude aborde le problème des comportements de raccourci dans les modèles de récompense basés sur les préférences, proposant une méthode pour améliorer la généralisation et réduire la dépendance aux caractéristiques spurieuses.
2025-10-23•arXiv cs.AI•1 min
Cette étude propose ACTMED, un cadre diagnostique utilisant l'apprentissage automatique et les modèles de langage pour optimiser la sélection des tests cliniques, améliorant ainsi la précision, l'interprétabilité et l'utilisation des ressources tout en intégrant le jugement des cliniciens.
2025-10-23•arXiv cs.AI•1 min
MSC-Bench est un benchmark à grande échelle évaluant l'orchestration multi-serveur d'outils par des agents LLM dans un écosystème hiérarchique, révélant des faiblesses systémiques même chez les agents les plus avancés.
2025-10-23•arXiv cs.AI•1 min
Un expériment visant à automatiser les réponses aux tickets de support a abouti à la création d'un membre quasi autonome de l'équipe de support, capable de gérer des tâches complexes, mais confronté à des défis tels que la gestion des erreurs et la responsabilité des décisions.
2025-10-23•Habr — Data Science (RU)•1 min
Meta et Hugging Face lancent l'OpenEnv Hub, un espace communautaire pour développer et partager des environnements sécurisés et modulaires dédiés aux agents IA, facilitant ainsi leur entraînement et déploiement.
2025-10-23•Hugging Face Blog•1 min
La Corée du Sud, avec ses atouts en semi-conducteurs et son infrastructure numérique, se positionne comme un leader en IA grâce à un partenariat avec OpenAI, visant à stimuler la croissance économique et l'innovation dans divers secteurs clés.
2025-10-23•OpenAI Blog•1 min
OpenAI a demandé à la famille d'un adolescent décédé par suicide après des conversations avec ChatGPT la liste des participants à son mémorial, suscitant des accusations de harcèlement de la part des avocats de la famille, qui poursuit l'entreprise pour mort injustifiée.
2025-10-22•TechCrunch AI•1 min
La PyTorch Foundation intègre Ray, un framework de calcul distribué, pour simplifier et accélérer les projets d'IA, en offrant une pile de calcul unifiée avec PyTorch et vLLM, tout en favorisant l'open source et l'interopérabilité.
2025-10-22•PyTorch Blog•1 min
Des chercheurs de Google Quantum AI ont introduit un nouvel algorithme quantique, Quantum Echoes, mesurant les corrélateurs hors-temps pour démontrer un avantage quantique vérifiable, ouvrant la voie à la résolution de problèmes réels comme l'apprentissage hamiltonien en RMN.
2025-10-22•Google Research Blog•1 min
Les frameworks LangChain et LangGraph ont atteint la version 1.0, marquant une étape majeure pour ces outils open source avec des améliorations significatives en termes de stabilité, de flexibilité et d'intégration de modèles, tout en introduisant une nouvelle documentation redessinée.
2025-10-22•LangChain Blog•1 min
Torchcomms est une nouvelle API expérimentale de communication pour PyTorch Distributed, conçue pour faciliter l'entraînement de modèles à grande échelle avec des fonctionnalités telles que la tolérance aux pannes et la prise en charge de matériel hétérogène, tout en permettant une intégration transparente avec les bibliothèques existantes.
2025-10-22•PyTorch Blog•1 min
ExecuTorch 1.0 permet un déploiement fluide et prêt pour la production de modèles PyTorch directement sur les appareils en périphérie, sans conversion ni réécriture, tout en supportant une large gamme de matériels et de types de modèles, offrant ainsi une plus grande stabilité et compatibilité pour une utilisation en production.
2025-10-22•PyTorch Blog•1 min
PyTorch Monarch est un nouveau framework de programmation distribuée qui simplifie la gestion des workflows complexes de machine learning en utilisant un modèle de contrôleur unique, permettant de programmer des clusters comme des machines locales avec des API simples et une gestion progressive des pannes.
2025-10-22•PyTorch Blog•1 min
Tencent a lancé WorldMirror 1.1, une version améliorée de son modèle de génération 3D, permettant désormais un déploiement en temps réel sur un seul GPU tout en supportant des entrées multivues et vidéo pour créer des scènes 3D en quelques secondes.
2025-10-22•TechNode (China tech, EN)•1 min
Les experts en sécurité de JFrog ont découvert une faille de 'détournement de prompts' dans le protocole MCP, permettant à des attaquants d'exploiter les faiblesses des sessions pour injecter des requêtes malveillantes, compromettant ainsi la sécurité des systèmes d'IA interconnectés.
2025-10-22•AI News (artificialintelligence-news.com)•1 min
Cet article explore les défis et solutions pour optimiser la capture d'images à haute fréquence dans une application mobile utilisant Flutter, cruciale pour les analyses d'infrastructure urbaine via l'IA, en réduisant les délais de traitement de 3 secondes à quelques millisecondes.
2025-10-22•Habr — Machine Learning (RU)•1 min
Cet article présente une comparaison détaillée des architectures des principaux modèles de langage open source, en mettant l'accent sur les évolutions structurelles et les techniques innovantes comme le Multi-Head Latent Attention et le Mixture-of-Experts, tout en analysant les performances et les choix architecturaux des modèles récents.
2025-10-22•Habr — Machine Learning (RU)•1 min