Les « scaling laws » ont structuré l’ère des grands modèles, mais 2025 a ramené du réalisme: la qualité et la diversité des données pèsent plus que la taille brute; l’architecture change la pente; et le coût/énergie impose des plateaux. Autrement dit, « plus gros » ne suffit pas.

Données utiles > données brutes — La déduplication, le filtrage instructif et les mixtures adaptées au domaine (multilingue, code, technique) changent l’utilité marginale du token. Un milliard de tokens médicaux qualifiés peut valoir plus que dix milliards web bruités. Les pipelines modernes mesurent l’« utilité attendue » par segment (coverage, perplexité locale, conflits).

Compute réel — Les courbes idéales ignorent la logistique GPU, la bande passante inter‑nœuds et l’énergie. La planification (curriculum, mélange de sources, scheduling par difficulté) gagne autant que le FLOPs brut. Les runs fractionnés (avec reprises propres) réduisent les risques d’échec.

Architecture — MoE, attention efficientes (linéaires, glissantes), contextes longs modifient la pente qualité/coût. Un modèle moyen avec bonne architecture et données propres peut battre un géant mal nourri.

Diminishing returns — Au‑delà d’un seuil, la pente se casse: chaque point de qualité coûte de plus en plus. Mieux vaut investir dans les données, l’architecture et l’évaluation que de poursuivre aveuglément la taille.

Évaluation locale — Mesurez sur vos tâches: jeux réalistes, métriques produit (tâches résolues, temps gagné) et qualité (factualité, format). Les benchmarks publics orientent, mais ne décident pas.

Stratégies 2025 —

Checklist — nettoyez vos datasets, mesurez l’utilité marginale, choisissez l’architecture pour votre latence/contexte, et construisez un harness maison. Les « scaling laws » restent une boussole, pas un GPS: la route dépend de votre terrain. original: true category: Analyse tags: