Comprendre un LLM (2025): comment ça marche, sans équations

Un LLM (Large Language Model) n’est pas une « boîte magique » qui pense. C’est un système statistique entraîné à prédire le prochain mot (ou sous‑mot, appelé token) en fonction des mots précédents. Dit autrement: à chaque étape, il devine ce qui a le plus de chances de venir ensuite, en s’appuyant sur ce qu’il a appris dans d’immenses corpus de texte. Cette simple règle, appliquée à très grande échelle avec une architecture appelée Transformer, donne des capacités surprenantes: répondre à des questions, expliquer un concept, écrire un code, traduire, synthétiser. Voici comment cela fonctionne, sans équations.

1) Les tokens: l’unité de base — Le modèle ne lit pas des « mots » entiers mais des morceaux (tokens). En français, « développement » peut devenir plusieurs tokens. Pourquoi ? Pour que le modèle traite efficacement les langues, les noms propres, les fautes, les URL. En pratique, 1000 tokens ≈ 700–800 mots en anglais, un peu moins en français. Les services facturent au token; la longueur d’entrée + sortie est limitée par une « fenêtre de contexte » (ex: 8k, 32k, 200k tokens).

2) Le contexte: sa mémoire de travail immédiate — Le modèle ne « se souvient » pas d’hier. Il ne voit que les tokens présents dans le prompt et l’historique de la conversation, jusqu’à la limite de la fenêtre de contexte. Si une information n’est pas dans cette fenêtre (ou mal résumée), il peut l’oublier ou halluciner. D’où l’intérêt du RAG: injecter des extraits pertinents dans le contexte.

3) L’attention: où regarder dans le texte — Le cœur du Transformer s’appelle l’attention. À chaque nouveau token à produire, le modèle pondère l’importance des tokens déjà vus: quels mots m’aident le plus à deviner la suite ? Cette attention est « multi‑têtes »: plusieurs « regards » parallèles captent des motifs différents (syntaxe, style, relations entre entités, structure logique). C’est cette capacité à relier des parties lointaines du texte qui donne la cohérence globale.

4) Apprendre en lisant beaucoup — Pendant l’entraînement, on montre au modèle des milliards de séquences de texte et on lui demande: « Devine le prochain token ». Il se trompe, on corrige ses paramètres, et on recommence. À la fin, il a mémorisé des régularités: grammaire, faits fréquents, façons d’expliquer, schémas de code. Il n’a pas « compris » au sens humain, mais il a une carte statistique très riche de comment les mots s’enchaînent.

5) Pourquoi ça a l’air de raisonner — En prédisant la suite, le modèle peut dérouler des chaînes de logique qu’il a vues des millions de fois (explications pas à pas, preuves, tutoriels). Si vous structurez bien la question (rôle, étapes, critères de réussite), vous obtenez l’illusion utile d’un raisonnement. Et parfois, plus qu’une illusion: des capacités émergent quand le modèle est grand et bien instruit (décomposer un problème, vérifier un calcul simple, relier des notions).

6) Là où ça casse —

Connaissances périmées: l’entraînement n’est pas en temps réel.
Factualité incertaine: s’il manque une source dans le contexte, le modèle invente parfois.
Math exactes, planification longue, multi‑étapes fragiles.
Sorties strictes (JSON, SQL) si le prompt est flou.

7) Les bons réflexes d’usage —

Donnez du contexte: qui vous êtes, votre but, les contraintes.
Décomposez la tâche: étapes, format de sortie, exemples.
Contrôlez: relisez, validez les parties sensibles, ajoutez des garde‑fous.
Pour des faits à jour: utilisez un RAG (voir guide associé) ou un outil de recherche.

8) Personnalisation: pourquoi les « systèmes » et les « outils » — Les plateformes modernes ajoutent deux briques: un message « système » (définit le rôle constant, ex: « Tu es un prof de maths patient ») et des « outils » (APIs que le modèle peut appeler: recherche, base de données, calcul). Le modèle reste un prédicteur de texte, mais on lui apprend quand appeler un outil et comment utiliser sa réponse. Cela élargit concrètement ses capacités.

9) Choisir un modèle —

Grande taille (GPT‑4, Claude 3.5, Llama 3.x 70B+): meilleures qualités générales, plus coûteux.
Taille moyenne (Mistral Large, Llama 3 8–13B): très bon rapport qualité/prix, français natif pour certains.
Petits modèles (7B et moins): utiles on‑prem pour confidentialité, mais plus limités.
Regardez: coût par 1k tokens, fenêtre de contexte, latence, force en code/raisonnement/langues.

10) Sécurité et éthique — Mettez des limites claires: sujets sensibles, données personnelles, droit d’auteur. Ajoutez des politiques de refus, des logs, et des revues humaines sur un échantillon. Un LLM est un outil: la responsabilité reste chez vous.

11) Exemple concret — « Explique‑moi Kubernetes à un développeur junior ».

Rôle: « Tu es un formateur DevOps qui vulgarise sans condescendance ».
Contexte: le lecteur maîtrise Docker et la ligne de commande.
Tâche: 6 paragraphes courts + 1 schéma ASCII.
Contraintes: pas de jargon non défini, exemples concrets. Résultat: l’explication gagne en clarté, la structure enchaîne logique → composantes → exemple → pièges → conclusion.

12) À retenir — Un LLM prédit le prochain token avec brio. Si vous fournissez bon contexte, consignes claires et garde‑fous simples, vous obtenez un assistant vraiment utile. Si vous attendez « la vérité absolue sans sources » ou « la planification parfaite », vous serez déçu. C’est un outil statistique puissant, pas un oracle. original: true category: Fondamentaux tags:

LLM
Comprendre
Débutant permalink: /fondamentaux/llm-cest-quoi-2025/