Les LLMs multimodaux combinent texte, vision, audio (et parfois vidéo) pour résoudre des tâches complexes (analyse d'images de documents, UI, graphiques; transcription+raisonnement; recherche cross‑modalité). Ce guide présente les architectures et pratiques d’évaluation.

Architectures — • Encoders spécialisés (ViT/CLIP pour l’image, Whisper‑like pour l’audio) → projections → LLM central. • Adapters/LoRA pour l’alignement instructionnel et les tâches ciblées. • Mémoire courte inter‑modale pour relier les indices visuels aux étapes textuelles.

Entraînement & données — • Paires image‑texte, audio‑texte; qualité > quantité. • Dédoublonnage, équilibre des domaines, licences claires. • Alignement instructionnel multimodal (CoT + références visuelles).

Évaluation — • Benchmarks multi‑domaine (documents, charts, UI, scènes réelles). • Mesures composites: exact match + métriques visuelles/verbales. • Tests d’attaque: hallucinations visuelles, sécurité (contenus sensibles).

Coûts & latence — • Encoders lourds: pré‑processez (extraction OCR, patches d’images). • Batching et cache d’embeddings pour les requêtes récurrentes.

Cas d’usage — • Lecture de documents/PII: masquage + DLP. • Support technique: capture d’écran → diagnostic guidé. • Recherche: texte→image et image→texte avec rerank.

Limites — hallucinations visuelles, biais de datasets, confidentialité. original: true category: Guide tags: