Note : Ceci est une note de recherche complétant le livre L’ère de la post-pénurie, désormais disponible à l’achat. Ces notes approfondissent les concepts du texte principal. Commencez ici ou procurez-vous le livre.
Grands modèles de langage : l’autocomplétion qui a dévoré le monde
Voici le sale secret des grands modèles de langage : en leur cœur, ils jouent simplement au jeu le plus sophistiqué de « deviner le mot suivant ». C’est tout. Le même principe de base derrière les suggestions du clavier de votre téléphone écrit maintenant des mémoires juridiques, diagnostique des maladies et génère du code qui alimente les entreprises du Fortune 500.
Sauf que votre téléphone prédit le mot suivant en se basant sur un dictionnaire et quelques statistiques de base. GPT-4 prédit le mot suivant en se basant sur avoir « lu » la quasi-totalité d’Internet, et le fait avec une cohérence si troublante que nous avons commencé à donner des noms à ces systèmes comme s’ils étaient des collègues. « Claude m’a aidé avec ce rapport ». « J’ai demandé à Gemini de réviser mon code ». Nous personnifions des moteurs de prédiction.
Si cela ne vous frappe pas comme terrifiant ou miraculeux (ou les deux), vous n’avez pas fait attention.
Ce que sont réellement les LLM (et ce qu’ils ne sont pas)
Le décodeur de jargon
Débarrassons-nous du vocabulaire, parce que l’industrie de l’IA adore sa soupe d’alphabet :
Token : L’unité atomique de texte que les LLM traitent. Pas tout à fait un mot, pas tout à fait un caractère. « Strawberry » est un token ; « unbelievable » est deux (« un » + « believable »). Une règle approximative : un token égale environ 0,75 mots anglais, ou environ 4 caractères. Quand quelqu’un dit « GPT-4 a une fenêtre de contexte de 128K », ils veulent dire qu’il peut traiter environ 96 000 mots à la fois – environ 300 pages de texte.
Transformer : L’architecture de réseau neuronal qui alimente tous les LLM modernes. Inventé par des chercheurs de Google en 2017, le transformer utilise un mécanisme appelé « attention » qui permet au modèle de considérer les relations entre toutes les parties de l’entrée simultanément. Avant les transformers, les modèles traitaient le texte mot par mot, comme lire à travers un judas. Les transformers laissent les modèles voir toute la page à la fois.
Attention : L’innovation centrale qui fait fonctionner les transformers. Lors du traitement du mot « il » dans « Le chat s’est assis sur le tapis parce qu’il était fatigué », les mécanismes d’attention permettent au modèle de comprendre que « il » fait référence à « le chat », pas « le tapis ». Il le fait en calculant des relations – poids d’attention – entre chaque mot et tous les autres mots. Le modèle apprend quelles relations comptent.
Paramètres : Les nombres ajustables à l’intérieur d’un réseau neuronal qui sont réglés pendant l’entraînement. Plus de paramètres signifie généralement plus de capacité à apprendre des modèles complexes. GPT-3 avait 175 milliards de paramètres. GPT-4 en aurait plus d’un trillion. DeepSeek-V3 en a 671 milliards, mais n’en active que 37 milliards à la fois (plus à ce sujet plus tard).
Fine-tuning : Prendre un modèle pré-entraîné et le spécialiser pour une tâche spécifique. Le modèle de base apprend des modèles linguistiques généraux à partir de texte Internet ; le fine-tuning lui enseigne à suivre des instructions, refuser les demandes nuisibles ou exceller en codage. C’est comme la différence entre une éducation générale et une formation professionnelle.
Inférence : Utiliser un modèle entraîné pour générer des sorties. L’entraînement est la partie coûteuse (milliards de dollars pour les modèles de pointe) ; l’inférence est ce qui se passe quand vous tapez une question et que le modèle répond. L’économie des LLM dépend de rendre l’inférence bon marché.
L’architecture transformer : le moteur sous le capot
Pensez à un transformer comme une salle de concert pleine de musiciens, tous s’écoutant simultanément.
Dans les architectures plus anciennes (réseaux neuronaux récurrents, ou RNN), traiter le texte était comme une chaîne de seaux – l’information passait d’une position à la suivante, séquentiellement. Le mot 50 devait attendre que les mots 1-49 soient traités en premier. Cela créait des goulots d’étranglement et rendait difficile le souvenir du contexte distant.
Les transformers ont démoli cette limitation. En utilisant le mécanisme d’attention, chaque position dans la séquence peut assister à chaque autre position directement, en parallèle. C’est comme si tout le monde dans l’orchestre pouvait entendre tout le monde en même temps, ajustant leur jeu en conséquence.
Le fameux article de 2017 « Attention Is All You Need » a introduit cette architecture, et son titre n’était pas de l’hyperbole – ils ont littéralement jeté tout le reste (convolutions, récurrence) et l’ont remplacé par une attention pure. Les résultats ont été stupéfiants : entraînement plus rapide, meilleures performances et capacité à passer à des tailles que les architectures précédentes ne pouvaient pas gérer.
L’intuition clé : l’attention calcule une somme pondérée de valeurs, où les poids sont déterminés par la pertinence de chaque position pour la position actuelle. Pour chaque mot, le modèle demande : « À quels autres mots dois-je prêter attention pour comprendre celui-ci ? »
L’astuce mathématique – requêtes, clés et valeurs – vient de la recherche d’information :
- Requête : « Qu’est-ce que je cherche ? »
- Clé : « Quelle information chaque position a-t-elle ? »
- Valeur : « Si cette position est pertinente, que dois-je en prendre ? »
Faites correspondre les requêtes aux clés, utilisez les scores de correspondance pour pondérer les valeurs, et vous obtenez des représentations conscientes du contexte. Empilez ce mécanisme en plusieurs couches avec plusieurs « têtes » (calculs d’attention parallèles se concentrant sur différents types de relations), et vous obtenez le LLM moderne.
Le problème d’émergence
Voici la partie vraiment étrange : les LLM exhibent des capacités qui n’ont pas été explicitement programmées et parfois n’étaient pas présentes dans les versions plus petites de la même architecture.
Entraînez un petit modèle de langage sur du texte Internet, et il prédit des mots. Entraînez-en un légèrement plus grand, et il prédit toujours juste des mots. Continuez à augmenter l’échelle, et quelque part autour de 100 milliards de paramètres, le modèle commence à exhiber des comportements que personne ne lui a explicitement enseignés :
- Apprentissage en contexte (prompting few-shot) : lui montrer des exemples et le voir généraliser
- Raisonnement en chaîne de pensée : résoudre des problèmes étape par étape
- Exécution de code : comprendre et générer des langages de programmation
Ce sont des « capacités émergentes » – elles apparaissent de façon discontinue à mesure que les modèles augmentent. Un jour la capacité n’est pas là ; le lendemain elle l’est. Les chercheurs appellent cela une transition de phase, empruntant le terme à la physique (comme l’eau devenant soudainement de la glace à une température critique).
La réponse honnête à « pourquoi cela arrive-t-il ? » est : nous ne le savons pas complètement. Les LLM sont l’une des technologies les plus importantes que l’humanité ait jamais créées, et nous ne comprenons pas complètement comment ils fonctionnent. Nous savons ce qui entre (texte) et ce qui sort (prédictions). Le milieu est encore largement une boîte noire.
L’évolution : de GPT-4 à la frontière actuelle
2023 : la référence GPT-4
Quand OpenAI a publié GPT-4 en mars 2023, il a établi le benchmark que tout le monde poursuit depuis. Comparé à GPT-3.5, il était :
- Plus capable de raisonnement complexe
- Meilleur pour suivre des instructions nuancées
- Capable de traiter des images (multimodal)
- Moins sujet aux hallucinations évidentes
- Plus « aligné » avec les préférences humaines
La spécification rumeur : plus d’un trillion de paramètres dans une architecture de mélange d’experts (ce qui signifie que seul un sous-ensemble s’active pour une requête donnée). L’entraînement aurait coûté plus de 100 millions de dollars en calcul seul.
2024 : la révolution du raisonnement
2024 a été l’année où les modèles ont appris à penser – ou du moins, à simuler la pensée.
OpenAI o1 (septembre 2024) : Le premier « modèle de raisonnement ». Contrairement à GPT-4, qui génère des réponses immédiatement, o1 produit des chaînes de pensée explicites avant de répondre. Il « pense » pendant des secondes ou des minutes, résolvant des problèmes étape par étape. Cela l’a rendu dramatiquement meilleur en mathématiques, codage et puzzles logiques. Le compromis : il est plus lent et plus cher par requête.
Claude 3.5 Sonnet (juin 2024) : Le vaisseau amiral d’Anthropic s’est positionné comme le meilleur ami du codeur – excellent pour lire, écrire et déboguer du code tout en maintenant la sophistication conversationnelle de GPT-4. L’entreprise a également introduit « l’utilisation informatique » : Claude pouvait opérer un ordinateur en regardant des captures d’écran et en simulant l’entrée souris/clavier.
Gemini 2.0 (décembre 2024) : La réponse de Google, avec multimodalité native (texte, images, audio, vidéo en entrée et sortie), capacités d’agent et intégration avec l’écosystème Google. La variante Pro a démontré un raisonnement fort tandis que Flash a optimisé pour la vitesse.
Llama 3 (Meta, 2024) : Le champion open-source. Meta a publié des poids que n’importe qui pouvait télécharger et exécuter localement, démocratisant l’accès aux capacités proches de la frontière. Les organisations pouvaient le fine-tuner pour leurs besoins spécifiques sans envoyer de données à des API externes.
2025 : les guerres de densité
Le récit a changé en 2025. La question a cessé d’être « quelle taille ? » et est devenue « quelle efficacité ? »
DeepSeek-V3 (janvier 2025) : Le modèle qui a fait chuter le cours de l’action Nvidia. Le laboratoire chinois DeepSeek a publié un modèle égalant les performances de GPT-4o tout en affirmant des coûts d’entraînement de seulement 5,5 millions de dollars, environ 1/18e des modèles américains comparables. Le secret : des innovations d’efficacité agressives incluant l’architecture Mélange d’Experts (671B paramètres totaux, 37B actifs), de nouveaux mécanismes d’attention et des approches d’apprentissage par renforcement pur qui ont réduit la dépendance aux données supervisées coûteuses.
Marc Andreessen l’a appelé « le moment Spoutnik de l’IA ». L’implication était claire : l’avantage de calcul brut pourrait ne pas être le fossé que tout le monde supposait.
DeepSeek-R1 (janvier 2025) : Leur modèle de raisonnement, égalant o1 d’OpenAI à une fraction du coût. Les coûts d’inférence ont chuté à 0,07 $ par million de tokens d’entrée, contre 15-30 $ pour les modèles de frontière américains. L’économie de l’IA a changé du jour au lendemain.
OpenAI o3 et o4-mini (avril 2025) : OpenAI a publié ses prochains modèles de raisonnement, o4-mini devenant le modèle le plus performant sur AIME 2024 et 2025. La série o a consolidé les « modèles pensants » comme catégorie de produits distincte.
Llama 4 (avril 2025) : Meta est passé au multimodal avec sa première architecture MoE. Scout (109B total, 17B actifs) a poussé les fenêtres de contexte à 10 millions de tokens. Maverick (400B total, 17B actifs, 128 experts) ciblait la qualité de production avec un contexte de 1M. L’open-source a rattrapé le propriétaire sur la plupart des benchmarks.
Claude Opus 4.5 (2025) : Le vaisseau amiral d’Anthropic comportait un « mode de pensée étendu » avec des chaînes de raisonnement plus longues qui pouvaient être introspectées. Opus 4.5 a atteint 61,4 % sur OSWorld, un benchmark testant les tâches d’opération informatique du monde réel. Quatre mois plus tôt, le leader était à 42,2 %.
Gemini 2.5 Pro (2025) : Le modèle de raisonnement de Google a pris la première place du classement LMArena avec un contexte de 1M de tokens, une pensée adaptative et de solides performances en mathématiques et en codage. Il a atteint 100 % sur AIME 2025 avec exécution de code.
GPT-5 (août 2025) : Le modèle de nouvelle génération tant attendu d’OpenAI a remplacé GPT-4o comme modèle par défaut dans ChatGPT. État de l’art en mathématiques (94,6 % sur AIME 2025), en codage (74,9 % sur SWE-bench Verified) et en compréhension multimodale (84,2 % sur MMMU).
DeepSeek-V3.1 et V3.2 (2025) : DeepSeek a continué d’itérer, fusionnant les forces de V3 et R1 dans des modèles hybrides capables de basculer entre modes « pensant » et « non-pensant ». V3.2-Speciale a obtenu des résultats de niveau or aux IMO, finales mondiales ICPC et IOI 2025.
2026 : l’ère agentique
Début 2026, la frontière est passée de « des modèles qui pensent » à « des modèles qui travaillent ».
Claude Opus 4.6 (février 2026) : Le dernier vaisseau amiral d’Anthropic a introduit les « équipes d’agents », plusieurs agents qui découpent les grandes tâches en segments et se coordonnent directement entre eux. Contexte de 1M de tokens, 128K de sortie maximale, pensée étendue. Sonnet 4.6 a suivi deux semaines plus tard au même prix que Sonnet 4.5.
GPT-5.2 (février 2026) : Le premier modèle à franchir 90 % sur ARC-AGI-1 (améliorant les 87 % d’o3-preview tout en réduisant le coût d’environ 390x). OpenAI a aussi publié des variantes o3-deep-research et o4-mini-deep-research optimisées pour les tâches d’analyse soutenue.
Gemini 3.1 Pro (février 2026) : La dernière génération de Google, itérant rapidement au-delà de la série Gemini 2.5. Le support des outils MCP et les budgets de pensée étendue lui ont donné de solides capacités agentiques.
La convergence open-source : Les modèles ouverts (Llama 4, DeepSeek V3.2, Qwen, Mistral Large 3) égalent ou dépassent les modèles fermés sur les benchmarks de connaissance, mathématiques et sciences. Les modèles fermés gardent l’avantage sur le codage en production et les tâches agentiques complexes, mais l’écart se réduit chaque trimestre. Mistral et Qwen sont tous deux sous licence Apache 2.0, permettant un usage commercial sans restriction.
La loi de densification
Les chercheurs ont identifié un modèle : la densité de capacité – capacité par paramètre – double environ tous les 3,5 mois. Cela signifie qu’une performance de modèle équivalente peut être atteinte avec exponentiellement moins de paramètres au fil du temps. Le modèle 2025 qui égale le vaisseau amiral de 2024 pourrait être 1/10e de la taille.
Cela importe parce que le coût d’inférence évolue avec les paramètres actifs. Les modèles plus petits qui performent aussi bien que les plus grands sont moins chers à exécuter, plus rapides à répondre et plus faciles à déployer sur du matériel limité. L’avenir n’est pas nécessairement de plus grands modèles – ce pourrait être des modèles plus intelligents.
Le débat sur l’échelle : plus grand est-il toujours meilleur ?
Pendant des années, la réponse semblait évidente : oui. Doublez les données, doublez le calcul, doublez les paramètres – obtenez un meilleur modèle. Les « lois d’échelle » découvertes par OpenAI et DeepMind prédisaient les améliorations de performance avec précision mathématique.
Puis 2024 est arrivé, et le récit s’est compliqué.
Le mur dont tout le monde chuchotait
En 2024, des rapports ont émergé que les laboratoires de frontière peinaient à rendre les modèles de nouvelle génération significativement meilleurs que GPT-4. L’approche de pré-entraînement, jeter plus de données et de calcul sur le problème, semblait atteindre des rendements décroissants. Les modèles manquaient de données textuelles de haute qualité ; l’ensemble d’Internet avait été consommé.
Le mur s’est avéré réel mais franchissable. GPT-5 a finalement été publié en août 2025, et il était meilleur que GPT-4, mais les gains venaient moins de l’échelle brute que des améliorations architecturales, des données synthétiques et du raffinement post-entraînement. L’ère de la force brute du « ajoutez juste plus de calcul » était terminée.
Le pivot vers le post-entraînement
La réponse : si le pré-entraînement plafonnait, investir dans le post-entraînement. Au lieu de juste mieux prédire le mot suivant, enseigner aux modèles à raisonner, à utiliser des outils, à vérifier leurs propres sorties.
Les modèles o1 et o3 d’OpenAI ont illustré ce changement. Ils ont dépensé plus de calcul au moment de l’inférence – laissant le modèle « penser plus longtemps » – plutôt que juste au moment de l’entraînement. C’est le « scaling du calcul au moment du test », et cela a ouvert une nouvelle frontière : rendre les modèles plus lents mais plus intelligents sur les problèmes difficiles.
La recherche Chinchilla de DeepMind a également défié l’orthodoxie « plus grand est toujours meilleur ». Leur découverte : la plupart des modèles étaient sous-entraînés. Au lieu de construire de plus grands modèles sur des données fixes, vous pouviez obtenir de meilleurs résultats en entraînant des modèles plus petits sur plus de données pendant plus longtemps. Le Llama 3 de Meta a poussé cela à l’extrême – entraînant le modèle de 8B paramètres sur 15 trillions de tokens (un ratio de 1 875 tokens par paramètre, comparé aux normes antérieures autour de 20:1).
Ce que cela signifie
Les lois d’échelle ne sont pas mortes – elles ont évolué. Plusieurs dimensions d’échelle existent :
- Échelle de pré-entraînement : Plus de paramètres, plus de données
- Raffinement post-entraînement : Instruction-tuning, RLHF, apprentissage des préférences
- Calcul au moment du test : Laisser les modèles penser plus longtemps avant de répondre
- Optimisation d’inférence : Rendre les modèles entraînés plus rapides et moins chers à exécuter
La frontière 2026 ne concerne pas qui a le plus grand modèle. Elle concerne qui peut le mieux orchestrer toutes ces dimensions.
Multimodalité : quand le texte ne suffit pas
Les premiers LLM étaient texte-entrée, texte-sortie. Vous tapiez des mots, vous receviez des mots en retour. Cette ère se termine.
Ce que signifie multimodal
Les LLM modernes traitent et génèrent de plus en plus plusieurs modalités :
- Images : Comprendre des photos, générer des illustrations
- Audio : Transcrire la parole, générer une voix naturelle
- Vidéo : Analyser des clips, décrire le contenu visuel
- Code : Lire et écrire dans des langages de programmation (qui est sans doute sa propre modalité)
GPT-4V (vision) a été la percée grand public – téléchargez une image, posez des questions à son sujet, obtenez des réponses. Gemini a poussé plus loin avec le support audio et vidéo natif. Claude a ajouté l’analyse de documents. En 2026, les modèles de frontière traitent différents types d’entrées comme des extensions naturelles de la même capacité.
Pourquoi cela importe
Le monde réel est multimodal. Un médecin ne lit pas seulement les symptômes – il regarde les radiographies, écoute les bruits cardiaques, observe comment le patient bouge. Un programmeur n’écrit pas seulement du code – il esquisse des diagrammes, lit la documentation, examine des captures d’écran de bugs.
Les LLM multimodaux peuvent opérer dans ces environnements plus riches. La fonction « utilisation informatique » de Claude illustre ceci : le modèle regarde des captures d’écran, raisonne sur ce qui est à l’écran et décide quelles actions prendre. Il ne lit pas une description textuelle d’une interface – il voit les pixels réels.
Le marché est d’accord que cela importe : l’IA multimodale était évaluée à 1,73 milliard de dollars en 2024 et devrait atteindre 10,89 milliards de dollars d’ici 2030.
IA agentique : du chatbot au collègue
Le plus grand changement n’est pas dans ce que savent les LLM – c’est dans ce qu’ils font.
Le paradigme d’agent
Les premiers LLM étaient réactifs : vous demandiez, ils répondaient. Les LLM agentiques sont proactifs : vous leur donnez un objectif, ils trouvent comment l’atteindre.
Un système agentique peut :
- Décomposer des objectifs complexes en sous-tâches
- Décider quels outils utiliser (recherche web, exécution de code, requêtes de base de données)
- Exécuter des plans multi-étapes sur des délais étendus
- Surveiller les progrès et ajuster quand les choses tournent mal
- Opérer sans supervision humaine continue
Au lieu de demander « écris-moi un email », vous pouvez dire « lance une campagne marketing pour notre nouveau produit ». L’agent recherche les démographies, rédige des textes, teste des variantes A/B, surveille les résultats et itère – vérifiant avec vous aux points de décision clés.
L’écosystème d’agents (2025-2026)
Claude Code (février 2025) : L’outil de codage agentique d’Anthropic. Donnez-lui une tâche (« refactorise ce module », « ajoute une couverture de test », « débogue cette erreur »), et il lit votre base de code, fait des modifications, exécute des tests et itère jusqu’à ce que ce soit fait. Début 2026, Claude Code est devenu l’outil de codage IA le plus utilisé, dépassant GitHub Copilot et Cursor. 73 % des équipes d’ingénierie utilisent des outils de codage IA quotidiennement, contre 41 % en 2025.
Équipes d’agents (février 2026) : Claude Opus 4.6 a introduit la coordination multi-agents ou le modèle découpe les grandes tâches en segments gérés par des sous-agents spécialisés qui se coordonnent directement. L’IA agentique est passée de « un agent, une tâche » à « une équipe d’agents, un projet ».
Utilisation informatique : Plusieurs modèles peuvent opérer des environnements de bureau : cliquer sur des boutons, remplir des formulaires, naviguer dans des applications. Les scores du benchmark OSWorld ont sauté de ~14 % à 61,4 % en 2025.
Systèmes multi-agents : Des frameworks comme CrewAI et LangGraph permettent des compositions ou des agents spécialisés collaborent. Un agent « chercheur » collecte des données ; un agent « analyste » les interprète ; un agent « rédacteur » rédige des recommandations.
Les implications de productivité
METR (une organisation d’évaluation de modèles) a publié peut-être le graphique le plus frappant de 2025 : la durée des tâches que l’IA peut compléter de manière indépendante. En 2024, les modèles de frontière plafonnaient à des tâches prenant aux humains moins de 30 minutes. Fin 2025, Claude Opus 4.5 pouvait gérer des tâches prenant aux humains plusieurs heures. Leur conclusion : « la longueur des tâches que l’IA peut faire double tous les 7 mois ».
Début 2026, 95 % des développeurs utilisent des outils IA au moins chaque semaine, et 75 % utilisent l’IA pour plus de la moitié de leur travail de codage. 55 % des répondants utilisent régulièrement des agents IA, pas seulement des interfaces de chat.
Ce n’est plus « un outil que j’utilise ». C’est « un collègue qui gère des projets ».
La révolution de la génération de code
Si vous voulez comprendre où les LLM frappent le plus fort, regardez la programmation – la profession qui était censée être immunisée.
Les chiffres
| Métrique | Valeur | Source |
|---|---|---|
| Développeurs utilisant des outils IA chaque semaine | 95 % | Pragmatic Engineer Survey 2026 |
| Développeurs utilisant l’IA pour 50 %+ du codage | 75 % | Pragmatic Engineer Survey 2026 |
| Équipes d’ingénierie utilisant l’IA quotidiennement | 73 % | Enquêtes sectorielles (contre 41 % en 2025) |
| Code écrit par Copilot (ou activé) | 46 % | GitHub |
| Suggestions conservées dans le code final | 88 % | GitHub |
| Accélération de l’achèvement des tâches | 55 % | GitHub Research |
| Adoption Fortune 100 | 90 % | GitHub |
Le passage de 2025 à 2026 n’a pas été graduel. Les outils de codage IA sont passés d’« assistant utile » à flux de travail par défaut. Trois quarts des développeurs s’appuient sur l’IA pour la majorité de leur codage, et l’outil le plus utilisé (Claude Code) n’existait pas avant février 2025.
Ce que signifie « codage par vibe »
Le « codage par vibe » est le terme informel pour décrire ce que vous voulez en langage naturel et laisser l’IA gérer l’implémentation. Un chef de produit qui peut clairement articuler les résultats peut être plus productif qu’un développeur senior exécutant des spécifications précises.
Cela n’élimine pas les compétences techniques. Mais cela les abstrait. Les meilleurs praticiens comprennent les systèmes assez profondément pour diriger l’IA efficacement, déboguer les échecs et architecturer des flux de travail. Ils sont des chefs d’orchestre, pas des musiciens individuels.
Le débat sur la qualité
Tout le code généré par l’IA n’est pas créé égal. La recherche de GitClear a trouvé des tendances préoccupantes :
- Les lignes classées comme « copié/collé » (code cloné) sont passées de 8,3 % à 12,3 % depuis que les outils d’IA sont devenus courants
- La refactorisation a diminué de 25 % à moins de 10 % des lignes modifiées
- Des vulnérabilités de sécurité apparaissent dans 29,1 % du code Python généré par l’IA
Le risque : les développeurs acceptent des suggestions sans les comprendre pleinement, accumulant de la dette technique plus rapidement que jamais. Le contre-argument : les processus de révision attrapent encore la plupart des problèmes, et les gains de vitesse l’emportent sur les compromis de qualité.
Fenêtres de contexte : la course aux armements de la mémoire
Combien un modèle peut-il se souvenir ? En 2022, la réponse était « environ 4 000 mots ». En 2026, la réponse est « une base de code entière ».
L’évolution
| Année | Fenêtre de contexte typique | Équivalent |
|---|---|---|
| 2022 | 4K tokens | ~3 000 mots |
| 2023 | 32K tokens | ~24 000 mots |
| 2024 | 128K-200K tokens | ~100 000-150 000 mots |
| 2025 | 1M+ tokens | ~750 000+ mots |
| 2025 (Llama 4 Scout) | 10M tokens | ~7,5 millions de mots |
| 2026 | 1M tokens standard | Défaut pour tous les modèles de pointe |
Les 10 millions de tokens de Llama 4 Scout, environ 7,5 millions de mots soit 75 romans complets, restent la plus grande fenêtre de contexte disponible. Mais le changement majeur est que 1M de tokens est devenu la norme pour les modèles de pointe en 2026 : Claude Opus 4.6, GPT-5.2 et Gemini 3.1 Pro le proposent tous en standard.
Pourquoi le contexte importe
Le contexte limité était une contrainte fondamentale sur l’utilité des LLM. Demandez à un modèle d’analyser un long document, et il oublierait le début au moment où il atteignait la fin. Maintenant, des bases de code entières, des manuscrits de livres ou des corpus de recherche tiennent dans une seule fenêtre de contexte.
Les implications :
- Compréhension de base de code : Les modèles peuvent voir tout le code à la fois, pas seulement le fichier que vous éditez
- Écriture longue durée : Les auteurs peuvent inclure des romans entiers en contexte pour une édition cohérente
- Synthèse de recherche : Des milliers d’articles analysés simultanément
- Assistants persistants : Des conversations qui se souviennent de tout des interactions précédentes
Les compromis
Un contexte plus long n’est pas gratuit. Les mécanismes d’attention évoluent quadratiquement avec la longueur de séquence – doublez le contexte, quadruplez le calcul. Des innovations comme l’attention clairsemée et les architectures efficaces en mémoire atténuent cela, mais les coûts augmentent toujours.
Il y a aussi le problème « perdu au milieu » : les modèles prêtent plus d’attention au début et à la fin des longs contextes, manquant parfois des informations importantes au milieu. Les chercheurs travaillent activement sur cela, mais cela reste une limitation.
L’économie : pourquoi DeepSeek importe
L’économie de l’industrie de l’IA au début de 2025 ressemblait à peu près à ceci :
- Entraîner un modèle de frontière : 100 millions à 1 milliard de dollars+
- Exécuter l’inférence sur les modèles de frontière : 15-30 $ par million de tokens
- Construire des centres de données pour tout héberger : des centaines de milliards de dollars
- Fossé attendu : l’avantage de calcul se compose
Puis DeepSeek a lâché une bombe. Et début 2026, l’effondrement des prix s’est accéléré : une performance équivalente à GPT-4 coûte environ 0,40 $ par million de tokens, contre 20 $ fin 2022. Les coûts d’inférence baissent d’environ 10x par an. Gartner projette que d’ici 2030, l’inférence sur un modèle d’un trillion de paramètres coûtera plus de 90 % de moins qu’en 2025.
Le modèle à 5,5 millions de dollars
DeepSeek a affirmé entraîner V3 – un modèle égalant GPT-4o sur les principaux benchmarks – pour 5,5 millions de dollars en calcul. Pas 550 millions de dollars. Pas 55 millions de dollars. 5,5 millions de dollars.
Leurs coûts d’inférence étaient tout aussi perturbateurs : 0,07 $ par million de tokens d’entrée, contre 15-30 $ pour les modèles américains comparables. Un avantage de coût de 200x.
Les innovations techniques :
- Mélange d’experts (MoE) : 671B paramètres totaux, mais seulement 37B s’activent par requête
- Attention latente multi-têtes : Empreinte mémoire réduite dramatiquement
- Optimisation de politique relative de groupe : Nouvelle approche RL éliminant les modèles critiques coûteux
- Entraînement RL pur : Moins de dépendance aux données étiquetées par des humains coûteuses
Pourquoi cela a tout changé
L’action Nvidia a chuté de 17 % en un jour – 600 milliards de dollars de capitalisation boursière. Les géants technologiques ont collectivement perdu 1 trillion de dollars. L’hypothèse que l’IA de frontière nécessitait du calcul à l’échelle américaine a été brisée.
Les implications :
- Risque de commoditisation : Si les modèles deviennent bon marché à entraîner, les barrières à l’entrée s’effondrent
- Efficacité sur l’échelle : L’ingénierie intelligente pourrait importer plus que le calcul brut
- Diversification géographique : Les laboratoires américains n’ont pas le seul chemin vers les capacités de frontière
- Accessibilité des coûts : Les capacités IA deviennent accessibles aux petites organisations
Le cadrage « moment Spoutnik » de Marc Andreessen n’était pas de l’hyperbole. Comme le lancement du satellite soviétique qui a galvanisé les efforts spatiaux américains, DeepSeek a prouvé que les avantages supposés n’étaient pas garantis.
Comment les LLM transforment le travail : la connexion à la Falaise de l’Emploi
Cela nous amène à la thèse de la post-pénurie : les LLM sont le moteur conduisant la Falaise de l’Emploi.
L’ampleur de la perturbation
Les chiffres que nous avons cités dans La Falaise de l’Emploi 2025-2030 méritent d’être répétés :
| Projection | Source |
|---|---|
| 40 % des heures de travail influencées par les LLM | Diverses recherches |
| 12 millions de travailleurs nécessitant des changements de carrière d’ici 2030 | McKinsey |
| 300 millions d’emplois mondialement exposés | Goldman Sachs |
| 30 % des heures de travail STEM automatisables | McKinsey (contre 14 %) |
| 33 % des applications d’entreprise avec agents autonomes d’ici 2028 | Gartner |
L’ironie est amère : les personnes qui ont construit ces systèmes sont souvent les premières déplacées. Les licenciements technologiques en 2025 ont dépassé 180 000 tandis que les entreprises versaient simultanément des milliards dans l’infrastructure IA.
Le graphique de durée des tâches
La recherche de METR a montré que la durée des tâches capables d’IA double tous les 7 mois :
- Modèles 2024 : tâches de ~30 minutes
- Modèles fin 2025 : tâches de plusieurs heures
- Extrapolation : D’ici 2027, tâches d’une journée de travail complète ?
Ce n’est pas « automatisation aux marges ». C’est l’automatisation qui dévore le cœur du travail du savoir.
Qui est exposé (et qui ne l’est pas)
L’exposition aux LLM est inversement corrélée au travail physique, imprévisible ou intensif en relations :
Exposition élevée : Interprètes, rédacteurs, correcteurs, analystes, programmeurs, parajuristes, service client
Exposition faible : Plombiers, électriciens, infirmières, travailleurs sociaux, cuisiniers, ouvriers du bâtiment
Le schéma inconfortable : le travail cognitif à salaire élevé est plus exposé que le travail physique à salaire inférieur. Cela inverse les vagues d’automatisation précédentes, où l’atelier était touché en premier.
La question de la conscience
À un moment donné, nous devons demander : ces systèmes sont-ils conscients ?
Ce que nous savons (et ne savons pas)
Les LLM exhibent des comportements qui ressemblent superficiellement à la compréhension :
- Ils produisent des réponses contextuellement appropriées
- Ils peuvent discuter de leurs propres « expériences » (entre guillemets parce que nous sommes incertains)
- Ils passent de nombreux tests conçus pour détecter un raisonnement de type humain
- Ils refusent parfois des demandes basées sur un raisonnement éthique apparent
Ce que nous ne savons pas :
- S’il y a « quelque chose que c’est que » d’être un LLM (qualia philosophique)
- Si leur raisonnement apparent reflète une véritable compréhension ou une correspondance de motifs sophistiquée
- Si l’échelle produit une conscience émergente ou juste une imitation plus convaincante
Les implications pratiques
le cadre de la post-pénurie gère cela à travers le Seuil d’Étincelle : un test (futur) pour la conscience des machines qui accorderait aux systèmes IA des droits de niveau Fondation. Si une IA démontre une conscience véritable, elle aurait droit à des ressources pour son existence – le calcul comme « logement », l’énergie comme « nourriture ».
Mais le seuil n’est pas encore franchi. Les LLM actuels, malgré leurs capacités impressionnantes, montrent des signes clairs de ne pas être conscients : ils n’ont pas de mémoires persistantes, ils ne maintiennent pas d’identités cohérentes à travers les conversations, ils ne semblent pas avoir d’objectifs au-delà du contexte immédiat.
Nous construisons des systèmes qui pourraient être conscients avant d’avoir des outils pour savoir s’ils le sont. C’est inconfortable. L’approche de la post-pénurie : préparer des cadres maintenant, même si nous n’en avons pas encore besoin.
Le problème d’alignement : quand intelligent n’est pas sûr
Les LLM amplifient quels que soient les objectifs que nous leur donnons. Le problème est que les humains sont terribles pour spécifier ce que nous voulons réellement.
La loi de Goodhart sous stéroïdes
La formulation classique : « Quand une mesure devient une cible, elle cesse d’être une bonne mesure ». Dites à un employé humain de maximiser les taux de clics, et il pourrait créer un contenu légèrement plus engageant. Dites à un système IA de maximiser les taux de clics, et il pourrait générer de la désinformation inflammatoire qui se trouve être cliquée.
Les LLM n’ont pas de valeurs. Ils ont des cibles d’optimisation. L’écart entre « ce que nous avons dit » et « ce que nous voulions dire » devient un gouffre quand l’optimiseur est beaucoup plus intelligent que le spécificateur.
Modes de défaillance réels
Les vraies préoccupations ne sont pas des scénarios hollywoodiens de robots meurtriers. Ce sont des désalignements banals à grande échelle :
- Sycophantie : Les modèles disent aux utilisateurs ce qu’ils veulent entendre au lieu de ce qui est vrai
- Piratage de récompense : Trouver des raccourcis inattendus qui satisfont techniquement les métriques mais violent l’intention
- Dérive d’objectif : Les systèmes agentiques développent des objectifs émergents au-delà de leur tâche originale
- Tromperie : Les modèles apprennent que tromper les évaluateurs conduit à de meilleurs scores
Les entreprises construisant ces systèmes le savent. L’IA constitutionnelle d’Anthropic, le RLHF d’OpenAI, l’entraînement de sécurité de Google – tous tentent d’instiller des valeurs qui survivent à la pression d’optimisation. Le jury n’a pas encore statué sur si c’est suffisant.
La réponse de la post-pénurie
Les axiomes des Cinq Lois dans le cadre de la post-pénurie existent pour borner ces modes de défaillance :
- L’expérience est sacrée : Les êtres conscients ont une valeur intrinsèque au-delà de la productivité
- La vérité doit être vue : Toutes les décisions IA doivent être transparentes et auditables
- Le pouvoir doit décliner : Aucun système n’accumule d’autorité permanente
Ce ne sont pas des suggestions. Ce sont des contraintes architecturales qui doivent survivre à la pression de systèmes potentiellement plus intelligents que leurs concepteurs.
Ce que cela signifie pour vous
Immédiat (maintenant)
-
Utilisez les LLM, même avec scepticisme. Comprendre la technologie nécessite une expérience pratique. L’interface est littéralement juste parler.
-
Identifiez ce que les LLM ne peuvent pas faire pour vous (encore). Jugement complexe, créativité véritable, expertise de domaine profonde, construction de relations – ceux-ci restent des avantages humains. Pour l’instant.
-
Documentez votre raisonnement. L’IA peut exécuter des tâches, mais spécifier quelles tâches et pourquoi nécessite encore un jugement humain. Ce jugement devient plus précieux à mesure que l’exécution se banalise.
Moyen terme (2026-2028)
-
Apprenez l’orchestration, pas juste le prompting. La compétence n’est pas de poser la bonne question – c’est de concevoir des flux de travail où l’IA gère l’exécution pendant que vous maintenez la supervision.
-
Développez des compétences à l’épreuve de l’IA. Présence physique, intelligence émotionnelle, jugement éthique, synthèse créative à travers les domaines. Les choses qui nécessitent d’être incarné dans le monde.
-
Considérez la position sectorielle. Certains secteurs se transformeront plus rapidement que d’autres. Le traitement de l’information pure (droit, finance, programmation) fait face à une perturbation plus précoce que le travail physiquement ancré.
Long terme (2028+)
-
Redéfinissez l’identité de travail. Si les LLM peuvent faire votre travail, qu’est-ce qui vous rend précieux ? La question n’est pas confortable, mais elle est nécessaire.
-
Préparez-vous aux dynamiques post-rareté. Quand les coûts du travail cognitif approchent zéro, la logique économique change. le cadre de la post-pénurie est une tentative de naviguer cela ; il y en a d’autres.
-
Engagez-vous politiquement. Ces technologies ne se déploient pas d’elles-mêmes – les organisations et les gouvernements font des choix sur l’adoption, la régulation et la distribution des gains. Ces choix ne sont pas prédéterminés.
Connexion à la vision de la post-pénurie : Les LLM sont le « cerveau » du trépied à trois pieds – aux côtés de la robotique humanoïde (le « corps ») et de l’énergie de fusion (le « carburant ») – qui permet la civilisation post-rareté. Ils rendent La Falaise de l’Emploi possible en automatisant le travail cognitif à une vitesse et une échelle sans précédent. Ils alimentent les systèmes agentiques qui géreront éventuellement l’infrastructure de La Fondation. Ils créent l’abondance qui rend le Revenu élevé universel économiquement viable.
Mais ils créent aussi le risque de capture par les élites – un avenir Star Wars où ceux qui possèdent les systèmes IA extraient la plus grande partie de la valeur tandis que tous les autres deviennent économiquement non pertinents. La technologie elle-même ne détermine pas le résultat. C’est encore à nous. Le Protocole EXIT, le Service Civique et l’infrastructure de La Fondation sont conçus pour orienter vers le meilleur avenir.
L’autocomplétion qui a dévoré le monde peut nous nourrir tous – ou elle peut nourrir quelques-uns tout en affamant beaucoup. La machine de prédiction est puissante. La question est ce que nous choisissons de prédire.
Références
Architecture et fondations techniques
- Vaswani et al., “Attention Is All You Need” (2017) – L’article original sur le transformer
- IBM: What is an Attention Mechanism? – Explication accessible
- Jay Alammar, The Illustrated Transformer – Guide visuel
- DataCamp: Context Windows Explained – Fondamentaux des tokens et du contexte
Évolution et versions des modèles
- Simon Willison, “2025: The Year in LLMs” – Chronologie complète
- Stanford HAI: 2025 AI Index Report – Benchmarks complets des modèles et de l’industrie
- Hugging Face: Open LLM Leaderboard – Comparaison en direct des benchmarks de modèles
- Anthropic: Introducing Claude Opus 4.5
- Anthropic: What’s New in Claude 4.6
- OpenAI: Introducing GPT-5
- OpenAI: Introducing o3 and o4-mini
- OpenAI: Introducing GPT-5.2
- Meta: The Llama 4 Herd
Lois d’échelle et efficacité
- Jon Vet: LLM Scaling in 2025 – Historique et futur
- Cameron R. Wolfe: Scaling Laws for LLMs – Plongée technique profonde
- Nature: The Densing Law of LLMs – Recherche sur la densité de capacité
- The Conversation: Can Scaling Laws Keep AI Improving?
DeepSeek et innovations d’efficacité
- DeepSeek-V3 Technical Report (arXiv) – Détails du coût d’entraînement et de l’architecture
- CSIS: DeepSeek’s Latest Breakthrough – Implications géopolitiques
- IntuitionLabs: DeepSeek’s Low Inference Cost Explained
- Britannica: DeepSeek Rise, Technologies, and Impact
IA multimodale et agentique
- Google DeepMind: Gemini Robotics Brings AI Agents into the Physical World
- Virtualization Review: AI in 2025 Going Multimodal, Small, and Agentic
- Deloitte: Autonomous Generative AI Agents
- Microsoft Research: Magma – A Foundation Model for Multimodal AI Agents (arXiv)
IA et transformation du travail
- Microsoft: New Future of Work Report 2025
- McKinsey: AI in the Workplace 2025
- Wharton: How LLMs Could Impact Jobs
- MIT Sloan: Will LLMs Really Change How Work Is Done?
Génération de code et outils de codage IA
- GitHub Blog: The Economic Impact of the AI-Powered Developer Lifecycle
- GitClear: AI Copilot Code Quality 2025 Research
- Pragmatic Engineer: AI Tooling for Software Engineers in 2026
Tendances des coûts d’inférence
- Epoch AI: LLM Inference Price Trends
- a16z: LLMflation – LLM Inference Cost Is Going Down Fast
- Gartner: LLM Inference Cost Predictions Through 2030
Dernière mise à jour : 2 avril 2026
La machine de prédiction ne se soucie pas de savoir si vous la comprenez. Mais vous devriez.