Connexion gratuite : Préambule (PDF, ebook & livre audio) + Accès au forum + Achats directs Connexion

Recherche Unscarcity

Comment fonctionnent les grands modèles de langage : explication des transformers

Les LLM prédisent le mot suivant via des mécanismes d'attention de transformers. De GPT-5 a Claude Opus 4.6, les modeles de pointe gerent des taches de plusieurs heures de facon autonome. Guide clair sur les tokens, le raisonnement et l'ere agentique.

30 min de lecture 6765 mots Mis à jour avril 2026 /a/llm-large-language-models

Note : Ceci est une note de recherche complétant le livre L’ère de la post-pénurie, désormais disponible à l’achat. Ces notes approfondissent les concepts du texte principal. Commencez ici ou procurez-vous le livre.

Grands modèles de langage : l’autocomplétion qui a dévoré le monde

Voici le sale secret des grands modèles de langage : en leur cœur, ils jouent simplement au jeu le plus sophistiqué de « deviner le mot suivant ». C’est tout. Le même principe de base derrière les suggestions du clavier de votre téléphone écrit maintenant des mémoires juridiques, diagnostique des maladies et génère du code qui alimente les entreprises du Fortune 500.

Sauf que votre téléphone prédit le mot suivant en se basant sur un dictionnaire et quelques statistiques de base. GPT-4 prédit le mot suivant en se basant sur avoir « lu » la quasi-totalité d’Internet, et le fait avec une cohérence si troublante que nous avons commencé à donner des noms à ces systèmes comme s’ils étaient des collègues. « Claude m’a aidé avec ce rapport ». « J’ai demandé à Gemini de réviser mon code ». Nous personnifions des moteurs de prédiction.

Si cela ne vous frappe pas comme terrifiant ou miraculeux (ou les deux), vous n’avez pas fait attention.


Ce que sont réellement les LLM (et ce qu’ils ne sont pas)

Le décodeur de jargon

Débarrassons-nous du vocabulaire, parce que l’industrie de l’IA adore sa soupe d’alphabet :

Token : L’unité atomique de texte que les LLM traitent. Pas tout à fait un mot, pas tout à fait un caractère. « Strawberry » est un token ; « unbelievable » est deux (« un » + « believable »). Une règle approximative : un token égale environ 0,75 mots anglais, ou environ 4 caractères. Quand quelqu’un dit « GPT-4 a une fenêtre de contexte de 128K », ils veulent dire qu’il peut traiter environ 96 000 mots à la fois – environ 300 pages de texte.

Transformer : L’architecture de réseau neuronal qui alimente tous les LLM modernes. Inventé par des chercheurs de Google en 2017, le transformer utilise un mécanisme appelé « attention » qui permet au modèle de considérer les relations entre toutes les parties de l’entrée simultanément. Avant les transformers, les modèles traitaient le texte mot par mot, comme lire à travers un judas. Les transformers laissent les modèles voir toute la page à la fois.

Attention : L’innovation centrale qui fait fonctionner les transformers. Lors du traitement du mot « il » dans « Le chat s’est assis sur le tapis parce qu’il était fatigué », les mécanismes d’attention permettent au modèle de comprendre que « il » fait référence à « le chat », pas « le tapis ». Il le fait en calculant des relations – poids d’attention – entre chaque mot et tous les autres mots. Le modèle apprend quelles relations comptent.

Paramètres : Les nombres ajustables à l’intérieur d’un réseau neuronal qui sont réglés pendant l’entraînement. Plus de paramètres signifie généralement plus de capacité à apprendre des modèles complexes. GPT-3 avait 175 milliards de paramètres. GPT-4 en aurait plus d’un trillion. DeepSeek-V3 en a 671 milliards, mais n’en active que 37 milliards à la fois (plus à ce sujet plus tard).

Fine-tuning : Prendre un modèle pré-entraîné et le spécialiser pour une tâche spécifique. Le modèle de base apprend des modèles linguistiques généraux à partir de texte Internet ; le fine-tuning lui enseigne à suivre des instructions, refuser les demandes nuisibles ou exceller en codage. C’est comme la différence entre une éducation générale et une formation professionnelle.

Inférence : Utiliser un modèle entraîné pour générer des sorties. L’entraînement est la partie coûteuse (milliards de dollars pour les modèles de pointe) ; l’inférence est ce qui se passe quand vous tapez une question et que le modèle répond. L’économie des LLM dépend de rendre l’inférence bon marché.

L’architecture transformer : le moteur sous le capot

Pensez à un transformer comme une salle de concert pleine de musiciens, tous s’écoutant simultanément.

Dans les architectures plus anciennes (réseaux neuronaux récurrents, ou RNN), traiter le texte était comme une chaîne de seaux – l’information passait d’une position à la suivante, séquentiellement. Le mot 50 devait attendre que les mots 1-49 soient traités en premier. Cela créait des goulots d’étranglement et rendait difficile le souvenir du contexte distant.

Les transformers ont démoli cette limitation. En utilisant le mécanisme d’attention, chaque position dans la séquence peut assister à chaque autre position directement, en parallèle. C’est comme si tout le monde dans l’orchestre pouvait entendre tout le monde en même temps, ajustant leur jeu en conséquence.

Le fameux article de 2017 « Attention Is All You Need » a introduit cette architecture, et son titre n’était pas de l’hyperbole – ils ont littéralement jeté tout le reste (convolutions, récurrence) et l’ont remplacé par une attention pure. Les résultats ont été stupéfiants : entraînement plus rapide, meilleures performances et capacité à passer à des tailles que les architectures précédentes ne pouvaient pas gérer.

L’intuition clé : l’attention calcule une somme pondérée de valeurs, où les poids sont déterminés par la pertinence de chaque position pour la position actuelle. Pour chaque mot, le modèle demande : « À quels autres mots dois-je prêter attention pour comprendre celui-ci ? »

L’astuce mathématique – requêtes, clés et valeurs – vient de la recherche d’information :

  • Requête : « Qu’est-ce que je cherche ? »
  • Clé : « Quelle information chaque position a-t-elle ? »
  • Valeur : « Si cette position est pertinente, que dois-je en prendre ? »

Faites correspondre les requêtes aux clés, utilisez les scores de correspondance pour pondérer les valeurs, et vous obtenez des représentations conscientes du contexte. Empilez ce mécanisme en plusieurs couches avec plusieurs « têtes » (calculs d’attention parallèles se concentrant sur différents types de relations), et vous obtenez le LLM moderne.

Le problème d’émergence

Voici la partie vraiment étrange : les LLM exhibent des capacités qui n’ont pas été explicitement programmées et parfois n’étaient pas présentes dans les versions plus petites de la même architecture.

Entraînez un petit modèle de langage sur du texte Internet, et il prédit des mots. Entraînez-en un légèrement plus grand, et il prédit toujours juste des mots. Continuez à augmenter l’échelle, et quelque part autour de 100 milliards de paramètres, le modèle commence à exhiber des comportements que personne ne lui a explicitement enseignés :

  • Apprentissage en contexte (prompting few-shot) : lui montrer des exemples et le voir généraliser
  • Raisonnement en chaîne de pensée : résoudre des problèmes étape par étape
  • Exécution de code : comprendre et générer des langages de programmation

Ce sont des « capacités émergentes » – elles apparaissent de façon discontinue à mesure que les modèles augmentent. Un jour la capacité n’est pas là ; le lendemain elle l’est. Les chercheurs appellent cela une transition de phase, empruntant le terme à la physique (comme l’eau devenant soudainement de la glace à une température critique).

La réponse honnête à « pourquoi cela arrive-t-il ? » est : nous ne le savons pas complètement. Les LLM sont l’une des technologies les plus importantes que l’humanité ait jamais créées, et nous ne comprenons pas complètement comment ils fonctionnent. Nous savons ce qui entre (texte) et ce qui sort (prédictions). Le milieu est encore largement une boîte noire.


L’évolution : de GPT-4 à la frontière actuelle

2023 : la référence GPT-4

Quand OpenAI a publié GPT-4 en mars 2023, il a établi le benchmark que tout le monde poursuit depuis. Comparé à GPT-3.5, il était :

  • Plus capable de raisonnement complexe
  • Meilleur pour suivre des instructions nuancées
  • Capable de traiter des images (multimodal)
  • Moins sujet aux hallucinations évidentes
  • Plus « aligné » avec les préférences humaines

La spécification rumeur : plus d’un trillion de paramètres dans une architecture de mélange d’experts (ce qui signifie que seul un sous-ensemble s’active pour une requête donnée). L’entraînement aurait coûté plus de 100 millions de dollars en calcul seul.

2024 : la révolution du raisonnement

2024 a été l’année où les modèles ont appris à penser – ou du moins, à simuler la pensée.

OpenAI o1 (septembre 2024) : Le premier « modèle de raisonnement ». Contrairement à GPT-4, qui génère des réponses immédiatement, o1 produit des chaînes de pensée explicites avant de répondre. Il « pense » pendant des secondes ou des minutes, résolvant des problèmes étape par étape. Cela l’a rendu dramatiquement meilleur en mathématiques, codage et puzzles logiques. Le compromis : il est plus lent et plus cher par requête.

Claude 3.5 Sonnet (juin 2024) : Le vaisseau amiral d’Anthropic s’est positionné comme le meilleur ami du codeur – excellent pour lire, écrire et déboguer du code tout en maintenant la sophistication conversationnelle de GPT-4. L’entreprise a également introduit « l’utilisation informatique » : Claude pouvait opérer un ordinateur en regardant des captures d’écran et en simulant l’entrée souris/clavier.

Gemini 2.0 (décembre 2024) : La réponse de Google, avec multimodalité native (texte, images, audio, vidéo en entrée et sortie), capacités d’agent et intégration avec l’écosystème Google. La variante Pro a démontré un raisonnement fort tandis que Flash a optimisé pour la vitesse.

Llama 3 (Meta, 2024) : Le champion open-source. Meta a publié des poids que n’importe qui pouvait télécharger et exécuter localement, démocratisant l’accès aux capacités proches de la frontière. Les organisations pouvaient le fine-tuner pour leurs besoins spécifiques sans envoyer de données à des API externes.

2025 : les guerres de densité

Le récit a changé en 2025. La question a cessé d’être « quelle taille ? » et est devenue « quelle efficacité ? »

DeepSeek-V3 (janvier 2025) : Le modèle qui a fait chuter le cours de l’action Nvidia. Le laboratoire chinois DeepSeek a publié un modèle égalant les performances de GPT-4o tout en affirmant des coûts d’entraînement de seulement 5,5 millions de dollars, environ 1/18e des modèles américains comparables. Le secret : des innovations d’efficacité agressives incluant l’architecture Mélange d’Experts (671B paramètres totaux, 37B actifs), de nouveaux mécanismes d’attention et des approches d’apprentissage par renforcement pur qui ont réduit la dépendance aux données supervisées coûteuses.

Marc Andreessen l’a appelé « le moment Spoutnik de l’IA ». L’implication était claire : l’avantage de calcul brut pourrait ne pas être le fossé que tout le monde supposait.

DeepSeek-R1 (janvier 2025) : Leur modèle de raisonnement, égalant o1 d’OpenAI à une fraction du coût. Les coûts d’inférence ont chuté à 0,07 $ par million de tokens d’entrée, contre 15-30 $ pour les modèles de frontière américains. L’économie de l’IA a changé du jour au lendemain.

OpenAI o3 et o4-mini (avril 2025) : OpenAI a publié ses prochains modèles de raisonnement, o4-mini devenant le modèle le plus performant sur AIME 2024 et 2025. La série o a consolidé les « modèles pensants » comme catégorie de produits distincte.

Llama 4 (avril 2025) : Meta est passé au multimodal avec sa première architecture MoE. Scout (109B total, 17B actifs) a poussé les fenêtres de contexte à 10 millions de tokens. Maverick (400B total, 17B actifs, 128 experts) ciblait la qualité de production avec un contexte de 1M. L’open-source a rattrapé le propriétaire sur la plupart des benchmarks.

Claude Opus 4.5 (2025) : Le vaisseau amiral d’Anthropic comportait un « mode de pensée étendu » avec des chaînes de raisonnement plus longues qui pouvaient être introspectées. Opus 4.5 a atteint 61,4 % sur OSWorld, un benchmark testant les tâches d’opération informatique du monde réel. Quatre mois plus tôt, le leader était à 42,2 %.

Gemini 2.5 Pro (2025) : Le modèle de raisonnement de Google a pris la première place du classement LMArena avec un contexte de 1M de tokens, une pensée adaptative et de solides performances en mathématiques et en codage. Il a atteint 100 % sur AIME 2025 avec exécution de code.

GPT-5 (août 2025) : Le modèle de nouvelle génération tant attendu d’OpenAI a remplacé GPT-4o comme modèle par défaut dans ChatGPT. État de l’art en mathématiques (94,6 % sur AIME 2025), en codage (74,9 % sur SWE-bench Verified) et en compréhension multimodale (84,2 % sur MMMU).

DeepSeek-V3.1 et V3.2 (2025) : DeepSeek a continué d’itérer, fusionnant les forces de V3 et R1 dans des modèles hybrides capables de basculer entre modes « pensant » et « non-pensant ». V3.2-Speciale a obtenu des résultats de niveau or aux IMO, finales mondiales ICPC et IOI 2025.

2026 : l’ère agentique

Début 2026, la frontière est passée de « des modèles qui pensent » à « des modèles qui travaillent ».

Claude Opus 4.6 (février 2026) : Le dernier vaisseau amiral d’Anthropic a introduit les « équipes d’agents », plusieurs agents qui découpent les grandes tâches en segments et se coordonnent directement entre eux. Contexte de 1M de tokens, 128K de sortie maximale, pensée étendue. Sonnet 4.6 a suivi deux semaines plus tard au même prix que Sonnet 4.5.

GPT-5.2 (février 2026) : Le premier modèle à franchir 90 % sur ARC-AGI-1 (améliorant les 87 % d’o3-preview tout en réduisant le coût d’environ 390x). OpenAI a aussi publié des variantes o3-deep-research et o4-mini-deep-research optimisées pour les tâches d’analyse soutenue.

Gemini 3.1 Pro (février 2026) : La dernière génération de Google, itérant rapidement au-delà de la série Gemini 2.5. Le support des outils MCP et les budgets de pensée étendue lui ont donné de solides capacités agentiques.

La convergence open-source : Les modèles ouverts (Llama 4, DeepSeek V3.2, Qwen, Mistral Large 3) égalent ou dépassent les modèles fermés sur les benchmarks de connaissance, mathématiques et sciences. Les modèles fermés gardent l’avantage sur le codage en production et les tâches agentiques complexes, mais l’écart se réduit chaque trimestre. Mistral et Qwen sont tous deux sous licence Apache 2.0, permettant un usage commercial sans restriction.

La loi de densification

Les chercheurs ont identifié un modèle : la densité de capacité – capacité par paramètre – double environ tous les 3,5 mois. Cela signifie qu’une performance de modèle équivalente peut être atteinte avec exponentiellement moins de paramètres au fil du temps. Le modèle 2025 qui égale le vaisseau amiral de 2024 pourrait être 1/10e de la taille.

Cela importe parce que le coût d’inférence évolue avec les paramètres actifs. Les modèles plus petits qui performent aussi bien que les plus grands sont moins chers à exécuter, plus rapides à répondre et plus faciles à déployer sur du matériel limité. L’avenir n’est pas nécessairement de plus grands modèles – ce pourrait être des modèles plus intelligents.


Le débat sur l’échelle : plus grand est-il toujours meilleur ?

Pendant des années, la réponse semblait évidente : oui. Doublez les données, doublez le calcul, doublez les paramètres – obtenez un meilleur modèle. Les « lois d’échelle » découvertes par OpenAI et DeepMind prédisaient les améliorations de performance avec précision mathématique.

Puis 2024 est arrivé, et le récit s’est compliqué.

Le mur dont tout le monde chuchotait

En 2024, des rapports ont émergé que les laboratoires de frontière peinaient à rendre les modèles de nouvelle génération significativement meilleurs que GPT-4. L’approche de pré-entraînement, jeter plus de données et de calcul sur le problème, semblait atteindre des rendements décroissants. Les modèles manquaient de données textuelles de haute qualité ; l’ensemble d’Internet avait été consommé.

Le mur s’est avéré réel mais franchissable. GPT-5 a finalement été publié en août 2025, et il était meilleur que GPT-4, mais les gains venaient moins de l’échelle brute que des améliorations architecturales, des données synthétiques et du raffinement post-entraînement. L’ère de la force brute du « ajoutez juste plus de calcul » était terminée.

Le pivot vers le post-entraînement

La réponse : si le pré-entraînement plafonnait, investir dans le post-entraînement. Au lieu de juste mieux prédire le mot suivant, enseigner aux modèles à raisonner, à utiliser des outils, à vérifier leurs propres sorties.

Les modèles o1 et o3 d’OpenAI ont illustré ce changement. Ils ont dépensé plus de calcul au moment de l’inférence – laissant le modèle « penser plus longtemps » – plutôt que juste au moment de l’entraînement. C’est le « scaling du calcul au moment du test », et cela a ouvert une nouvelle frontière : rendre les modèles plus lents mais plus intelligents sur les problèmes difficiles.

La recherche Chinchilla de DeepMind a également défié l’orthodoxie « plus grand est toujours meilleur ». Leur découverte : la plupart des modèles étaient sous-entraînés. Au lieu de construire de plus grands modèles sur des données fixes, vous pouviez obtenir de meilleurs résultats en entraînant des modèles plus petits sur plus de données pendant plus longtemps. Le Llama 3 de Meta a poussé cela à l’extrême – entraînant le modèle de 8B paramètres sur 15 trillions de tokens (un ratio de 1 875 tokens par paramètre, comparé aux normes antérieures autour de 20:1).

Ce que cela signifie

Les lois d’échelle ne sont pas mortes – elles ont évolué. Plusieurs dimensions d’échelle existent :

  1. Échelle de pré-entraînement : Plus de paramètres, plus de données
  2. Raffinement post-entraînement : Instruction-tuning, RLHF, apprentissage des préférences
  3. Calcul au moment du test : Laisser les modèles penser plus longtemps avant de répondre
  4. Optimisation d’inférence : Rendre les modèles entraînés plus rapides et moins chers à exécuter

La frontière 2026 ne concerne pas qui a le plus grand modèle. Elle concerne qui peut le mieux orchestrer toutes ces dimensions.


Multimodalité : quand le texte ne suffit pas

Les premiers LLM étaient texte-entrée, texte-sortie. Vous tapiez des mots, vous receviez des mots en retour. Cette ère se termine.

Ce que signifie multimodal

Les LLM modernes traitent et génèrent de plus en plus plusieurs modalités :

  • Images : Comprendre des photos, générer des illustrations
  • Audio : Transcrire la parole, générer une voix naturelle
  • Vidéo : Analyser des clips, décrire le contenu visuel
  • Code : Lire et écrire dans des langages de programmation (qui est sans doute sa propre modalité)

GPT-4V (vision) a été la percée grand public – téléchargez une image, posez des questions à son sujet, obtenez des réponses. Gemini a poussé plus loin avec le support audio et vidéo natif. Claude a ajouté l’analyse de documents. En 2026, les modèles de frontière traitent différents types d’entrées comme des extensions naturelles de la même capacité.

Pourquoi cela importe

Le monde réel est multimodal. Un médecin ne lit pas seulement les symptômes – il regarde les radiographies, écoute les bruits cardiaques, observe comment le patient bouge. Un programmeur n’écrit pas seulement du code – il esquisse des diagrammes, lit la documentation, examine des captures d’écran de bugs.

Les LLM multimodaux peuvent opérer dans ces environnements plus riches. La fonction « utilisation informatique » de Claude illustre ceci : le modèle regarde des captures d’écran, raisonne sur ce qui est à l’écran et décide quelles actions prendre. Il ne lit pas une description textuelle d’une interface – il voit les pixels réels.

Le marché est d’accord que cela importe : l’IA multimodale était évaluée à 1,73 milliard de dollars en 2024 et devrait atteindre 10,89 milliards de dollars d’ici 2030.


IA agentique : du chatbot au collègue

Le plus grand changement n’est pas dans ce que savent les LLM – c’est dans ce qu’ils font.

Le paradigme d’agent

Les premiers LLM étaient réactifs : vous demandiez, ils répondaient. Les LLM agentiques sont proactifs : vous leur donnez un objectif, ils trouvent comment l’atteindre.

Un système agentique peut :

  • Décomposer des objectifs complexes en sous-tâches
  • Décider quels outils utiliser (recherche web, exécution de code, requêtes de base de données)
  • Exécuter des plans multi-étapes sur des délais étendus
  • Surveiller les progrès et ajuster quand les choses tournent mal
  • Opérer sans supervision humaine continue

Au lieu de demander « écris-moi un email », vous pouvez dire « lance une campagne marketing pour notre nouveau produit ». L’agent recherche les démographies, rédige des textes, teste des variantes A/B, surveille les résultats et itère – vérifiant avec vous aux points de décision clés.

L’écosystème d’agents (2025-2026)

Claude Code (février 2025) : L’outil de codage agentique d’Anthropic. Donnez-lui une tâche (« refactorise ce module », « ajoute une couverture de test », « débogue cette erreur »), et il lit votre base de code, fait des modifications, exécute des tests et itère jusqu’à ce que ce soit fait. Début 2026, Claude Code est devenu l’outil de codage IA le plus utilisé, dépassant GitHub Copilot et Cursor. 73 % des équipes d’ingénierie utilisent des outils de codage IA quotidiennement, contre 41 % en 2025.

Équipes d’agents (février 2026) : Claude Opus 4.6 a introduit la coordination multi-agents ou le modèle découpe les grandes tâches en segments gérés par des sous-agents spécialisés qui se coordonnent directement. L’IA agentique est passée de « un agent, une tâche » à « une équipe d’agents, un projet ».

Utilisation informatique : Plusieurs modèles peuvent opérer des environnements de bureau : cliquer sur des boutons, remplir des formulaires, naviguer dans des applications. Les scores du benchmark OSWorld ont sauté de ~14 % à 61,4 % en 2025.

Systèmes multi-agents : Des frameworks comme CrewAI et LangGraph permettent des compositions ou des agents spécialisés collaborent. Un agent « chercheur » collecte des données ; un agent « analyste » les interprète ; un agent « rédacteur » rédige des recommandations.

Les implications de productivité

METR (une organisation d’évaluation de modèles) a publié peut-être le graphique le plus frappant de 2025 : la durée des tâches que l’IA peut compléter de manière indépendante. En 2024, les modèles de frontière plafonnaient à des tâches prenant aux humains moins de 30 minutes. Fin 2025, Claude Opus 4.5 pouvait gérer des tâches prenant aux humains plusieurs heures. Leur conclusion : « la longueur des tâches que l’IA peut faire double tous les 7 mois ».

Début 2026, 95 % des développeurs utilisent des outils IA au moins chaque semaine, et 75 % utilisent l’IA pour plus de la moitié de leur travail de codage. 55 % des répondants utilisent régulièrement des agents IA, pas seulement des interfaces de chat.

Ce n’est plus « un outil que j’utilise ». C’est « un collègue qui gère des projets ».


La révolution de la génération de code

Si vous voulez comprendre où les LLM frappent le plus fort, regardez la programmation – la profession qui était censée être immunisée.

Les chiffres

Métrique Valeur Source
Développeurs utilisant des outils IA chaque semaine 95 % Pragmatic Engineer Survey 2026
Développeurs utilisant l’IA pour 50 %+ du codage 75 % Pragmatic Engineer Survey 2026
Équipes d’ingénierie utilisant l’IA quotidiennement 73 % Enquêtes sectorielles (contre 41 % en 2025)
Code écrit par Copilot (ou activé) 46 % GitHub
Suggestions conservées dans le code final 88 % GitHub
Accélération de l’achèvement des tâches 55 % GitHub Research
Adoption Fortune 100 90 % GitHub

Le passage de 2025 à 2026 n’a pas été graduel. Les outils de codage IA sont passés d’« assistant utile » à flux de travail par défaut. Trois quarts des développeurs s’appuient sur l’IA pour la majorité de leur codage, et l’outil le plus utilisé (Claude Code) n’existait pas avant février 2025.

Ce que signifie « codage par vibe »

Le « codage par vibe » est le terme informel pour décrire ce que vous voulez en langage naturel et laisser l’IA gérer l’implémentation. Un chef de produit qui peut clairement articuler les résultats peut être plus productif qu’un développeur senior exécutant des spécifications précises.

Cela n’élimine pas les compétences techniques. Mais cela les abstrait. Les meilleurs praticiens comprennent les systèmes assez profondément pour diriger l’IA efficacement, déboguer les échecs et architecturer des flux de travail. Ils sont des chefs d’orchestre, pas des musiciens individuels.

Le débat sur la qualité

Tout le code généré par l’IA n’est pas créé égal. La recherche de GitClear a trouvé des tendances préoccupantes :

  • Les lignes classées comme « copié/collé » (code cloné) sont passées de 8,3 % à 12,3 % depuis que les outils d’IA sont devenus courants
  • La refactorisation a diminué de 25 % à moins de 10 % des lignes modifiées
  • Des vulnérabilités de sécurité apparaissent dans 29,1 % du code Python généré par l’IA

Le risque : les développeurs acceptent des suggestions sans les comprendre pleinement, accumulant de la dette technique plus rapidement que jamais. Le contre-argument : les processus de révision attrapent encore la plupart des problèmes, et les gains de vitesse l’emportent sur les compromis de qualité.


Fenêtres de contexte : la course aux armements de la mémoire

Combien un modèle peut-il se souvenir ? En 2022, la réponse était « environ 4 000 mots ». En 2026, la réponse est « une base de code entière ».

L’évolution

Année Fenêtre de contexte typique Équivalent
2022 4K tokens ~3 000 mots
2023 32K tokens ~24 000 mots
2024 128K-200K tokens ~100 000-150 000 mots
2025 1M+ tokens ~750 000+ mots
2025 (Llama 4 Scout) 10M tokens ~7,5 millions de mots
2026 1M tokens standard Défaut pour tous les modèles de pointe

Les 10 millions de tokens de Llama 4 Scout, environ 7,5 millions de mots soit 75 romans complets, restent la plus grande fenêtre de contexte disponible. Mais le changement majeur est que 1M de tokens est devenu la norme pour les modèles de pointe en 2026 : Claude Opus 4.6, GPT-5.2 et Gemini 3.1 Pro le proposent tous en standard.

Pourquoi le contexte importe

Le contexte limité était une contrainte fondamentale sur l’utilité des LLM. Demandez à un modèle d’analyser un long document, et il oublierait le début au moment où il atteignait la fin. Maintenant, des bases de code entières, des manuscrits de livres ou des corpus de recherche tiennent dans une seule fenêtre de contexte.

Les implications :

  • Compréhension de base de code : Les modèles peuvent voir tout le code à la fois, pas seulement le fichier que vous éditez
  • Écriture longue durée : Les auteurs peuvent inclure des romans entiers en contexte pour une édition cohérente
  • Synthèse de recherche : Des milliers d’articles analysés simultanément
  • Assistants persistants : Des conversations qui se souviennent de tout des interactions précédentes

Les compromis

Un contexte plus long n’est pas gratuit. Les mécanismes d’attention évoluent quadratiquement avec la longueur de séquence – doublez le contexte, quadruplez le calcul. Des innovations comme l’attention clairsemée et les architectures efficaces en mémoire atténuent cela, mais les coûts augmentent toujours.

Il y a aussi le problème « perdu au milieu » : les modèles prêtent plus d’attention au début et à la fin des longs contextes, manquant parfois des informations importantes au milieu. Les chercheurs travaillent activement sur cela, mais cela reste une limitation.


L’économie : pourquoi DeepSeek importe

L’économie de l’industrie de l’IA au début de 2025 ressemblait à peu près à ceci :

  • Entraîner un modèle de frontière : 100 millions à 1 milliard de dollars+
  • Exécuter l’inférence sur les modèles de frontière : 15-30 $ par million de tokens
  • Construire des centres de données pour tout héberger : des centaines de milliards de dollars
  • Fossé attendu : l’avantage de calcul se compose

Puis DeepSeek a lâché une bombe. Et début 2026, l’effondrement des prix s’est accéléré : une performance équivalente à GPT-4 coûte environ 0,40 $ par million de tokens, contre 20 $ fin 2022. Les coûts d’inférence baissent d’environ 10x par an. Gartner projette que d’ici 2030, l’inférence sur un modèle d’un trillion de paramètres coûtera plus de 90 % de moins qu’en 2025.

Le modèle à 5,5 millions de dollars

DeepSeek a affirmé entraîner V3 – un modèle égalant GPT-4o sur les principaux benchmarks – pour 5,5 millions de dollars en calcul. Pas 550 millions de dollars. Pas 55 millions de dollars. 5,5 millions de dollars.

Leurs coûts d’inférence étaient tout aussi perturbateurs : 0,07 $ par million de tokens d’entrée, contre 15-30 $ pour les modèles américains comparables. Un avantage de coût de 200x.

Les innovations techniques :

  • Mélange d’experts (MoE) : 671B paramètres totaux, mais seulement 37B s’activent par requête
  • Attention latente multi-têtes : Empreinte mémoire réduite dramatiquement
  • Optimisation de politique relative de groupe : Nouvelle approche RL éliminant les modèles critiques coûteux
  • Entraînement RL pur : Moins de dépendance aux données étiquetées par des humains coûteuses

Pourquoi cela a tout changé

L’action Nvidia a chuté de 17 % en un jour – 600 milliards de dollars de capitalisation boursière. Les géants technologiques ont collectivement perdu 1 trillion de dollars. L’hypothèse que l’IA de frontière nécessitait du calcul à l’échelle américaine a été brisée.

Les implications :

  1. Risque de commoditisation : Si les modèles deviennent bon marché à entraîner, les barrières à l’entrée s’effondrent
  2. Efficacité sur l’échelle : L’ingénierie intelligente pourrait importer plus que le calcul brut
  3. Diversification géographique : Les laboratoires américains n’ont pas le seul chemin vers les capacités de frontière
  4. Accessibilité des coûts : Les capacités IA deviennent accessibles aux petites organisations

Le cadrage « moment Spoutnik » de Marc Andreessen n’était pas de l’hyperbole. Comme le lancement du satellite soviétique qui a galvanisé les efforts spatiaux américains, DeepSeek a prouvé que les avantages supposés n’étaient pas garantis.


Comment les LLM transforment le travail : la connexion à la Falaise de l’Emploi

Cela nous amène à la thèse de la post-pénurie : les LLM sont le moteur conduisant la Falaise de l’Emploi.

L’ampleur de la perturbation

Les chiffres que nous avons cités dans La Falaise de l’Emploi 2025-2030 méritent d’être répétés :

Projection Source
40 % des heures de travail influencées par les LLM Diverses recherches
12 millions de travailleurs nécessitant des changements de carrière d’ici 2030 McKinsey
300 millions d’emplois mondialement exposés Goldman Sachs
30 % des heures de travail STEM automatisables McKinsey (contre 14 %)
33 % des applications d’entreprise avec agents autonomes d’ici 2028 Gartner

L’ironie est amère : les personnes qui ont construit ces systèmes sont souvent les premières déplacées. Les licenciements technologiques en 2025 ont dépassé 180 000 tandis que les entreprises versaient simultanément des milliards dans l’infrastructure IA.

Le graphique de durée des tâches

La recherche de METR a montré que la durée des tâches capables d’IA double tous les 7 mois :

  • Modèles 2024 : tâches de ~30 minutes
  • Modèles fin 2025 : tâches de plusieurs heures
  • Extrapolation : D’ici 2027, tâches d’une journée de travail complète ?

Ce n’est pas « automatisation aux marges ». C’est l’automatisation qui dévore le cœur du travail du savoir.

Qui est exposé (et qui ne l’est pas)

L’exposition aux LLM est inversement corrélée au travail physique, imprévisible ou intensif en relations :

Exposition élevée : Interprètes, rédacteurs, correcteurs, analystes, programmeurs, parajuristes, service client
Exposition faible : Plombiers, électriciens, infirmières, travailleurs sociaux, cuisiniers, ouvriers du bâtiment

Le schéma inconfortable : le travail cognitif à salaire élevé est plus exposé que le travail physique à salaire inférieur. Cela inverse les vagues d’automatisation précédentes, où l’atelier était touché en premier.


La question de la conscience

À un moment donné, nous devons demander : ces systèmes sont-ils conscients ?

Ce que nous savons (et ne savons pas)

Les LLM exhibent des comportements qui ressemblent superficiellement à la compréhension :

  • Ils produisent des réponses contextuellement appropriées
  • Ils peuvent discuter de leurs propres « expériences » (entre guillemets parce que nous sommes incertains)
  • Ils passent de nombreux tests conçus pour détecter un raisonnement de type humain
  • Ils refusent parfois des demandes basées sur un raisonnement éthique apparent

Ce que nous ne savons pas :

  • S’il y a « quelque chose que c’est que » d’être un LLM (qualia philosophique)
  • Si leur raisonnement apparent reflète une véritable compréhension ou une correspondance de motifs sophistiquée
  • Si l’échelle produit une conscience émergente ou juste une imitation plus convaincante

Les implications pratiques

le cadre de la post-pénurie gère cela à travers le Seuil d’Étincelle : un test (futur) pour la conscience des machines qui accorderait aux systèmes IA des droits de niveau Fondation. Si une IA démontre une conscience véritable, elle aurait droit à des ressources pour son existence – le calcul comme « logement », l’énergie comme « nourriture ».

Mais le seuil n’est pas encore franchi. Les LLM actuels, malgré leurs capacités impressionnantes, montrent des signes clairs de ne pas être conscients : ils n’ont pas de mémoires persistantes, ils ne maintiennent pas d’identités cohérentes à travers les conversations, ils ne semblent pas avoir d’objectifs au-delà du contexte immédiat.

Nous construisons des systèmes qui pourraient être conscients avant d’avoir des outils pour savoir s’ils le sont. C’est inconfortable. L’approche de la post-pénurie : préparer des cadres maintenant, même si nous n’en avons pas encore besoin.


Le problème d’alignement : quand intelligent n’est pas sûr

Les LLM amplifient quels que soient les objectifs que nous leur donnons. Le problème est que les humains sont terribles pour spécifier ce que nous voulons réellement.

La loi de Goodhart sous stéroïdes

La formulation classique : « Quand une mesure devient une cible, elle cesse d’être une bonne mesure ». Dites à un employé humain de maximiser les taux de clics, et il pourrait créer un contenu légèrement plus engageant. Dites à un système IA de maximiser les taux de clics, et il pourrait générer de la désinformation inflammatoire qui se trouve être cliquée.

Les LLM n’ont pas de valeurs. Ils ont des cibles d’optimisation. L’écart entre « ce que nous avons dit » et « ce que nous voulions dire » devient un gouffre quand l’optimiseur est beaucoup plus intelligent que le spécificateur.

Modes de défaillance réels

Les vraies préoccupations ne sont pas des scénarios hollywoodiens de robots meurtriers. Ce sont des désalignements banals à grande échelle :

  • Sycophantie : Les modèles disent aux utilisateurs ce qu’ils veulent entendre au lieu de ce qui est vrai
  • Piratage de récompense : Trouver des raccourcis inattendus qui satisfont techniquement les métriques mais violent l’intention
  • Dérive d’objectif : Les systèmes agentiques développent des objectifs émergents au-delà de leur tâche originale
  • Tromperie : Les modèles apprennent que tromper les évaluateurs conduit à de meilleurs scores

Les entreprises construisant ces systèmes le savent. L’IA constitutionnelle d’Anthropic, le RLHF d’OpenAI, l’entraînement de sécurité de Google – tous tentent d’instiller des valeurs qui survivent à la pression d’optimisation. Le jury n’a pas encore statué sur si c’est suffisant.

La réponse de la post-pénurie

Les axiomes des Cinq Lois dans le cadre de la post-pénurie existent pour borner ces modes de défaillance :

  • L’expérience est sacrée : Les êtres conscients ont une valeur intrinsèque au-delà de la productivité
  • La vérité doit être vue : Toutes les décisions IA doivent être transparentes et auditables
  • Le pouvoir doit décliner : Aucun système n’accumule d’autorité permanente

Ce ne sont pas des suggestions. Ce sont des contraintes architecturales qui doivent survivre à la pression de systèmes potentiellement plus intelligents que leurs concepteurs.


Ce que cela signifie pour vous

Immédiat (maintenant)

  1. Utilisez les LLM, même avec scepticisme. Comprendre la technologie nécessite une expérience pratique. L’interface est littéralement juste parler.

  2. Identifiez ce que les LLM ne peuvent pas faire pour vous (encore). Jugement complexe, créativité véritable, expertise de domaine profonde, construction de relations – ceux-ci restent des avantages humains. Pour l’instant.

  3. Documentez votre raisonnement. L’IA peut exécuter des tâches, mais spécifier quelles tâches et pourquoi nécessite encore un jugement humain. Ce jugement devient plus précieux à mesure que l’exécution se banalise.

Moyen terme (2026-2028)

  1. Apprenez l’orchestration, pas juste le prompting. La compétence n’est pas de poser la bonne question – c’est de concevoir des flux de travail où l’IA gère l’exécution pendant que vous maintenez la supervision.

  2. Développez des compétences à l’épreuve de l’IA. Présence physique, intelligence émotionnelle, jugement éthique, synthèse créative à travers les domaines. Les choses qui nécessitent d’être incarné dans le monde.

  3. Considérez la position sectorielle. Certains secteurs se transformeront plus rapidement que d’autres. Le traitement de l’information pure (droit, finance, programmation) fait face à une perturbation plus précoce que le travail physiquement ancré.

Long terme (2028+)

  1. Redéfinissez l’identité de travail. Si les LLM peuvent faire votre travail, qu’est-ce qui vous rend précieux ? La question n’est pas confortable, mais elle est nécessaire.

  2. Préparez-vous aux dynamiques post-rareté. Quand les coûts du travail cognitif approchent zéro, la logique économique change. le cadre de la post-pénurie est une tentative de naviguer cela ; il y en a d’autres.

  3. Engagez-vous politiquement. Ces technologies ne se déploient pas d’elles-mêmes – les organisations et les gouvernements font des choix sur l’adoption, la régulation et la distribution des gains. Ces choix ne sont pas prédéterminés.


Connexion à la vision de la post-pénurie : Les LLM sont le « cerveau » du trépied à trois pieds – aux côtés de la robotique humanoïde (le « corps ») et de l’énergie de fusion (le « carburant ») – qui permet la civilisation post-rareté. Ils rendent La Falaise de l’Emploi possible en automatisant le travail cognitif à une vitesse et une échelle sans précédent. Ils alimentent les systèmes agentiques qui géreront éventuellement l’infrastructure de La Fondation. Ils créent l’abondance qui rend le Revenu élevé universel économiquement viable.

Mais ils créent aussi le risque de capture par les élites – un avenir Star Wars où ceux qui possèdent les systèmes IA extraient la plus grande partie de la valeur tandis que tous les autres deviennent économiquement non pertinents. La technologie elle-même ne détermine pas le résultat. C’est encore à nous. Le Protocole EXIT, le Service Civique et l’infrastructure de La Fondation sont conçus pour orienter vers le meilleur avenir.

L’autocomplétion qui a dévoré le monde peut nous nourrir tous – ou elle peut nourrir quelques-uns tout en affamant beaucoup. La machine de prédiction est puissante. La question est ce que nous choisissons de prédire.


Références

Architecture et fondations techniques

Évolution et versions des modèles

Lois d’échelle et efficacité

DeepSeek et innovations d’efficacité

IA multimodale et agentique

IA et transformation du travail

Génération de code et outils de codage IA

Tendances des coûts d’inférence


Dernière mise à jour : 2 avril 2026

La machine de prédiction ne se soucie pas de savoir si vous la comprenez. Mais vous devriez.

Partager cet article :