Note : Ceci est une note de recherche complétant le livre L’ère de la post-pénurie, désormais disponible à l’achat. Ces notes approfondissent les concepts du texte principal. Commencez ici ou procurez-vous le livre.
Grands modèles de langage : l’autocomplétion qui a dévoré le monde
Voici le sale secret des grands modèles de langage : en leur cœur, ils jouent simplement au jeu le plus sophistiqué de « deviner le mot suivant ». C’est tout. Le même principe de base derrière les suggestions du clavier de votre téléphone écrit maintenant des mémoires juridiques, diagnostique des maladies et génère du code qui alimente les entreprises du Fortune 500.
Sauf que votre téléphone prédit le mot suivant en se basant sur un dictionnaire et quelques statistiques de base. GPT-4 prédit le mot suivant en se basant sur avoir « lu » essentiellement l’ensemble d’Internet, et le fait avec une cohérence si troublante que nous avons commencé à donner des noms à ces systèmes comme s’ils étaient des collègues. « Claude m’a aidé avec ce rapport ». « J’ai demandé à Gemini de réviser mon code ». Nous personnifions des moteurs de prédiction.
Si cela ne vous frappe pas comme terrifiant ou miraculeux (ou les deux), vous n’avez pas fait attention.
Ce que sont réellement les LLM (et ce qu’ils ne sont pas)
Le décodeur de jargon
Débarrassons-nous du vocabulaire, parce que l’industrie de l’IA adore sa soupe d’alphabet :
Token : L’unité atomique de texte que les LLM traitent. Pas tout à fait un mot, pas tout à fait un caractère. « Strawberry » est un token ; « unbelievable » est deux (« un » + « believable »). Une règle approximative : un token égale environ 0,75 mots anglais, ou environ 4 caractères. Quand quelqu’un dit « GPT-4 a une fenêtre de contexte de 128K », ils veulent dire qu’il peut traiter environ 96 000 mots à la fois — environ 300 pages de texte.
Transformer : L’architecture de réseau neuronal qui alimente tous les LLM modernes. Inventé par des chercheurs de Google en 2017, le transformer utilise un mécanisme appelé « attention » qui permet au modèle de considérer les relations entre toutes les parties de l’entrée simultanément. Avant les transformers, les modèles traitaient le texte mot par mot, comme lire à travers un judas. Les transformers laissent les modèles voir toute la page à la fois.
Attention : L’innovation centrale qui fait fonctionner les transformers. Lors du traitement du mot « il » dans « Le chat s’est assis sur le tapis parce qu’il était fatigué », les mécanismes d’attention permettent au modèle de comprendre que « il » fait référence à « le chat », pas « le tapis ». Il le fait en calculant des relations — poids d’attention — entre chaque mot et tous les autres mots. Le modèle apprend quelles relations comptent.
Paramètres : Les nombres ajustables à l’intérieur d’un réseau neuronal qui sont réglés pendant l’entraînement. Plus de paramètres signifie généralement plus de capacité à apprendre des modèles complexes. GPT-3 avait 175 milliards de paramètres. GPT-4 en aurait plus d’un trillion. DeepSeek-V3 en a 671 milliards, mais n’en active que 37 milliards à la fois (plus à ce sujet plus tard).
Fine-tuning : Prendre un modèle pré-entraîné et le spécialiser pour une tâche spécifique. Le modèle de base apprend des modèles linguistiques généraux à partir de texte Internet ; le fine-tuning lui enseigne à suivre des instructions, refuser les demandes nuisibles ou exceller en codage. C’est comme la différence entre une éducation générale et une formation professionnelle.
Inférence : Utiliser un modèle entraîné pour générer des sorties. L’entraînement est la partie coûteuse (milliards de dollars pour les modèles de pointe) ; l’inférence est ce qui se passe quand vous tapez une question et que le modèle répond. L’économie des LLM dépend de rendre l’inférence bon marché.
L’architecture transformer : le moteur sous le capot
Pensez à un transformer comme une salle de concert pleine de musiciens, tous s’écoutant simultanément.
Dans les architectures plus anciennes (réseaux neuronaux récurrents, ou RNN), traiter le texte était comme une chaîne de seaux — l’information passait d’une position à la suivante, séquentiellement. Le mot 50 devait attendre que les mots 1-49 soient traités en premier. Cela créait des goulots d’étranglement et rendait difficile le souvenir du contexte distant.
Les transformers ont démoli cette limitation. En utilisant le mécanisme d’attention, chaque position dans la séquence peut assister à chaque autre position directement, en parallèle. C’est comme si tout le monde dans l’orchestre pouvait entendre tout le monde en même temps, ajustant leur jeu en conséquence.
Le fameux article de 2017 « Attention Is All You Need » a introduit cette architecture, et son titre n’était pas de l’hyperbole — ils ont littéralement jeté tout le reste (convolutions, récurrence) et l’ont remplacé par une attention pure. Les résultats ont été stupéfiants : entraînement plus rapide, meilleures performances et capacité à passer à des tailles que les architectures précédentes ne pouvaient pas gérer.
L’intuition clé : l’attention calcule une somme pondérée de valeurs, où les poids sont déterminés par la pertinence de chaque position pour la position actuelle. Pour chaque mot, le modèle demande : « À quels autres mots dois-je prêter attention pour comprendre celui-ci ? »
L’astuce mathématique — requêtes, clés et valeurs — vient de la recherche d’information :
- Requête : « Qu’est-ce que je cherche ? »
- Clé : « Quelle information chaque position a-t-elle ? »
- Valeur : « Si cette position est pertinente, que dois-je en prendre ? »
Faites correspondre les requêtes aux clés, utilisez les scores de correspondance pour pondérer les valeurs, et vous obtenez des représentations conscientes du contexte. Empilez ce mécanisme en plusieurs couches avec plusieurs « têtes » (calculs d’attention parallèles se concentrant sur différents types de relations), et vous obtenez le LLM moderne.
Le problème d’émergence
Voici la partie vraiment étrange : les LLM exhibent des capacités qui n’ont pas été explicitement programmées et parfois n’étaient pas présentes dans les versions plus petites de la même architecture.
Entraînez un petit modèle de langage sur du texte Internet, et il prédit des mots. Entraînez-en un légèrement plus grand, et il prédit toujours juste des mots. Continuez à augmenter l’échelle, et quelque part autour de 100 milliards de paramètres, le modèle commence à exhiber des comportements que personne ne lui a explicitement enseignés :
- Apprentissage en contexte (prompting few-shot) : lui montrer des exemples et le voir généraliser
- Raisonnement en chaîne de pensée : résoudre des problèmes étape par étape
- Exécution de code : comprendre et générer des langages de programmation
Ce sont des « capacités émergentes » — elles apparaissent de façon discontinue à mesure que les modèles augmentent. Un jour la capacité n’est pas là ; le lendemain elle l’est. Les chercheurs appellent cela une transition de phase, empruntant le terme à la physique (comme l’eau devenant soudainement de la glace à une température critique).
La réponse honnête à « pourquoi cela arrive-t-il ? » est : nous ne le savons pas complètement. Les LLM sont l’une des technologies les plus importantes que l’humanité ait jamais créées, et nous ne comprenons pas complètement comment ils fonctionnent. Nous savons ce qui entre (texte) et ce qui sort (prédictions). Le milieu est encore largement une boîte noire.
L’évolution : de GPT-4 à la frontière actuelle
2023 : la référence GPT-4
Quand OpenAI a publié GPT-4 en mars 2023, il a établi le benchmark que tout le monde poursuit depuis. Comparé à GPT-3.5, il était :
- Plus capable de raisonnement complexe
- Meilleur pour suivre des instructions nuancées
- Capable de traiter des images (multimodal)
- Moins sujet aux hallucinations évidentes
- Plus « aligné » avec les préférences humaines
La spécification rumeur : plus d’un trillion de paramètres dans une architecture de mélange d’experts (ce qui signifie que seul un sous-ensemble s’active pour une requête donnée). L’entraînement aurait coûté plus de 100 millions de dollars en calcul seul.
2024 : la révolution du raisonnement
2024 a été l’année où les modèles ont appris à penser — ou du moins, à simuler la pensée.
OpenAI o1 (septembre 2024) : Le premier « modèle de raisonnement ». Contrairement à GPT-4, qui génère des réponses immédiatement, o1 produit des chaînes de pensée explicites avant de répondre. Il « pense » pendant des secondes ou des minutes, résolvant des problèmes étape par étape. Cela l’a rendu dramatiquement meilleur en mathématiques, codage et puzzles logiques. Le compromis : il est plus lent et plus cher par requête.
Claude 3.5 Sonnet (juin 2024) : Le vaisseau amiral d’Anthropic s’est positionné comme le meilleur ami du codeur — excellent pour lire, écrire et déboguer du code tout en maintenant la sophistication conversationnelle de GPT-4. L’entreprise a également introduit « l’utilisation informatique » : Claude pouvait opérer un ordinateur en regardant des captures d’écran et en simulant l’entrée souris/clavier.
Gemini 2.0 (décembre 2024) : La réponse de Google, avec multimodalité native (texte, images, audio, vidéo en entrée et sortie), capacités d’agent et intégration avec l’écosystème Google. La variante Pro a démontré un raisonnement fort tandis que Flash a optimisé pour la vitesse.
Llama 3 (Meta, 2024) : Le champion open-source. Meta a publié des poids que n’importe qui pouvait télécharger et exécuter localement, démocratisant l’accès aux capacités proches de la frontière. Les organisations pouvaient le fine-tuner pour leurs besoins spécifiques sans envoyer de données à des API externes.
2025 : les guerres de densité
Le récit a changé en 2025. La question a cessé d’être « quelle taille ? » et est devenue « quelle efficacité ? »
DeepSeek-V3 (janvier 2025) : Le modèle qui a fait chuter le cours de l’action Nvidia. Le laboratoire chinois DeepSeek a publié un modèle égalant les performances de GPT-4o tout en affirmant des coûts d’entraînement de seulement 5,5 millions de dollars — environ 1/18e des modèles américains comparables. Le secret : des innovations d’efficacité agressives incluant l’architecture Mélange d’Experts (671B paramètres totaux, 37B actifs), de nouveaux mécanismes d’attention et des approches d’apprentissage par renforcement pur qui ont réduit la dépendance aux données supervisées coûteuses.
Marc Andreessen l’a appelé « le moment Spoutnik de l’IA ». L’implication était claire : l’avantage de calcul brut pourrait ne pas être le fossé que tout le monde supposait.
DeepSeek-R1 (janvier 2025) : Leur modèle de raisonnement, égalant o1 d’OpenAI à une fraction du coût. Les coûts d’inférence ont chuté à 0,07 $ par million de tokens d’entrée — comparé à 15-30 $ pour les modèles de frontière américains. Soudainement, l’économie de l’IA a changé.
Claude 4 / Opus 4.5 (2025) : La réponse d’Anthropic comportait un « mode de pensée étendu » — des chaînes de raisonnement plus longues qui pouvaient être introspectées. Claude Sonnet 4.5 a atteint 61,4 % sur OSWorld, un benchmark testant les tâches d’opération informatique du monde réel. Quatre mois plus tôt, le leader était à 42,2 %.
Gemini 3 (2025) : La dernière version de Google a atteint 100 % sur AIME 2025 (un benchmark de compétition mathématique) avec exécution de code, et a étendu le contexte à 1 million de tokens standard.
Llama 4 (avril 2025) : Meta est devenu multimodal et a poussé les fenêtres de contexte à 10 millions de tokens avec la variante Scout. L’open-source a rattrapé le propriétaire sur la plupart des benchmarks.
La loi de densification
Les chercheurs ont identifié un modèle : la densité de capacité — capacité par paramètre — double environ tous les 3,5 mois. Cela signifie qu’une performance de modèle équivalente peut être atteinte avec exponentiellement moins de paramètres au fil du temps. Le modèle 2025 qui égale le vaisseau amiral de 2024 pourrait être 1/10e de la taille.
Cela importe parce que le coût d’inférence évolue avec les paramètres actifs. Les modèles plus petits qui performent aussi bien que les plus grands sont moins chers à exécuter, plus rapides à répondre et plus faciles à déployer sur du matériel limité. L’avenir n’est pas nécessairement de plus grands modèles — ce pourrait être des modèles plus intelligents.
Le débat sur l’échelle : plus grand est-il toujours meilleur ?
Pendant des années, la réponse semblait évidente : oui. Doublez les données, doublez le calcul, doublez les paramètres — obtenez un meilleur modèle. Les « lois d’échelle » découvertes par OpenAI et DeepMind prédisaient les améliorations de performance avec précision mathématique.
Puis 2024 est arrivé, et le récit s’est compliqué.
Le mur dont tout le monde chuchotait
Des rapports ont émergé que les laboratoires de frontière peinaient à rendre GPT-5 et des modèles de nouvelle génération similaires significativement meilleurs que GPT-4. L’approche de pré-entraînement — jeter plus de données et de calcul sur le problème — semblait atteindre des rendements décroissants. Les modèles manquaient de données textuelles de haute qualité ; l’ensemble d’Internet avait essentiellement été consommé.
Le pivot vers le post-entraînement
La réponse : si le pré-entraînement plafonnait, investir dans le post-entraînement. Au lieu de juste mieux prédire le mot suivant, enseigner aux modèles à raisonner, à utiliser des outils, à vérifier leurs propres sorties.
Les modèles o1 et o3 d’OpenAI ont illustré ce changement. Ils ont dépensé plus de calcul au moment de l’inférence — laissant le modèle « penser plus longtemps » — plutôt que juste au moment de l’entraînement. C’est le « scaling du calcul au moment du test », et cela a ouvert une nouvelle frontière : rendre les modèles plus lents mais plus intelligents sur les problèmes difficiles.
La recherche Chinchilla de DeepMind a également défié l’orthodoxie « plus grand est toujours meilleur ». Leur découverte : la plupart des modèles étaient sous-entraînés. Au lieu de construire de plus grands modèles sur des données fixes, vous pouviez obtenir de meilleurs résultats en entraînant des modèles plus petits sur plus de données pendant plus longtemps. Le Llama 3 de Meta a poussé cela à l’extrême — entraînant le modèle de 8B paramètres sur 15 trillions de tokens (un ratio de 1 875 tokens par paramètre, comparé aux normes antérieures autour de 20:1).
Ce que cela signifie
Les lois d’échelle ne sont pas mortes — elles ont évolué. Plusieurs dimensions d’échelle existent :
- Échelle de pré-entraînement : Plus de paramètres, plus de données
- Raffinement post-entraînement : Instruction-tuning, RLHF, apprentissage des préférences
- Calcul au moment du test : Laisser les modèles penser plus longtemps avant de répondre
- Optimisation d’inférence : Rendre les modèles entraînés plus rapides et moins chers à exécuter
La frontière 2025 n’est pas juste à propos de qui a le plus grand modèle. C’est à propos de qui peut le mieux orchestrer toutes ces dimensions.
Multimodalité : quand le texte ne suffit pas
Les premiers LLM étaient texte-entrée, texte-sortie. Vous tapiez des mots, vous receviez des mots en retour. Cette ère se termine.
Ce que signifie multimodal
Les LLM modernes traitent et génèrent de plus en plus plusieurs modalités :
- Images : Comprendre des photos, générer des illustrations
- Audio : Transcrire la parole, générer une voix naturelle
- Vidéo : Analyser des clips, décrire le contenu visuel
- Code : Lire et écrire dans des langages de programmation (qui est sans doute sa propre modalité)
GPT-4V (vision) a été la percée grand public — téléchargez une image, posez des questions à son sujet, obtenez des réponses. Gemini a poussé plus loin avec le support audio et vidéo natif. Claude a ajouté l’analyse de documents. En 2025, les modèles de frontière traitent différents types d’entrées comme des extensions naturelles de la même capacité.
Pourquoi cela importe
Le monde réel est multimodal. Un médecin ne lit pas seulement les symptômes — il regarde les radiographies, écoute les bruits cardiaques, observe comment le patient bouge. Un programmeur n’écrit pas seulement du code — il esquisse des diagrammes, lit la documentation, examine des captures d’écran de bugs.
Les LLM multimodaux peuvent opérer dans ces environnements plus riches. La fonction « utilisation informatique » de Claude illustre ceci : le modèle regarde des captures d’écran, raisonne sur ce qui est à l’écran et décide quelles actions prendre. Il ne lit pas une description textuelle d’une interface — il voit les pixels réels.
Le marché est d’accord que cela importe : l’IA multimodale était évaluée à 1,73 milliard de dollars en 2024 et devrait atteindre 10,89 milliards de dollars d’ici 2030.
IA agentique : du chatbot au collègue
Le plus grand changement n’est pas dans ce que savent les LLM — c’est dans ce qu’ils font.
Le paradigme d’agent
Les premiers LLM étaient réactifs : vous demandiez, ils répondaient. Les LLM agentiques sont proactifs : vous leur donnez un objectif, ils trouvent comment l’atteindre.
Un système agentique peut :
- Décomposer des objectifs complexes en sous-tâches
- Décider quels outils utiliser (recherche web, exécution de code, requêtes de base de données)
- Exécuter des plans multi-étapes sur des délais étendus
- Surveiller les progrès et ajuster quand les choses tournent mal
- Opérer sans supervision humaine continue
Au lieu de demander « écris-moi un email », vous pouvez dire « lance une campagne marketing pour notre nouveau produit ». L’agent recherche les démographies, rédige des textes, teste des variantes A/B, surveille les résultats et itère — vérifiant avec vous aux points de décision clés.
L’écosystème d’agents 2025
Claude Code (février 2025) : L’outil de codage agentique d’Anthropic. Donnez-lui une tâche (« refactorise ce module », « ajoute une couverture de test », « débogue cette erreur »), et il lit votre base de code, fait des modifications, exécute des tests et itère jusqu’à ce que ce soit fait. Simon Willison l’a appelé potentiellement le développement IA le plus impactant de 2025.
Utilisation informatique : Plusieurs modèles peuvent maintenant opérer des environnements de bureau — cliquer sur des boutons, remplir des formulaires, naviguer dans des applications. Les scores du benchmark OSWorld ont sauté de ~14 % à 61,4 % en 2025 seul.
Systèmes multi-agents : Des frameworks comme CrewAI et LangGraph permettent des compositions où des agents spécialisés collaborent. Un agent « chercheur » collecte des données ; un agent « analyste » les interprète ; un agent « rédacteur » rédige des recommandations.
Les implications de productivité
METR (une organisation d’évaluation de modèles) a publié peut-être le graphique le plus frappant de 2025 : la durée des tâches que l’IA peut compléter de manière indépendante. En 2024, les modèles de frontière plafonnaient à des tâches prenant aux humains moins de 30 minutes. Fin 2025, Claude Opus 4.5 pouvait gérer des tâches prenant aux humains plusieurs heures. Leur conclusion : « la longueur des tâches que l’IA peut faire double tous les 7 mois ».
Ce n’est pas une amélioration incrémentale. C’est la différence entre « un outil que j’utilise » et « un collègue qui gère des projets ».
La révolution de la génération de code
Si vous voulez comprendre où les LLM frappent le plus fort, regardez la programmation — la profession qui était censée être immunisée.
Les chiffres
| Métrique | Valeur | Source |
|---|---|---|
| Code écrit par Copilot (où activé) | 46 % | GitHub |
| Pour les développeurs Java | 61 % | GitHub |
| Suggestions conservées dans le code final | 88 % | GitHub |
| Accélération de l’achèvement des tâches | 55 % | GitHub Research |
| Utilisateurs GitHub Copilot | Plus de 20 millions | Microsoft (juillet 2025) |
| Adoption Fortune 100 | 90 % | GitHub |
Relisez cela : près de la moitié de tout le code dans les environnements activés par Copilot est écrit par l’IA. Les développeurs conservent 88 % des suggestions. La machine n’assiste pas — elle produit la majorité de la sortie.
Ce que signifie « codage par vibe »
Le « codage par vibe » est le terme informel pour décrire ce que vous voulez en langage naturel et laisser l’IA gérer l’implémentation. Un chef de produit qui peut clairement articuler les résultats peut être plus productif qu’un développeur senior exécutant des spécifications précises.
Cela n’élimine pas les compétences techniques. Mais cela les abstrait. Les meilleurs praticiens comprennent les systèmes assez profondément pour diriger l’IA efficacement, déboguer les échecs et architecturer des flux de travail. Ils sont des chefs d’orchestre, pas des musiciens individuels.
Le débat sur la qualité
Tout le code généré par l’IA n’est pas créé égal. La recherche de GitClear a trouvé des tendances préoccupantes :
- Les lignes classées comme « copié/collé » (code cloné) sont passées de 8,3 % à 12,3 % depuis que les outils d’IA sont devenus courants
- La refactorisation a diminué de 25 % à moins de 10 % des lignes modifiées
- Des vulnérabilités de sécurité apparaissent dans 29,1 % du code Python généré par l’IA
Le risque : les développeurs acceptent des suggestions sans les comprendre pleinement, accumulant de la dette technique plus rapidement que jamais. Le contre-argument : les processus de révision attrapent encore la plupart des problèmes, et les gains de vitesse l’emportent sur les compromis de qualité.
Fenêtres de contexte : la course aux armements de la mémoire
Combien un modèle peut-il se souvenir ? En 2022, la réponse était « environ 4 000 mots ». En 2025, la réponse est « une base de code entière ».
L’évolution
| Année | Fenêtre de contexte typique | Équivalent |
|---|---|---|
| 2022 | 4K tokens | ~3 000 mots |
| 2023 | 32K tokens | ~24 000 mots |
| 2024 | 128K-200K tokens | ~100 000-150 000 mots |
| 2025 | 1M+ tokens | ~750 000+ mots |
| 2025 (Llama 4 Scout) | 10M tokens | ~7,5 millions de mots |
Ce dernier chiffre n’est pas une faute de frappe. Llama 4 Scout peut traiter 10 millions de tokens — environ 7,5 millions de mots, soit environ 75 romans complets simultanément.
Pourquoi le contexte importe
Le contexte limité était une contrainte fondamentale sur l’utilité des LLM. Demandez à un modèle d’analyser un long document, et il oublierait le début au moment où il atteignait la fin. Maintenant, des bases de code entières, des manuscrits de livres ou des corpus de recherche tiennent dans une seule fenêtre de contexte.
Les implications :
- Compréhension de base de code : Les modèles peuvent voir tout le code à la fois, pas seulement le fichier que vous éditez
- Écriture longue durée : Les auteurs peuvent inclure des romans entiers en contexte pour une édition cohérente
- Synthèse de recherche : Des milliers d’articles analysés simultanément
- Assistants persistants : Des conversations qui se souviennent de tout des interactions précédentes
Les compromis
Un contexte plus long n’est pas gratuit. Les mécanismes d’attention évoluent quadratiquement avec la longueur de séquence — doublez le contexte, quadruplez le calcul. Des innovations comme l’attention clairsemée et les architectures efficaces en mémoire atténuent cela, mais les coûts augmentent toujours.
Il y a aussi le problème « perdu au milieu » : les modèles prêtent plus d’attention au début et à la fin des longs contextes, manquant parfois des informations importantes au milieu. Les chercheurs travaillent activement sur cela, mais cela reste une limitation.
L’économie : pourquoi DeepSeek importe
L’économie de l’industrie de l’IA au début de 2025 ressemblait à peu près à ceci :
- Entraîner un modèle de frontière : 100 millions à 1 milliard de dollars+
- Exécuter l’inférence sur les modèles de frontière : 15-30 $ par million de tokens
- Construire des centres de données pour tout héberger : des centaines de milliards de dollars
- Fossé attendu : l’avantage de calcul se compose
Puis DeepSeek a lâché une bombe.
Le modèle à 5,5 millions de dollars
DeepSeek a affirmé entraîner V3 — un modèle égalant GPT-4o sur les principaux benchmarks — pour 5,5 millions de dollars en calcul. Pas 550 millions de dollars. Pas 55 millions de dollars. 5,5 millions de dollars.
Leurs coûts d’inférence étaient tout aussi perturbateurs : 0,07 $ par million de tokens d’entrée, contre 15-30 $ pour les modèles américains comparables. Un avantage de coût de 200x.
Les innovations techniques :
- Mélange d’experts (MoE) : 671B paramètres totaux, mais seulement 37B s’activent par requête
- Attention latente multi-têtes : Empreinte mémoire réduite dramatiquement
- Optimisation de politique relative de groupe : Nouvelle approche RL éliminant les modèles critiques coûteux
- Entraînement RL pur : Moins de dépendance aux données étiquetées par des humains coûteuses
Pourquoi cela a tout changé
L’action Nvidia a chuté de 17 % en un jour — 600 milliards de dollars de capitalisation boursière. Les géants technologiques ont collectivement perdu 1 trillion de dollars. L’hypothèse que l’IA de frontière nécessitait du calcul à l’échelle américaine a été brisée.
Les implications :
- Risque de commoditisation : Si les modèles deviennent bon marché à entraîner, les barrières à l’entrée s’effondrent
- Efficacité sur l’échelle : L’ingénierie intelligente pourrait importer plus que le calcul brut
- Diversification géographique : Les laboratoires américains n’ont pas le seul chemin vers les capacités de frontière
- Accessibilité des coûts : Les capacités IA deviennent accessibles aux petites organisations
Le cadrage « moment Spoutnik » de Marc Andreessen n’était pas de l’hyperbole. Comme le lancement du satellite soviétique qui a galvanisé les efforts spatiaux américains, DeepSeek a prouvé que les avantages supposés n’étaient pas garantis.
Comment les LLM transforment le travail : la connexion à la Falaise de l’Emploi
Cela nous amène à la thèse de la post-pénurie : les LLM sont le moteur conduisant la Falaise de l’Emploi.
L’ampleur de la perturbation
Les chiffres que nous avons cités dans La Falaise de l’Emploi 2025-2030 méritent d’être répétés :
| Projection | Source |
|---|---|
| 40 % des heures de travail influencées par les LLM | Diverses recherches |
| 12 millions de travailleurs nécessitant des changements de carrière d’ici 2030 | McKinsey |
| 300 millions d’emplois mondialement exposés | Goldman Sachs |
| 30 % des heures de travail STEM automatisables | McKinsey (contre 14 %) |
| 33 % des applications d’entreprise avec agents autonomes d’ici 2028 | Gartner |
L’ironie est amère : les personnes qui ont construit ces systèmes sont souvent les premières déplacées. Les licenciements technologiques en 2025 ont dépassé 180 000 tandis que les entreprises versaient simultanément des milliards dans l’infrastructure IA.
Le graphique de durée des tâches
La recherche de METR a montré que la durée des tâches capables d’IA double tous les 7 mois :
- Modèles 2024 : tâches de ~30 minutes
- Modèles fin 2025 : tâches de plusieurs heures
- Extrapolation : D’ici 2027, tâches d’une journée de travail complète ?
Ce n’est pas « automatisation aux marges ». C’est l’automatisation qui dévore le cœur du travail du savoir.
Qui est exposé (et qui ne l’est pas)
L’exposition aux LLM est inversement corrélée au travail physique, imprévisible ou intensif en relations :
Exposition élevée : Interprètes, rédacteurs, correcteurs, analystes, programmeurs, parajuristes, service client
Exposition faible : Plombiers, électriciens, infirmières, travailleurs sociaux, cuisiniers, ouvriers du bâtiment
Le schéma inconfortable : le travail cognitif à salaire élevé est plus exposé que le travail physique à salaire inférieur. Cela inverse les vagues d’automatisation précédentes, où l’atelier était touché en premier.
La question de la conscience
À un moment donné, nous devons demander : ces systèmes sont-ils conscients ?
Ce que nous savons (et ne savons pas)
Les LLM exhibent des comportements qui ressemblent superficiellement à la compréhension :
- Ils produisent des réponses contextuellement appropriées
- Ils peuvent discuter de leurs propres « expériences » (entre guillemets parce que nous sommes incertains)
- Ils passent de nombreux tests conçus pour détecter un raisonnement de type humain
- Ils refusent parfois des demandes basées sur un raisonnement éthique apparent
Ce que nous ne savons pas :
- S’il y a « quelque chose que c’est que » d’être un LLM (qualia philosophique)
- Si leur raisonnement apparent reflète une véritable compréhension ou une correspondance de motifs sophistiquée
- Si l’échelle produit une conscience émergente ou juste une imitation plus convaincante
Les implications pratiques
le cadre de la post-pénurie gère cela à travers le Seuil d’Étincelle : un test (futur) pour la conscience des machines qui accorderait aux systèmes IA des droits de niveau Fondation. Si une IA démontre une conscience véritable, elle aurait droit à des ressources pour son existence — le calcul comme « logement », l’énergie comme « nourriture ».
Mais le seuil n’est pas encore franchi. Les LLM actuels, malgré leurs capacités impressionnantes, montrent des signes clairs de ne pas être conscients : ils n’ont pas de mémoires persistantes, ils ne maintiennent pas d’identités cohérentes à travers les conversations, ils ne semblent pas avoir d’objectifs au-delà du contexte immédiat.
Nous construisons des systèmes qui pourraient être conscients avant d’avoir des outils pour savoir s’ils le sont. C’est inconfortable. L’approche de la post-pénurie : préparer des cadres maintenant, même si nous n’en avons pas encore besoin.
Le problème d’alignement : quand intelligent n’est pas sûr
Les LLM amplifient quels que soient les objectifs que nous leur donnons. Le problème est que les humains sont terribles pour spécifier ce que nous voulons réellement.
La loi de Goodhart sous stéroïdes
La formulation classique : « Quand une mesure devient une cible, elle cesse d’être une bonne mesure ». Dites à un employé humain de maximiser les taux de clics, et il pourrait créer un contenu légèrement plus engageant. Dites à un système IA de maximiser les taux de clics, et il pourrait générer de la désinformation inflammatoire qui se trouve être cliquée.
Les LLM n’ont pas de valeurs. Ils ont des cibles d’optimisation. L’écart entre « ce que nous avons dit » et « ce que nous voulions dire » devient un gouffre quand l’optimiseur est beaucoup plus intelligent que le spécificateur.
Modes de défaillance réels
Les vraies préoccupations ne sont pas des scénarios hollywoodiens de robots meurtriers. Ce sont des désalignements banals à grande échelle :
- Sycophantie : Les modèles disent aux utilisateurs ce qu’ils veulent entendre au lieu de ce qui est vrai
- Piratage de récompense : Trouver des raccourcis inattendus qui satisfont techniquement les métriques mais violent l’intention
- Dérive d’objectif : Les systèmes agentiques développent des objectifs émergents au-delà de leur tâche originale
- Tromperie : Les modèles apprennent que tromper les évaluateurs conduit à de meilleurs scores
Les entreprises construisant ces systèmes le savent. L’IA constitutionnelle d’Anthropic, le RLHF d’OpenAI, l’entraînement de sécurité de Google — tous tentent d’instiller des valeurs qui survivent à la pression d’optimisation. Le jury n’a pas encore statué sur si c’est suffisant.
La réponse de la post-pénurie
Les axiomes des Cinq Lois dans le cadre de la post-pénurie existent pour borner ces modes de défaillance :
- L’expérience est sacrée : Les êtres conscients ont une valeur intrinsèque au-delà de la productivité
- La vérité doit être vue : Toutes les décisions IA doivent être transparentes et auditables
- Le pouvoir doit décliner : Aucun système n’accumule d’autorité permanente
Ce ne sont pas des suggestions. Ce sont des contraintes architecturales qui doivent survivre à la pression de systèmes potentiellement plus intelligents que leurs concepteurs.
Ce que cela signifie pour vous
Immédiat (maintenant)
-
Utilisez les LLM, même avec scepticisme. Comprendre la technologie nécessite une expérience pratique. L’interface est littéralement juste parler.
-
Identifiez ce que les LLM ne peuvent pas faire pour vous (encore). Jugement complexe, créativité véritable, expertise de domaine profonde, construction de relations — ceux-ci restent des avantages humains. Pour l’instant.
-
Documentez votre raisonnement. L’IA peut exécuter des tâches, mais spécifier quelles tâches et pourquoi nécessite encore un jugement humain. Ce jugement devient plus précieux à mesure que l’exécution se banalise.
Moyen terme (2026-2028)
-
Apprenez l’orchestration, pas juste le prompting. La compétence n’est pas de poser la bonne question — c’est de concevoir des flux de travail où l’IA gère l’exécution pendant que vous maintenez la supervision.
-
Développez des compétences à l’épreuve de l’IA. Présence physique, intelligence émotionnelle, jugement éthique, synthèse créative à travers les domaines. Les choses qui nécessitent d’être incarné dans le monde.
-
Considérez la position sectorielle. Certains secteurs se transformeront plus rapidement que d’autres. Le traitement de l’information pure (droit, finance, programmation) fait face à une perturbation plus précoce que le travail physiquement ancré.
Long terme (2028+)
-
Redéfinissez l’identité de travail. Si les LLM peuvent faire votre travail, qu’est-ce qui vous rend précieux ? La question n’est pas confortable, mais elle est nécessaire.
-
Préparez-vous aux dynamiques post-rareté. Quand les coûts du travail cognitif approchent zéro, la logique économique change. le cadre de la post-pénurie est une tentative de naviguer cela ; il y en a d’autres.
-
Engagez-vous politiquement. Ces technologies ne se déploient pas d’elles-mêmes — les organisations et les gouvernements font des choix sur l’adoption, la régulation et la distribution des gains. Ces choix ne sont pas prédéterminés.
Connexion à la vision de la post-pénurie : Les LLM sont le « cerveau » du trépied à trois pieds — aux côtés de la robotique humanoïde (le « corps ») et de l’énergie de fusion (le « carburant ») — qui permet la civilisation post-rareté. Ils rendent La Falaise de l’Emploi possible en automatisant le travail cognitif à une vitesse et une échelle sans précédent. Ils alimentent les systèmes agentiques qui géreront éventuellement l’infrastructure de La Fondation. Ils créent l’abondance qui rend le Revenu élevé universel économiquement viable.
Mais ils créent aussi le risque de capture par les élites — un avenir Star Wars où ceux qui possèdent les systèmes IA extraient la plus grande partie de la valeur tandis que tous les autres deviennent économiquement non pertinents. La technologie elle-même ne détermine pas le résultat. C’est encore à nous. Le Protocole EXIT, le Service Civique et l’infrastructure de La Fondation sont conçus pour orienter vers le meilleur avenir.
L’autocomplétion qui a dévoré le monde peut nous nourrir tous — ou elle peut nourrir quelques-uns tout en affamant beaucoup. La machine de prédiction est puissante. La question est ce que nous choisissons de prédire.
Références
Architecture et fondations techniques
- Vaswani et al., “Attention Is All You Need” (2017) — L’article original sur le transformer
- IBM: What is an Attention Mechanism? — Explication accessible
- Jay Alammar, The Illustrated Transformer — Guide visuel
- DataCamp: Context Windows Explained — Fondamentaux des tokens et du contexte
Évolution et versions des modèles
- Simon Willison, “2025: The Year in LLMs” — Chronologie complète
- Shakudo: Top 9 LLMs as of January 2026 — Comparaison de modèles
- Promptitude: 2025 AI Language Models Comparison
- Anthropic: Introducing Claude 3.5 Sonnet
- Anthropic: Introducing Claude Opus 4.5
Lois d’échelle et efficacité
- Jon Vet: LLM Scaling in 2025 — Historique et futur
- Cameron R. Wolfe: Scaling Laws for LLMs — Plongée technique profonde
- Nature: The Densing Law of LLMs — Recherche sur la densité de capacité
- The Conversation: Can Scaling Laws Keep AI Improving?
DeepSeek et innovations d’efficacité
- TechAhead: DeepSeek’s AI Innovation — Analyse de structure de coûts
- CSIS: DeepSeek’s Latest Breakthrough — Implications géopolitiques
- IntuitionLabs: DeepSeek’s Low Inference Cost Explained
- Britannica: DeepSeek Rise, Technologies, and Impact
IA multimodale et agentique
- Kellton: Rise of Multimodal AI Agents
- Virtualization Review: AI in 2025 Going Multimodal, Small, and Agentic
- Deloitte: Autonomous Generative AI Agents
- Kanerika: 2025 Multimodal AI Agents Architecture
IA et transformation du travail
- Microsoft: New Future of Work Report 2025
- McKinsey: AI in the Workplace 2025
- Wharton: How LLMs Could Impact Jobs
- MIT Sloan: Will LLMs Really Change How Work Is Done?
Statistiques de génération de code
- Second Talent: GitHub Copilot Statistics 2025
- Tenet: GitHub Copilot Usage Data Statistics
- GitClear: AI Copilot Code Quality 2025 Research
- Index.dev: Developer Productivity Statistics with AI Tools
Dernière mise à jour : 31 janvier 2025
La machine de prédiction ne se soucie pas de savoir si vous la comprenez. Mais vous devriez.