Connexion gratuite : Préambule (PDF, ebook & livre audio) + Accès au forum + Achats directs Connexion

Recherche Unscarcity

Grappes de calcul IA 2025 : la course aux armements GPU de 500 milliards de dollars

Le Colossus de xAI : plus de 200 000 GPU, 250 MW de puissance. Meta : 350 000 H100. Stargate : 500 milliards de dollars sur 4 ans. Pourquoi les géants technologiques parient tout sur le calcul.

15 min de lecture 3309 mots /a/compute-clusters

Note : Ceci est une note de recherche complétant le livre L’ère de la post-pénurie, désormais disponible à l’achat. Ces notes approfondissent les concepts du texte principal. Commencez ici ou procurez-vous le livre.

Grappes de calcul : les usines de l’ère de l’intelligence

Comment les installations d’entraînement IA sont devenues les raffineries de pétrole du 21e siècle — et pourquoi vos petits-enfants pourraient recevoir une allocation de calcul en même temps que leur acte de naissance.


Qu’est-ce qu’une grappe de calcul, vraiment ?

Commençons par les bases, car « grappe de calcul » sonne impressionnant sur le plan technique mais obscurcit quelque chose de remarquablement simple. Une grappe de calcul, c’est juste beaucoup d’ordinateurs qui travaillent ensemble sur le même problème.

C’est tout. La magie réside dans la partie « travaillent ensemble ».

Lorsque vous entraînez un grand modèle de langage comme GPT-4 ou Llama 4, la tâche est bien trop massive pour un seul ordinateur — même un obscènement puissant. Vous devez diviser le travail entre des milliers de processeurs qui communiquent constamment, partagent des résultats et coordonnent leurs efforts. Si une machine calcule quelque chose, toutes les autres machines doivent le savoir immédiatement. Le délai entre elles doit être mesuré en microsecondes, pas en secondes.

Imaginez la construction d’une pyramide. Une seule personne avec une brouette prendrait des millénaires. Un millier de personnes doivent se coordonner — qui porte quoi, où va le prochain bloc, ne laissez pas tomber ça sur Steve. Une grappe de calcul, c’est ce problème de coordination, résolu à la vitesse de la lumière.

Les processeurs qui font ce travail sont des unités de traitement graphique (GPU), conçus à l’origine pour rendre des graphiques de jeux vidéo mais réutilisés pour l’IA parce qu’ils excellent à faire beaucoup de calculs simples simultanément. Si un CPU traditionnel est un chirurgien brillant effectuant des opérations délicates une à la fois, un GPU est un atelier avec des milliers d’ouvriers faisant chacun une petite tâche très rapidement.


L’état actuel des lieux : bienvenue dans la course aux armements GPU

En 2024, nous sommes entrés en territoire inconnu. Les grappes de calcul entraînant les modèles d’IA de pointe sont devenues vraiment stupéfiantes en termes d’échelle :

Le Colossus de xAI : 100 000 GPU en 122 jours

La société d’IA d’Elon Musk, xAI, a construit ce qui était brièvement le plus grand superordinateur IA au monde dans une ancienne usine Electrolux à Memphis, Tennessee. Le calendrier était absurde : de la décision à l’opérationnel en 122 jours, alors que des projets similaires prennent généralement des années. En septembre 2024, il faisait tourner 100 000 GPU Nvidia H100.

Puis ils l’ont doublé. En 92 jours.

À la mi-2025, Colossus fait fonctionner 150 000 H100, 50 000 H200 et 30 000 GB200. L’objectif ultime ? Un million de GPU. L’installation consomme maintenant 250 mégawatts de puissance — assez d’électricité pour 250 000 foyers.

Ce n’est pas un projet de R&D. C’est la production industrialisée d’intelligence.

L’infrastructure de Meta : plus de 350 000 H100

Meta (la société mère de Facebook) a annoncé son intention d’accumuler 350 000 GPU H100 d’ici fin 2024, représentant un investissement dépassant 10 milliards de dollars en GPU seuls. En incluant le réseau et l’infrastructure, le total dépasse 50 milliards de dollars. Leur modèle Llama 3 s’est entraîné sur une grappe de 16 384 H100 pendant 54 jours — durant lesquels ils ont subi 148 interruptions dues à des GPU défectueux et 72 à des défaillances de mémoire. C’est de l’ingénierie spatiale qui implique de remplacer les moteurs en plein vol.

La vision zettascale d’Oracle

Oracle prend maintenant des commandes pour ce qu’il appelle le premier superordinateur IA « zettascale » : jusqu’à 131 072 GPU dans une seule grappe. Pour le contexte, c’est plus de trois fois la capacité de calcul de Frontier, le superordinateur traditionnel le plus rapide au monde.

Le projet Stargate : 500 milliards de dollars sur quatre ans

Annoncé en janvier 2025 lors d’une conférence de presse à la Maison Blanche, le projet Stargate représente peut-être le déploiement d’infrastructure IA le plus ambitieux jamais conçu. SoftBank, OpenAI, Oracle et MGX investissent jusqu’à 500 milliards de dollars sur quatre ans, avec 100 milliards de dollars déployés immédiatement.

Le site phare à Abilene, Texas, est déjà opérationnel. Fin 2025, cinq sites de centres de données supplémentaires ont été annoncés. Le projet déploiera finalement plus de 450 000 GPU Nvidia GB200 sur plus de 8 gigawatts de capacité planifiée. C’est la production électrique d’environ huit réacteurs nucléaires.


Ce qu’il y a à l’intérieur de ces grappes : le matériel

Le roi actuel : Nvidia H100

Le Nvidia H100 (nom de code « Hopper ») a été la puce qui a défini le boom de l’IA 2023-2024. Spécifications clés qui comptent :

  • 80 Go de mémoire HBM3 (le type de mémoire le plus rapide disponible)
  • 3,35 téraoctets par seconde de bande passante mémoire (à quelle vitesse les données circulent)
  • 4 pétaflops de calcul IA (un pétaflop est un billiard de calculs par seconde)
  • ~25 000-30 000 $ par puce (quand on peut en obtenir)

Le H100 n’est pas seulement cher — il a été vraiment rare. En 2023-2024, les entreprises d’IA les ont accumulés comme des lingots d’or. Jensen Huang, PDG de Nvidia, est devenu la personne la plus courtisée de la technologie.

Le nouveau prétendant : Blackwell (B200 et GB200)

En 2025, l’architecture Blackwell de Nvidia a commencé à être livrée à grande échelle. Le GPU B200 représente un bond générationnel :

  • 192 Go de mémoire HBM3e (2,4x le H100)
  • 8 téraoctets par seconde de bande passante (2,4x le H100)
  • 20 pétaflops de calcul IA (5x le H100)
  • ~30 000-40 000 $ par puce

Le système GB200 NVL72 connecte 72 GPU Blackwell pour agir comme un seul processeur massif avec 1,4 exaflops de performance IA. C’est 1,4 trillions de calculs par seconde. Pour la perspective, on estime que le cerveau humain effectue environ un exaflop — ce rack de GPU égale 1,4 cerveaux humains en débit de calcul brut.

C’est là que ça devient intéressant. La puissance GPU brute ne signifie rien si les puces ne peuvent pas communiquer assez rapidement entre elles.

NVLink est l’interconnexion propriétaire de Nvidia pour la communication GPU-à-GPU au sein d’un seul serveur ou rack :

  • 1,8 téraoctets par seconde de bande passante bidirectionnelle (la dernière version)
  • 7x plus rapide que PCIe Gen 5 (la connexion informatique standard)
  • Permet aux GPU de partager directement la mémoire, comme s’ils étaient une seule puce

InfiniBand connecte les serveurs à travers le centre de données :

  • 400 Gb/s par port (avec 800 Gb/s à venir)
  • Moins de 100 nanosecondes de latence (une nanoseconde est un milliardième de seconde)
  • Capacité RDMA (Remote Direct Memory Access — les GPU peuvent lire la mémoire des autres sans impliquer le CPU)

L’architecture typique : NVLink connecte les GPU au sein d’un nœud, InfiniBand connecte les nœuds à travers la grappe. Ensemble, ils font se comporter des milliers de GPU comme un seul processeur géant.


Le problème de l’énergie : ces choses ont faim

C’est là que le déploiement de grappes de calcul entre en collision avec la réalité physique : ces installations consomment des quantités obscènes d’électricité.

Selon l’Agence internationale de l’énergie :

  • La consommation mondiale d’électricité des centres de données a atteint 415 TWh en 2024 (~1,5 % de l’électricité mondiale)
  • Les centres de données américains seuls ont consommé 183 TWh — environ 4 % de l’électricité américaine
  • D’ici 2030, la consommation mondiale des centres de données devrait atteindre 945 TWh (~3 % de l’électricité mondiale)

L’IA consomme spécifiquement 10-20 % de l’énergie actuelle des centres de données, mais cette fraction augmente rapidement — potentiellement à 35-50 % d’ici 2030.

Une seule grappe d’entraînement IA avec 100 000 GPU fonctionnant à 70 % d’efficacité peut consommer quotidiennement autant d’électricité que 150 000 foyers en consomment en une année entière. L’installation xAI Colossus est classée à 250 MW — environ l’équivalent de la consommation électrique d’une petite ville.

Ce n’est pas seulement un problème d’ingénierie. C’est une contrainte civilisationnelle.

La connexion à la fusion

C’est pourquoi l’obsession de l’industrie technologique pour l’énergie de fusion n’est pas qu’une question de relations publiques. Quand vous prévoyez de faire fonctionner des centres de données qui consomment individuellement des gigawatts de puissance, vous avez besoin de sources d’énergie qui passent à l’échelle.

Microsoft a signé un accord avec Helion pour acheter de l’énergie d’un réacteur de fusion d’ici 2028. Google s’est associé à Commonwealth Fusion Systems ciblant le début des années 2030. Le financement de l’industrie de la fusion est passé de 1,7 milliard de dollars en 2020 à 15 milliards de dollars en septembre 2025.

Le calendrier est agressif mais pas arbitraire. L’infrastructure réseau actuelle ne peut tout simplement pas supporter le déploiement prévu de centres de données IA. Quelque chose doit céder. Soit le développement de l’IA ralentit, soit nous trouvons de nouvelles sources d’énergie.

C’est la composante carburant du trépied de la post-pénurie (Le Cerveau, Le Corps, Le Carburant). La fusion et l’IA ne sont pas seulement des technologies adjacentes — ce sont des nécessités symbiotiques.


L’investissement des hyperscalers : des centaines de milliards

Le capital qui afflue dans l’infrastructure IA défie les précédents historiques :

Entreprise Orientation CapEx 2025 Focus
AWS ~100 milliards de dollars Infrastructure cloud IA
Microsoft ~80 milliards de dollars Azure, partenariat OpenAI
Google 75-85 milliards de dollars Cloud, entraînement Gemini
Meta 70-72 milliards de dollars Entraînement Llama, IA sociale
Oracle Partenaire Stargate Expansion majeure d’infrastructure

Le CapEx combiné des hyperscalers devrait dépasser 600 milliards de dollars en 2026, avec environ 75 % (450 milliards de dollars) directement liés à l’infrastructure IA. D’ici 2030, un rapport McKinsey projette 5,2 trillions de dollars en dépenses d’investissement cumulées de centres de données IA.

Ces chiffres sont difficiles à contextualiser. L’ensemble du programme Apollo a coûté environ 280 milliards de dollars en dollars d’aujourd’hui. Le déploiement d’infrastructure IA dépassera cela en une seule année.


La géopolitique : le calcul est le nouveau pétrole

Sam Altman a appelé le calcul « la monnaie du futur » — « possiblement la marchandise la plus précieuse au monde ». Jonathan Ross de Groq fait écho au sentiment : « Le calcul est le nouveau pétrole ».

Ce n’est pas de l’hyperbole. La concentration est stupéfiante :

  • Les États-Unis contrôlent ~75 % de la capacité mondiale de supercalcul IA
  • La Chine détient ~15 % (et en baisse, à cause des restrictions à l’exportation)
  • Nvidia commande 80-95 % du marché des puces IA
  • TSMC fabrique ~90 % des puces avancées du monde

Le conflit sino-américain sur les semi-conducteurs est, en effet, une guerre sur les moyens de production d’intelligence. Le CHIPS and Science Act a alloué plus de 52 milliards de dollars pour inciter à la fabrication nationale de puces. TSMC construit deux usines de 2 nm en Arizona — un investissement de 65 milliards de dollars. L’objectif explicite est de réduire la dépendance à Taïwan, qui se trouve à 160 kilomètres de la Chine continentale.

Les contrôles à l’exportation ont fait de la Chine un producteur marginal de puces IA. Le fondateur de DeepSeek, Liang Wenfeng, a déclaré sans ambages : « L’argent n’a jamais été le problème pour nous ; les interdictions d’expédition de puces avancées sont le problème ».

Pourtant, la Chine réagit. SMIC préparerait des lignes de production pour des puces de 5 nm. Le « Big Fund » de Pékin verse des milliards dans le développement national des semi-conducteurs. Un découplage technologique est en cours — créant potentiellement deux écosystèmes IA incompatibles, américain et chinois, en compétition pour l’influence mondiale.

La question de Taïwan

Voici la vérité inconfortable : si la Chine bloque ou envahit Taïwan, l’économie technologique mondiale s’effondre du jour au lendemain. Les armées modernes feraient face à une sécheresse immédiate de semi-conducteurs. Chaque iPhone, chaque modèle d’IA, chaque système d’arme avancé dépend de puces qui proviennent principalement d’une petite île.

C’est pourquoi TSMC se développe mondialement — au Japon (avec des subventions du gouvernement japonais), en Arizona (avec des subventions américaines), en Allemagne. La diversification géographique est un impératif de sécurité nationale, pas seulement une stratégie commerciale.


Pourquoi les puces individuelles n’importent pas (et pourquoi les grappes importent)

Un seul H100 est impressionnant mais inutile pour l’entraînement d’IA de pointe. Les modèles sont tout simplement trop grands. GPT-4 aurait environ 1,7 trillion de paramètres. La plus grande version de Llama 3 en a 405 milliards. Chaque paramètre doit être stocké, mis à jour et communiqué.

Les mathématiques fonctionnent ainsi :

  • Un modèle d’un trillion de paramètres nécessite ~2 téraoctets juste pour stocker les poids en virgule flottante demi-précision
  • Pendant l’entraînement, vous devez également stocker les gradients et les états de l’optimiseur — environ 16 octets par paramètre
  • Cela fait 16 téraoctets de mémoire pour un modèle d’un trillion de paramètres
  • Un seul H100 a 80 Go de mémoire

Vous avez besoin d’au minimum 200 H100 juste pour contenir le modèle, plus des GPU supplémentaires pour le traitement par lots. En pratique, l’entraînement nécessite des milliers à des dizaines de milliers de GPU fonctionnant pendant des semaines ou des mois.

C’est pourquoi les grappes importent. La capacité de coordonner des dizaines de milliers de processeurs sur une seule exécution d’entraînement — avec une latence de communication minimale, une bande passante maximale et une tolérance aux pannes robuste — est la réalisation technologique centrale. La puce individuelle est impressionnante ; l’orchestre est transformateur.


La démocratisation à venir (peut-être)

C’est là que la thèse de la post-pénurie devient concrète.

À l’heure actuelle, l’entraînement d’IA de pointe est confiné à environ une douzaine d’organisations dans le monde : OpenAI, Anthropic, Google DeepMind, Meta, xAI, Mistral, une poignée de laboratoires chinois et quelques startups bien financées. Les exigences en capital — des milliards de dollars en GPU, en énergie et en talents d’ingénierie — créent des barrières naturelles.

Mais trois forces pourraient démocratiser l’accès :

1. L’inférence est moins chère que l’entraînement

Entraîner GPT-4 a nécessité des mois sur une grappe massive. Exécuter l’inférence (obtenir des réponses du modèle entraîné) est beaucoup moins cher. Les fournisseurs cloud offrent maintenant un accès API aux modèles de pointe pour quelques centimes par requête. La capacité devient de plus en plus accessible même si les moyens de production restent concentrés.

2. Les modèles plus petits s’améliorent

Les techniques de distillation, les architectures efficaces et de meilleures données d’entraînement signifient que les modèles plus petits peuvent approcher les performances des plus grands. Le modèle de 8 milliards de paramètres de Llama 3 surpasse GPT-3.5 (175 milliards de paramètres) sur de nombreux benchmarks. Le plancher s’élève.

3. Réseaux de calcul décentralisés

Les réseaux émergents comme Aethir agrègent la capacité GPU inactive à l’échelle mondiale. L’idée : si un million de personnes contribuent chacune une petite quantité de calcul, vous obtenez un superordinateur distribué. La technologie est naissante, mais le concept est solide.


Connexion avec la vision de la post-pénurie : Revenu de base universel en calcul

Cela nous amène au Revenu de base universel en calcul (UBC) — l’idée que chaque citoyen devrait recevoir une allocation garantie de capacité de traitement IA.

Si le calcul devient le moyen de production — l’équivalent moderne de la terre dans une économie agraire — alors distribuer le calcul, c’est distribuer l’agence économique. Un citoyen avec une allocation de calcul peut :

  • Exécuter des agents IA personnels qui gèrent l’administration de la vie
  • Participer à des coopératives mutualisées pour des projets plus importants
  • Déléguer son allocation aux Guildes de Mission en échange de services
  • Créer, rechercher ou construire en utilisant les mêmes outils que les grandes entreprises

La couche Fondation dans le cadre de la post-pénurie pourrait éventuellement provisionner le calcul comme elle provisionne le logement ou la nourriture — comme infrastructure pour une existence digne. Pas un luxe, mais une base de référence.

Ce n’est pas de la fantaisie. Les institutions de recherche allouent déjà des quotas de calcul. Les initiatives cloud nationales en Arabie saoudite, aux Émirats arabes unis et à Singapour construisent une infrastructure IA souveraine. Le concept de « calcul comme service public » émerge dans les discussions politiques.

Mais réaliser l’UBC nécessite :

  1. Suffisamment de calcul total — actuellement une contrainte, mais Blackwell et les générations futures multiplieront la capacité
  2. Infrastructure de distribution — plateformes cloud qui peuvent allouer et mesurer le calcul équitablement
  3. Interfaces accessibles — pour que « utiliser le calcul » devienne aussi intuitif que « utiliser l’électricité »
  4. Cadres de gouvernance — pour empêcher la concentration, la corruption et l’accumulation

Le mécanisme de Garde de la Diversité traite la gouvernance. Le programme de Service Civique inclut la formation à l’orchestration IA. Le Protocole EXIT négocie avec les détenteurs de pouvoir existants pour une transition progressive.


Ce qu’il faut surveiller

2025-2026

  • Les GPU Blackwell atteignent l’échelle de production complète
  • Le projet Stargate opérationnalise plusieurs centres de données
  • Les premiers systèmes de refroidissement liquide de classe mégawatt deviennent standard
  • Resserrement continu des restrictions à l’exportation sur la Chine

2027-2030

  • Les premiers réacteurs de fusion commerciaux entrent potentiellement en service (accord Helion/Microsoft)
  • Les architectures de puces spécifiques à l’IA mûrissent au-delà de la domination de Nvidia
  • Les réseaux de calcul décentralisés prouvent (ou échouent) leur viabilité
  • Programmes pilotes UBC dans certaines juridictions

2030+

  • Point de croisement potentiel où le calcul d’inférence dépasse le calcul d’entraînement
  • Infrastructure de calcul de couche Fondation dans les premiers déploiements
  • L’énergie de fusion alimente significativement les centres de données
  • Les contours de « qui contrôle la production d’intelligence » deviennent clairs

Les enjeux

Voici ce qui se décide réellement dans les entrepôts GPU de Memphis, Abilene et d’autres lieux non divulgués dans le monde :

Qui contrôlera les moyens de production d’intelligence ?

Si la réponse est « une poignée d’entreprises et d’États-nations », nous obtenons la trajectoire Star Wars — la féodalité technologique avec de meilleurs graphiques. L’abondance créée par l’IA se concentre au sommet. Tous les autres deviennent économiquement non pertinents mais biologiquement vivants.

Si la réponse est « infrastructure distribuée avec accès universel », nous obtenons quelque chose de plus proche de la vision de la post-pénurie — où le calcul est un service public, la capacité IA est largement détenue, et la couche Fondation fournit une existence digne tandis que la couche Ascension récompense la contribution.

La course à la construction de grappes de calcul n’est pas seulement une compétition commerciale. C’est la construction de l’infrastructure qui déterminera comment l’intelligence est distribuée à travers la civilisation humaine.

Les usines de l’ère de l’intelligence sont en construction en ce moment. La question est de savoir si elles produiront la libération ou l’enfermement.


Références

Partager cet article :