Note : Ceci est une note de recherche complétant le livre L’ère de la post-pénurie, désormais disponible à l’achat. Ces notes approfondissent les concepts du texte principal. Commencez ici ou procurez-vous le livre.

Comment entraîne-t-on un robot ? Le problème de données que personne n’a résolu

Le coup de génie d’Elon Musk

En 2016, Tesla a commencé à livrer des voitures avec deux GPU NVIDIA. L’un faisait tourner l’Autopilot, celui qui t’aide à rester dans ta voie. L’autre ne faisait rien. Rien, sauf observer. Il enregistrait tout : comment tu tournais le volant, la force de ton freinage, ton hésitation au feu orange, ta façon d’esquiver un nid-de-poule que le GPS ne connaissait pas.

Tu croyais acheter une voiture. En réalité, tu étais un ouvrier de la donnée.

En 2024, la flotte Tesla avait accumulé plus de 35 milliards de kilomètres de données de conduite réelle. Pas en simulation. Pas sur des circuits d’essai contrôlés. Sur de vraies routes, sous une vraie météo, avec de vrais abrutis qui te coupent la route sur l’autoroute. Des millions de clients qui voulaient juste des sièges chauffants et un 0-100 en 3,1 secondes généraient en parallèle le plus grand jeu de données de conduite jamais assemblé.

Le génie n’était pas dans le matériel. Le génie était dans l’alignement des incitations. Les gens voulaient conduire. Tesla voulait des données de conduite. Le client payait Tesla pour produire le produit dont Tesla avait le plus besoin. C’est le système de collecte de données le plus élégant depuis que Google a compris que les gens taperaient volontiers leurs secrets dans une barre de recherche.

Ce tour de force a transformé l’industrie de la conduite autonome. Et maintenant, toute l’industrie de la robotique essaie de reproduire le même coup. Pour les robots.

Ils n’y arrivent pas.

Le problème : il n’existe pas d’internet pour les tâches physiques

Voilà pourquoi la révolution des robots humanoïdes est coincée dans un paradoxe.

ChatGPT s’est entraîné sur internet. Des milliers de milliards de mots aspirés de blogs, de livres, de forums, de Wikipédia, de débats Reddit sur la question de savoir si un hot-dog est un sandwich. Les données étaient juste là, en vrac, produites par des milliards d’humains qui écrivaient pour leurs propres raisons. OpenAI n’a pas eu besoin de convaincre qui que ce soit de générer des données d’entraînement. Les gens le faisaient depuis vingt ans.

Maintenant, essaie la même chose pour les tâches physiques.

Combien d’heures de vidéo montrent quelqu’un plier correctement un drap-housse ? (Et non, celles où la personne abandonne et le fourre en boule dans le tiroir ne comptent pas comme données d’entraînement.) Combien d’heures capturent la pression exacte des doigts, l’angle de prise et la rotation du poignet nécessaires pour casser un oeuf d’une seule main ? Où est le Reddit de la dextérité manuelle ?

Ça n’existe pas. Le savoir physique s’est toujours transmis par l’apprentissage, pas par la publication. Un boulanger ne blogue pas sur la force de pétrissage — il te montre avec ses mains. Un chirurgien n’uploade pas ses positions de doigts sur GitHub. L’intégralité du corpus d’expertise physique humaine vit dans la mémoire musculaire, non transcrite, non numérisée, invisible pour le machine learning.

L’IA linguistique avait internet. L’IA robotique n’a… rien. Voilà le goulot d’étranglement.

Le modèle Tesla : pourquoi ça a marché pour les voitures

Soyons précis sur ce qui a rendu l’approche de Tesla si efficace, car le contraste avec la robotique est instructif.

La boucle de rétroaction était passive. Les conducteurs n’avaient rien de spécial à faire. Ils conduisaient normalement. Le GPU fantôme capturait leur comportement sans le modifier. Pas d’étapes supplémentaires. Pas de protocole d’entraînement. Pas de formulaire de consentement pour chaque point de données.

La tâche était étroite. La conduite, malgré sa complexité, est fondamentalement une seule activité dans un seul contexte : naviguer un véhicule sur des routes. Les routes suivent des règles. Elles ont des voies, des panneaux, des feux. L’espace de recherche est vaste mais structuré.

La flotte était massive. En 2025, Tesla comptait plus de 7 millions de véhicules sur les routes mondiales. Même si seule une fraction contribuait des données Autopilot à un moment donné, la taille brute de la flotte générait des volumes de données qu’aucun concurrent ne pouvait approcher.

L’économie s’alignait parfaitement. Les clients payaient entre 35 000 et 100 000 dollars pour le privilège de générer des données. Tesla ne les payait pas. Ils payaient Tesla. Les données étaient un sous-produit d’un produit que les gens voulaient vraiment.

Maintenant, essaie de reproduire chacune de ces quatre propriétés pour un robot domestique.

Le désastre des données robotiques

Une startup appelée 1X Technologies — la société derrière l’humanoïde Neo à 499 $/mois — a une approche astucieuse du problème de données. Leur stratégie « humain dans la boucle » fonctionne ainsi : pendant la phase de déploiement initial, des employés de 1X pilotent les robots à distance, réalisant des tâches dans de vrais foyers et lieux de travail. Le robot enregistre tout, et ces données de démonstration entraînent l’IA à terme faire les tâches de manière autonome.

C’est malin. Mais il y a un problème de la taille d’une maison.

On ne peut pas collecter passivement des données d’entraînement robot. Contrairement au GPU fantôme de Tesla, quelqu’un doit activement réaliser chaque tâche à travers le robot. Ça veut dire payer des opérateurs humains. Ça veut dire que le débit est limité par le nombre d’opérateurs employés. Ça veut dire que le coût évolue linéairement avec le volume de données — l’exact opposé du volant d’inertie de Tesla, où le coût évoluait inversement.

L’espace des tâches est immense. La conduite est une tâche. La robotique domestique en compte des milliers : plier les vêtements, charger le lave-vaisselle, faire les lits, ranger les étagères, cuisiner, nettoyer la salle de bain. Chaque tâche a des centaines de variantes. Plier un T-shirt est différent de plier une chemise à boutons. Charger un lave-vaisselle à panier haut est différent d’un tiroir coulissant. Chaque maison est légèrement différente. Chaque serviette a une texture différente.

La vie privée est un cauchemar. Des employés de 1X pilotent des robots à distance dans ta maison. Ils peuvent voir ton salon, ta chambre, ton comptoir de cuisine avec les flacons de médicaments que tu as oublié de ranger. L’entreprise dit gérer ça avec soin, mais « faites-nous confiance » n’est pas une politique de confidentialité. Quand Tesla enregistre ta conduite, la caméra voit des routes publiques. Quand un opérateur de robot enregistre chez toi, la caméra voit tout.

La flotte n’existe pas encore. Tesla avait 7 millions de voitures génératrices de données avant même d’en avoir besoin. 1X a des précommandes. Figure AI a quelques centaines de déploiements en usine. Même les projections les plus optimistes prévoient 50 000 expéditions d’humanoïdes en 2026. Sept millions contre cinquante mille — un écart de 140x dans la taille de la flotte, avant même de prendre en compte le fait que chaque voiture génère des données passivement tandis que chaque robot nécessite une démonstration active.

Les gants entrent en scène

Le 2 avril 2026, Forbes a publié un article sur une startup appelée Generalist qui pense que la réponse, c’est des gants.

Le pitch : des gants bourrés de capteurs qui enregistrent les mouvements des mains humaines — positionnement des doigts au sous-millimètre, force de préhension, pression de contact, timing de relâchement — et les traduisent en données d’entraînement robot. Pas de robot dans la boucle. Pas de rig de téléopération. Pas de casque VR. Tu enfiles les gants et tu fais la tâche.

Cent travailleurs d’entrepôt portant des gants pendant un mois pourraient théoriquement générer plus de données de manipulation qu’une flotte de robots téléopérés en un an.

L’idée est architecturalement différente de tout ce qui se tente par ailleurs. Google DeepMind utilise des rigs de téléopération — quelqu’un pilote le robot à distance pendant qu’il enregistre. Le Toyota Research Institute utilise des interfaces VR. Meta a travaillé sur la détection tactile. Mais toutes ces approches nécessitent toujours un robot de l’autre côté pendant la collecte de données. Les gants retirent le robot de la boucle d’entraînement.

Generalist appelle ça le « moment ChatGPT » de la robotique. La comparaison les flatte, mais la logique tient sur un point précis : le goulot d’étranglement de l’IA linguistique n’a jamais été l’architecture du modèle — c’était d’avoir assez de données. C’est la même chose pour la robotique. Physical Intelligence a levé 1 milliard de dollars pour construire des modèles de fondation robotiques. Ils ont la puissance de calcul. Ils crèvent de faim pour les données de démonstration.

Si les gants fonctionnent à la fidélité annoncée, Generalist devient la couche d’infrastructure de données pour toute l’industrie robotique.

Si non, c’est une énième démo de conférence qui ne survit pas au bruit du monde réel.

La question de la vie privée que personne ne veut aborder

C’est là que ça devient personnel. Au sens propre.

Le modèle de 1X exige que des employés exécutent tes tâches à distance pour que le robot apprenne. Ça signifie qu’un inconnu — opérant depuis un centre de contrôle à Moss, en Norvège, ou depuis là où 1X route ses téléopérations — est virtuellement chez toi, voit tes affaires, observe comment tu vis.

Moi, je ne veux pas de ça.

Je préfère enfiler les gants moi-même et plier le linge. Je préfère apprendre à mon robot comment j’aime mon espresso en le faisant moi-même quelques fois avec des capteurs. Je préfère enrôler mon ado pour qu’il porte les gants et fasse la vaisselle (la première fois qu’il ferait volontairement la vaisselle impliquerait de la technologie portable, évidemment).

Ce n’est pas qu’une préférence personnelle. C’est un aperçu sur le modèle de collecte de données.

L’analogie Tesla révèle la réponse. Tesla n’a pas embauché de pilotes professionnels pour générer des données d’entraînement. Ils ont vendu des voitures à des gens normaux et les ont laissés conduire. L’entraînement se faisait comme sous-produit de l’utilisation normale. Le problème de vie privée était gérable parce que les données provenaient de routes publiques.

L’équivalent robotique n’est pas un téléopérateur dans ta cuisine. C’est toi dans ta cuisine, portant des gants ou une combinaison à capteurs, faisant les choses que tu allais faire de toute façon. L’entraînement se fait comme sous-produit de la vie normale. Le problème de vie privée disparaît parce que les données ne quittent jamais ta maison — ou au moins, tu contrôles si elles le font ou non.

La question que personne ne plaide encore : quand tu apprends à un robot à plier le linge et que cette technique s’intègre dans un modèle de fondation utilisé par des millions de robots, à qui appartiennent ces données ? Qui est payé ? Si ta technique d’espresso propriétaire — la pression spécifique, l’angle exact du tassage, le timing précis d’extraction — est absorbée dans un modèle qui rend meilleur chaque robot-barista, as-tu droit à une compensation ?

C’est la bataille de propriété intellectuelle des années 2030, et elle fait passer les procès sur les données d’entraînement texte/image de 2024 pour du menu fretin.

Les trois voies possibles

Le problème des données d’entraînement robot sera résolu. La question est quelle approche l’emportera.

Voie 1 : le modèle Tesla (apprentissage de flotte)

Expédier des robots suffisamment utiles pour justifier l’achat, même avec une autonomie limitée. Utiliser les capteurs embarqués pour collecter des données de l’environnement du robot. Laisser la flotte s’entraîner elle-même au fil du temps.

Qui fait ça : Tesla Optimus (1 000+ unités dans les usines Tesla), 1X Neo (déploiements grand public début 2026), Figure AI (déploiement dans l’usine BMW).

Le hic : il faut une grande flotte d’abord. Et la flotte doit faire quelque chose d’assez utile pour que les gens gardent les robots pendant qu’ils apprennent encore. C’est le problème de la poule et de l’oeuf que Tesla a résolu pour les voitures en livrant un produit que les gens voulaient indépendamment de l’Autopilot (une voiture électrique rapide et cool). Les robots humanoïdes doivent trouver leur équivalent des « sièges chauffants » — la proposition de valeur qui justifie l’achat avant même que l’IA soit au point.

Voie 2 : le pipeline des gants (collecte de données découplée)

Séparer la collecte de données du déploiement robot. Utiliser des capteurs portables pour capturer l’expertise humaine, puis la transférer à n’importe quelle plateforme robotique.

Qui fait ça : Generalist (gants), divers labos de recherche travaillant sur la capture de mouvement pour la manipulation.

Le hic : les données doivent se transférer. Les mains humaines et les pinces robotiques ont des cinématiques différentes, des profils de force différents, des degrés de liberté différents. Capturer un humain pliant une serviette avec une précision exquise ne sert à rien si le mapping vers les actuateurs d’un Figure 03 introduit trop de bruit.

Voie 3 : les modèles de fondation (simulation + transfert)

Entraîner en simulation à grande échelle, puis transférer aux robots physiques. Utiliser une petite quantité de données du monde réel pour calibrer l’écart simulation-réalité.

Qui fait ça : Physical Intelligence (1 Md$ levé à 11 Md$ de valorisation), Google DeepMind Gemini Robotics, NVIDIA Isaac Sim.

Le hic : la simulation ne capture pas tout le désordre de la réalité. L’« écart sim-vers-réel » — la différence entre le fonctionnement de la physique dans un moteur de jeu et dans ta cuisine — a humilié toutes les équipes robotiques qui ont tenté l’entraînement en simulation pure.

Pourquoi ça nous concerne tous (pas que les roboticiens)

Dans le cadre de la Post-Pénurie, le goulot d’étranglement des données d’entraînement robot n’est pas une curiosité technique — c’est la contrainte de rythme de la Falaise de l’Emploi.

Le matériel existe. 50 000 robots humanoïdes sont expédiés en 2026. Unitree en vend un pour 16 000 $. 1X en propose un à 499 $/mois. Les corps mécaniques sont prêts.

L’architecture IA existe. Physical Intelligence, Google DeepMind et une douzaine d’autres labos ont des modèles de fondation capables de traiter des entrées visuelles, comprendre des commandes en langage naturel et générer des plans moteurs.

Ce qui manque, c’est les données d’entraînement qui connectent ces modèles au monde physique. Sans elles, les robots marchent et parlent mais ne peuvent pas plier ton linge de manière fiable, trier ton recyclage ou faire ton café. Ce sont des athlètes qui n’ont jamais joué un match.

C’est en fait une bonne nouvelle — et voici pourquoi.

Le goulot d’étranglement des données nous fait gagner du temps. Du temps pour construire l’infrastructure institutionnelle — la Fondation, les systèmes de transition, le nouveau contrat social — dont le livre soutient que nous avons besoin avant que les robots ne remplacent le travail humain à grande échelle. Si le problème des données était déjà résolu, on ferait face au chômage de masse aujourd’hui, sans aucun système en place. Au lieu de cela, on a une fenêtre. Peut-être cinq ans. Peut-être dix.

Mais cette fenêtre se referme. Les gants de Generalist, la téléopération de 1X, les modèles de fondation de Physical Intelligence — ce sont des tentatives sérieuses de déboucher le goulot. Quand l’une d’elles réussira (et l’une réussira), les vannes s’ouvriront. Des robots capables d’apprendre n’importe quelle tâche physique aussi facilement que ChatGPT a appris à écrire des e-mails. Des robots qui s’améliorent chaque jour, nourris par un pool croissant de données de démonstration humaines.

Le compte à rebours de la Falaise de l’Emploi ne se mesure pas en expéditions de matériel. Il se mesure en données d’entraînement. Et la course pour les collecter a commencé.

Ce que tu peux faire maintenant

Expérience de pensée. Imagine que tu puisses entraîner ton robot domestique toi-même. Pas à travers une interface de roboticien niveau doctorat. Avec des gants, un casque VR, ou simplement en faisant la tâche pendant que le robot regarde.

Tu le ferais ?

Moi oui. J’apprendrais à mon robot comment j’aime mon espresso. Je lui montrerais où vont les assiettes. Je ferais porter les gants à mes ados pour qu’ils montrent leur système élaboré de « rangement » de chambre (le système s’appelle « tout fourrer sous le lit », mais le robot n’a pas besoin de le savoir).

Et voilà le truc : si les données d’entraînement que tu génères rendent le robot plus intelligent, et que cette intelligence est partagée avec d’autres robots, tu as contribué à quelque chose de plus grand. Tu as ajouté à un pool collectif de savoir physique humain qui était auparavant prisonnier de la mémoire musculaire individuelle, transmis par l’apprentissage artisanal, ou perdu quand quelqu’un prenait sa retraite.

C’est la vision que le livre appelle l’Ascension — les humains contribuant à la civilisation non par le travail pénible, mais en enseignant, en créant, en partageant ce qu’ils savent. Entraîner ton robot à plier le linge est un petit acte. Mais c’est un acte de contribution, pas de consommation. Et dans l’économie émergente, cette distinction compte.

Les robots ont des corps. Ils ont besoin de professeurs. Et ces professeurs devraient être nous — pas parce qu’on doit aux machines notre savoir, mais parce que les leur enseigner est la façon dont on se libère.

Pour aller plus loin

Liens internes :

Comment entraîne-t-on un robot ? Le problème de données que personne n'a résolu