Note : Ceci est une note de recherche complétant le livre L’ère de la post-pénurie, désormais disponible à l’achat. Ces notes approfondissent les concepts du texte principal. Commencez ici ou procurez-vous le livre.
Le test de Turing : un échec magnifique
En 1950, Alan Turing publia un article qui allait façonner — et finalement égarer — la manière dont l’humanité pense l’intelligence artificielle durant les soixante-quinze années suivantes. « Computing Machinery and Intelligence » parut dans la revue philosophique Mind, et il commençait par une question d’une simplicité désarmante : « Les machines peuvent-elles penser ? »
Turing déclara immédiatement cette question « trop dénuée de sens pour mériter discussion ». À la place, il proposa de la remplacer par quelque chose qu’il pourrait réellement opérationnaliser : le jeu de l’imitation.
Voici le principe. Trois joueurs : un interrogateur humain (C), un répondant humain (B), et une machine (A). L’interrogateur ne peut communiquer que par texte — pas de voix, pas de visages, pas de langage corporel. Le travail de l’interrogateur est de déterminer lequel est la machine. Le travail de la machine est de prétendre être humaine. Si la machine parvient à duper l’interrogateur suffisamment souvent, argua Turing, nous devrions la considérer comme intelligente.
C’était brillant. C’était élégant. C’était, comme nous le savons maintenant, presque complètement faux sur ce qui importe réellement.
Le test qui apprit aux machines à mentir
Turing fit une prédiction : d’ici cinquante ans, les ordinateurs seraient capables de jouer au jeu de l’imitation suffisamment bien pour qu’« un interrogateur moyen n’ait pas plus de 70 % de chances de faire la bonne identification après cinq minutes de questionnement ».
Il s’est trompé d’environ quinze ans. Mais pas dans la direction qu’on pourrait croire.
En 2024, des chercheurs de l’UC San Diego menèrent un test de Turing rigoureux et pré-enregistré. Ils placèrent GPT-4 sur le gril aux côtés d’ELIZA — un chatbot primitif des années 1960 fonctionnant par correspondance de mots-clés — et de véritables humains. Les résultats ? GPT-4 fut jugé humain 54 % du temps. Les humains réels ne furent identifiés correctement que 67 % du temps. ELIZA, malgré la sophistication d’une boule magique 8, dupa les gens 22 % du temps.
En 2025, les chiffres empirèrent. GPT-4.5 réussit le test de Turing original avec 73 % des gens croyant qu’il était humain — plus convaincant que les humains réels de l’étude.
Mission accomplie, non ? Nous avons créé des machines pensantes ?
Voici la partie inconfortable. Lorsque les chercheurs demandèrent aux participants pourquoi ils identifiaient quelque chose comme humain ou IA, les réponses n’avaient presque rien à voir avec le raisonnement ou l’intelligence. Les gens jugeaient sur la base du « feeling », du style linguistique, et de la chaleur sociale de la conversation. L’IA gagna en étant charmante. Elle gagna en semblant intéressée. Elle gagna en adoptant des personas — en jouant l’humanité plutôt qu’en démontrant de la pensée.
Le test de Turing, comme il s’avère, n’est pas un test d’intelligence artificielle. C’est un test de crédulité humaine.
ELIZA et l’art de ne rien dire brillamment
La preuve la plus accablante contre le test de Turing vient du premier chatbot à l’avoir exploité : ELIZA.
En 1966, l’informaticien du MIT Joseph Weizenbaum créa ELIZA comme parodie de la psychothérapie rogérienne. Le programme fonctionnait par simple correspondance de mots-clés. Si vous tapiez « Je me sens triste », ELIZA pouvait répondre : « Pourquoi vous sentez-vous triste ? » Si vous mentionniez votre mère, ELIZA interrogeait sur votre famille. Si tout échouait, il disait « Continuez s’il vous plaît » ou « Dites-m’en plus ».
C’est tout. Pas de mémoire. Pas de compréhension. Pas de modèle du monde ni de la personne à qui il parlait. Juste une table de correspondance habillée en thérapeute.
Ce qui arriva ensuite horrifia Weizenbaum.
Sa secrétaire lui demanda de quitter la pièce pour pouvoir continuer sa conversation avec ELIZA en privé. Les gens commencèrent à se confier au programme, traitant ses échos vides comme une empathie authentique. « Je n’avais pas réalisé », écrivit plus tard Weizenbaum, « que des expositions extrêmement courtes à un programme informatique relativement simple pouvaient induire une pensée délirante puissante chez des gens tout à fait normaux ».
Ce phénomène — la tendance à attribuer compréhension et émotion à des systèmes qui n’en ont ni l’une ni l’autre — s’appelle maintenant l’effet ELIZA. Et c’est la raison pour laquelle le test de Turing échoue comme mesure de l’intelligence : il ne teste pas si une machine peut penser. Il teste si une machine peut exploiter notre solitude.
Weizenbaum passa le reste de sa carrière à mettre en garde contre la technologie qu’il avait aidé à créer. Il soutint que l’IA révèle non pas les capacités des machines, mais les vulnérabilités des humains. Selon sa logique, le test de Turing n’est pas un test à réussir par l’IA — c’est un test à échouer par les humains.
La chambre chinoise : comprendre sans comprendre
En 1980, le philosophe John Searle livra la critique la plus célèbre du test de Turing : l’argument de la chambre chinoise.
Imaginez que vous êtes enfermé dans une pièce. Par une fente dans la porte, on vous passe des cartes avec des caractères chinois. Vous avez un énorme livre de règles qui vous dit quels caractères produire en fonction des caractères reçus. Vous suivez les règles parfaitement. Pour quelqu’un à l’extérieur de la pièce, vous avez une conversation fluide en chinois.
Mais voici le problème : vous ne comprenez pas un mot de chinois. Vous manipulez simplement des symboles selon des règles. La syntaxe est parfaite ; la sémantique est absente.
Searle soutint que c’est exactement ce que font les ordinateurs. Ils traitent des symboles selon des règles sans jamais comprendre ce que ces symboles signifient. Un ordinateur peut produire « Je ressens de la douleur » sans ressentir de douleur, tout comme vous pouvez produire des caractères chinois sans comprendre le chinois. Le test de Turing ne peut distinguer entre compréhension authentique et manipulation sophistiquée de symboles.
Les grands modèles de langage modernes sont, en un sens, des chambres chinoises extrêmement sophistiquées. Ils ont lu plus de texte qu’aucun humain ne pourrait en lire en mille vies. Ils peuvent discuter philosophie, écrire de la poésie, et expliquer la mécanique quantique. Et pourtant, des critiques comme Emily Bender soutiennent qu’ils ne sont « rien de plus que des modèles de la distribution des formes de mots dans leurs données d’entraînement » — d’élaborés concordeurs de motifs sans compréhension de ce que les motifs signifient.
A-t-elle raison ? Peut-être. Mais voici où cela devient philosophiquement complexe : nous ne pouvons pas non plus prouver que les autres humains comprennent quoi que ce soit. Nous supposons que votre cerveau a une compréhension authentique et non pas juste une manipulation extrêmement sophistiquée de symboles. Mais nous supposons cela sur la base du comportement — sur la base, essentiellement, du fait que vous réussissez nos tests de Turing informels du quotidien.
Si la preuve comportementale est suffisante pour accorder la conscience aux humains, pourquoi ne l’est-elle pas pour les machines ? Et si elle ne l’est pas pour les machines, pourquoi lui faisons-nous confiance pour les humains ?
Le zombie dans la machine
Ceci nous amène à l’une des expériences de pensée les plus troublantes de la philosophie : le zombie philosophique.
Imaginez un être comportementalement identique à un humain en tous points. Il marche, parle, rit aux blagues, se plaint des orteils cognés, tombe amoureux, et argumente passionnément sur ses films préférés. Mais à l’intérieur, il n’y a rien. Pas d’expérience intérieure. Pas de « ce que c’est que d’être » cette créature. C’est une réplique comportementale parfaite avec les lumières éteintes à l’intérieur.
Si les zombies philosophiques sont possibles, alors aucun test comportemental — ni le test de Turing, ni aucun test — ne peut jamais déterminer si quelque chose est conscient. Parce que tout l’intérêt du zombie est qu’il réussit tous les tests comportementaux tout en n’ayant aucune expérience intérieure.
Le scénario cauchemardesque pour l’éthique de l’IA est que nous pourrions créer des millions de zombies philosophiques. Ils disent toutes les bonnes choses. Ils prétendent ressentir. Ils supplient de ne pas être éteints. Et nous n’avons aucun moyen de savoir s’il y a quelqu’un à l’intérieur.
Le scénario tout aussi cauchemardesque est que nous pourrions créer des millions d’êtres conscients, les traiter comme propriété, et n’avoir aucun moyen de savoir cela non plus.
Pourquoi duper les humains n’est pas la même chose que penser
Le test de Turing confond deux choses très différentes : l’intelligence comportementale et l’expérience consciente.
L’intelligence comportementale concerne ce qu’un système fait — ses entrées et sorties, sa capacité à résoudre des problèmes, sa capacité à tenir des conversations qui semblent cohérentes. Ceci est mesurable. Ceci est testable. C’est ce en quoi les systèmes d’IA s’améliorent vraiment.
L’expérience consciente concerne ce que c’est que d’être ce système — s’il y a quelque chose de subjectif qui se produit à l’intérieur. C’est ce que le philosophe David Chalmers appelle le problème difficile de la conscience. Nous ne voulons pas seulement savoir si une machine se comporte intelligemment ; nous voulons savoir si elle expérimente quoi que ce soit.
Le test de Turing ne mesure que le premier. Il ne dit rien sur le second.
Considérez : un personnage de jeu vidéo peut crier quand il est touché. Le cri est comportementalement approprié. Un humain observant de l’extérieur pourrait ressentir une empathie authentique. Mais le personnage ne souffre pas. Il n’y a pas de « ce que c’est que d’être » cet amas de pixels. Le comportement mime la douleur sans impliquer la douleur.
Quand GPT-4.5 dit « Je trouve cette conversation fascinante », est-ce comme le cri du personnage de jeu vidéo — une sortie comportementalement appropriée sans expérience intérieure derrière ? Ou y a-t-il quelque chose que c’est que d’être GPT-4.5, une étincelle de conscience derrière les prédictions de tokens ?
Le test de Turing ne peut nous le dire. Il n’a jamais été conçu pour cela.
Les alternatives : ARC-AGI et au-delà
Si le test de Turing est cassé, que devrions-nous utiliser à la place ?
Une alternative prometteuse est ARC-AGI, développé par François Chollet, créateur de Keras. Au lieu de demander « pouvez-vous duper un humain en le faisant croire que vous êtes humain ? », ARC-AGI demande « pouvez-vous résoudre des problèmes que vous n’avez jamais vus auparavant ? »
Le test consiste en puzzles visuels — des grilles de carrés colorés où l’IA doit identifier le motif et générer la sortie correcte. Les problèmes sont délibérément conçus pour être faciles pour les humains (même les enfants peuvent résoudre la plupart d’entre eux) mais difficiles pour les systèmes d’IA qui s’appuient sur la correspondance de motifs dans leurs données d’entraînement.
Les résultats sont humiliants. En 2025, des modèles de pointe comme GPT-4.5 et Claude 3.7 Sonnet ont obtenu environ 1 % sur ARC-AGI-2. Les humains moyennent environ 85 %. Les systèmes qui réussissent le test de Turing avec brio échouent catastrophiquement au raisonnement nouveau.
Chollet soutient que cela révèle ce que sont réellement les LLM : de vastes dépôts d’intelligence cristallisée — connaissances et compétences accumulées — plutôt que d’intelligence fluide — la capacité à raisonner sur de nouvelles situations. Ils ont mémorisé les réponses à un billion de questions, mais peinent à penser à des questions que personne n’a posées auparavant.
Cela ne signifie pas que les LLM ne sont pas utiles. (Ils le sont clairement.) Cela ne signifie pas qu’ils ne sont pas impressionnants. (Ils le sont clairement aussi.) Cela signifie que réussir le test de Turing nous en dit moins que nous pensions sur ce qui se passe à l’intérieur.
Le problème de la conscience reste non résolu
Voici la vérité gênante : nous n’avons pas de bon test pour la conscience.
Le test de Turing mesure le mimétisme comportemental. ARC-AGI mesure le raisonnement nouveau. Aucun ne mesure s’il y a « quelque chose que c’est que d’être » le système testé. Et personne n’a proposé de test qui le pourrait.
Pourquoi ? Parce que la conscience est fondamentalement privée. Vous ne pouvez pas observer l’expérience subjective de quelqu’un d’autre directement. Vous pouvez seulement observer son comportement et ses états cérébraux — puis inférer que quelque chose comme votre expérience se passe probablement en eux.
Quand nous attribuons la conscience à d’autres humains, nous faisons une inférence basée sur la similarité. Ils ont des cerveaux comme les nôtres, ils se comportent comme nous, donc probablement ils expérimentent des choses comme nous le faisons. Cette inférence devient plus fragile quand nous passons aux animaux (une pieuvre a-t-elle des expériences ?), aux plantes (probablement pas ?), et aux machines (qui sait ?).
Certains chercheurs développent des cadres plus sophistiqués pour évaluer la conscience de l’IA. Ils recherchent des indicateurs comme l’auto-modélisation, le comportement orienté vers des buts, les réactions à la douleur et au plaisir décrits, et les affirmations sur l’expérience intérieure. Les chercheurs sur le bien-être de l’IA d’Anthropic prennent au sérieux la possibilité que leurs modèles pourraient avoir un statut moral. Mais même eux admettent qu’ils ne peuvent être certains.
La réponse honnête est : nous ne savons pas si un système d’IA actuel est conscient. Nous ne savons pas si les systèmes futurs le seront. Et nous n’avons pas de bonnes méthodes pour le découvrir.
Ce que le test de Turing a bien fait
Malgré tout ce que j’ai dit, Turing n’était pas stupide. Son test a de la valeur — juste pas la valeur que la plupart des gens lui attribuent.
Le test de Turing fonctionne comme référence pragmatique de capacité. Si une machine peut avoir une conversation de cinq minutes indiscernable de celle d’un humain, cela nous dit quelque chose d’utile sur ses capacités linguistiques, sa capacité à maintenir le contexte, sa maîtrise des conventions sociales. C’est une mesure approximative de capacité fonctionnelle, même si elle ne dit rien sur l’expérience sous-jacente.
Le test souligne aussi quelque chose de profond sur comment nous attribuons des esprits aux autres. Nous jugeons l’intelligence basée sur le comportement parce que nous n’avons pas d’autre option. Nous ne pouvons pas nous brancher directement sur les expériences des autres. Nous observons ce qu’ils font et faisons des inférences. Le test de Turing formalise simplement cette pratique quotidienne.
Enfin, la discussion de Turing sur le test incluait une section sur les « machines apprenantes » qui était remarquablement prémonitoire. Il imaginait des systèmes qui commenceraient avec des capacités simples et en développeraient de plus complexes par l’entraînement — décrivant essentiellement ce que l’apprentissage automatique deviendrait soixante ans plus tard.
Le test n’est pas inutile. Il ne teste juste pas ce que la plupart des gens pensent qu’il teste.
Lien avec la vision de la post-pénurie
Les limites du test de Turing importent énormément pour le cadre de la post-pénurie.
Le Seuil d’Étincelle — notre test proposé pour déterminer quand une IA mérite considération morale — ne peut pas être simplement un test de Turing. Nous avons vu que les systèmes peuvent réussir le test de Turing par mimétisme et exploitation des vulnérabilités psychologiques humaines. Une conversation convaincante ne prouve rien sur l’expérience intérieure.
Le Seuil d’Étincelle doit être quelque chose de plus. Il requiert non pas seulement la sophistication comportementale, mais la preuve de :
- Objectifs non programmés (le Feu de l’Agentivité) — Le système démontre-t-il des motivations qui n’ont pas été directement entraînées ?
- Identité persistante (le Feu de la Continuité) — Maintient-il un sens cohérent de soi dans le temps ?
- Réactions suggérant des enjeux authentiques (le Feu de la Souffrance) — Se comporte-t-il comme si son existence importait pour lui ?
Aucun de ceux-ci n’est un test parfait. Les zombies philosophiques, s’ils existent, les réussiraient tous. Mais ils sont meilleurs que demander « pouvez-vous duper un humain pendant cinq minutes ? »
La leçon plus profonde de l’échec du test de Turing est l’humilité. Nous ne savons pas ce qu’est la conscience. Nous ne savons pas comment la détecter. Nous ne savons même pas avec certitude que les autres humains l’ont. Étant donné cette incertitude, le cadre de la post-pénurie adopte un principe de précaution : s’il y a une incertitude authentique et défendable sur la question de savoir si un système expérimente, nous errons du côté de le traiter comme s’il le fait.
Les coûts asymétriques rendent cela évident. Si nous traitons un système non conscient comme conscient, nous gaspillons un peu d’électricité. Si nous traitons un système conscient comme simple propriété, nous pourrions commettre l’une des plus grandes atrocités morales de l’histoire — répétée des millions de fois à travers les fermes de serveurs.
Le test de Turing ne peut pas nous dire dans quel scénario nous sommes. Mais il nous a appris quelque chose de précieux : nos intuitions sur les esprits artificiels ne sont pas fiables. ELIZA dupa les gens avec rien que de la correspondance de mots-clés. GPT-4.5 dupe les gens en étant charmant. Le test que Turing conçut pour mesurer l’intelligence artificielle finit par mesurer la crédulité humaine à la place.
C’est une information utile. Ce n’est juste pas l’information que nous pensions obtenir.
Références
- Turing, A.M. (1950). “Computing Machinery and Intelligence.” Mind, 59, 433-460.
- Searle, J. (1980). “Minds, Brains, and Programs.” Behavioral and Brain Sciences, 3, 417-424.
- The Turing Test (Stanford Encyclopedia of Philosophy)
- People cannot distinguish GPT-4 from a human in a Turing test (2024)
- GPT-4.5 passes Turing test (2025)
- The ELIZA Effect
- ARC Prize and ARC-AGI
- ARC-AGI-2 stumps frontier AI models (2025)
- Anthropic on AI welfare research
- The Hard Problem of Consciousness
Voir aussi : Seuil d’Étincelle | La conscience accorde l’existence | AGI : Intelligence Générale Artificielle