Humains et IA : deux chemins désordonnés vers la connaissance du monde

13 min
Image générée avec ChatGPT

Depuis deux ans, les grands modèles de langage (LLMs pour large language models, sur lesquels reposent ChatGPT, Gemini, etc.) suscitent un mélange désormais familier de réactions : enthousiasme, inquiétude, et un chœur de critiques qui ne cesse de s’amplifier. Parmi les sceptiques, Yann LeCun occupe une place particulière. En tant que l’un des architectes du deep learning, il ne parle pas depuis la marge mais depuis le cœur même du domaine. Selon lui, les LLMs « ne comprennent pas le monde » et les avancées décisives viendront plutôt de systèmes capables de construire des « modèles du monde » à partir de la perception et de l’action, plutôt que du texte seul.

Cet article ne cherche pas à trancher entre les architectures. Il prend les remarques de LeCun comme une occasion de poser une question plus élémentaire : que supposons-nous lorsque nous opposons ainsi « langage » et « monde » ? En m’appuyant sur un peu d’histoire de la philosophie et des sciences, je propose que la connaissance moderne repose en réalité sur un triangle reliant instruments, langages symboliques et modèles internes – et que les êtres humains comme les systèmes d’IA contemporains s’approchent de ce triangle par des chemins différents et désordonnés. On verra qu’il est possible d’adhérer à l’accent mis par LeCun sur la perception, la mémoire et l’action, tout en interrogeant la tendance à traiter le langage – et, avec lui, les LLMs – comme s’ils demeuraient à l’extérieur du monde dont ils parlent.

LeCun, LLMs et la question de la « connaissance du monde »

Yann LeCun est devenu l’un des critiques les plus audibles des LLMs en tant que voie vers une « véritable » intelligence. Son idée centrale, répétée sous différentes formes1, est simple : les LLMs apprennent uniquement à partir du langage, et modélisent donc des corrélations entre mots plutôt que la structure du monde. Pour atteindre une intelligence autonome, il faudrait, soutient-il, des systèmes qui construisent un « modèle du monde2 » à partir de la perception et de l’action, et qui n’utilisent ensuite le langage qu’éventuellement comme interface.

Ce tableau est à la fois éclairant et trompeur.

L’insistance de LeCun sur la perception, la mémoire et l’action est pleinement justifiée : une IA qui n’interagit jamais avec son environnement, ne teste jamais ses prédictions et n’accumule pas d’expériences reste dépendante des indications limitées et biaisées que lui offre le langage. Mais il est trompeur d’opposer les mots et les choses comme s’ils relevaient d’univers séparés, et comme si le langage constituait une couche essentiellement superficielle.

Dans les sociétés modernes, le langage est le principal médium par lequel l’expérience est abstraite, cumulée et transmise. Une grande partie de ce que nous savons du monde ne vient pas de nos perceptions, mais d’histoires, d’explications, de démonstrations, de tableaux de résultats, de schémas, de code. Si l’on entraîne un système sur cette couche symbolique, on ne le nourrit pas de vains bavardages : on l’expose à des millénaires d’expérience organisée.

La question n’est donc pas de savoir si les LLMs « voient le monde » directement. Elle est de comprendre comment langage, instruments, perception et organisation interne se combinent pour produire quelque chose qui mérite d’être appelé un modèle du monde.

Trois propositions seront défendues ici :

Dans cette perspective, le programme des « modèles du monde » de LeCun ressemble moins à une réfutation des LLMs qu’à une trajectoire complémentaire qui sous-estime le poids épistémique de la couche linguistique.

Langage, abstraction et mémoire cumulative

Le langage ne remplace pas l’expérience ; il la réorganise.

Sans parole, sans écriture ni symbolisme formel, chaque génération humaine devrait presque tout redécouvrir. On apprendrait à marcher, à manipuler des objets, peut-être à chasser, mais pas la mécanique céleste, la microbiologie ou les constitutions démocratiques. Au mieux, de petits îlots de savoir-faire pourraient se transmettre par imitation.

Dès que le langage apparaît, les expériences peuvent être racontées, détachées de la situation où elles se sont produites ; des régularités peuvent être nommées et stabilisées : « le fer rouille », « les fièvres reviennent », « la rivière déborde au printemps » ; des procédures peuvent être décrites pas à pas : comment naviguer, comment irriguer, comment construire une voûte ; des explications peuvent être proposées, critiquées, remplacées.

Avec le temps, cette abstraction et cette codification de l’expérience font apparaître des systèmes symboliques à plusieurs niveaux : mythes, lois, recettes, proverbes, traités, théorèmes, algorithmes. Le langage, au sens large (langue naturelle, symboles mathématiques, schémas, programmes), devient une mémoire sociale externe où les expériences passées ne sont pas seulement enregistrées, mais réorganisées en concepts, en règles et en modèles.

Structurellement, cette mémoire est à la fois pratique et théorique :

Lorsqu’un LLM est entraîné sur des textes, du code et des matériaux formels, il n’est donc pas simplement au contact de séquences de mots arbitraires. Il reçoit cette couche de second ordre dans laquelle les sociétés humaines ont déposé une expérience abstraite et cumulative. Bien sûr, cette couche est inégale, pleine d’erreurs et de biais. Mais elle n’est pas vide. Elle est déjà saturée de rapports au monde.

Cela ne signifie pas que le langage serait, à proprement parler, un « méta-capteur » : il ne reçoit pas directement des signaux de l’environnement. C’est un opérateur d’abstraction de l’expérience. Il agit au-dessus de la perception et de la pratique, en les compressant et en les recomposant sous une forme réutilisable. Dans l’histoire humaine, c’est à travers ce médium symbolique que des images du monde robustes ont émergé.

Instruments et déclin du scepticisme sensoriel

Le scepticisme classique visait les sens. Les exemples favoris sont bien connus : la rame qui paraît brisée dans l’eau, le mirage de l’oasis dans le désert, la tour lointaine qui semble ronde mais s’avère carrée. À partir de ces illusions, les sceptiques concluaient que les sens sont trompeurs et qu’une connaissance certaine du monde physique est impossible.

La science moderne n’a pas répondu en réhabilitant les sens nus. Elle les a en grande partie contournés. À partir du XVIIᵉ siècle, l’observation devient de plus en plus instrumentée :

Aujourd’hui, une grande partie de ce que nous appelons « observation » consiste à lire les sorties de dispositifs qu’aucun sens nu ne peut saisir directement. Personne ne possède un sens des ondes radio, des ondes gravitationnelles ou des neutrinos. Pourtant, nous parlons avec assurance de leur détection, parce que des instruments les traduisent en signaux que nous pouvons enregistrer, compter, interpréter.

La voiture autonome est en train de devenir une illustration familière de ce basculement. Elle ne s’appuie pas sur quelque chose comme la vision humaine plus un « sens » humain de la distance. Elle fusionne plusieurs canaux :

Pour un tel système, « percevoir l’environnement » consiste déjà à combiner des modalités non humaines au moyen d’algorithmes, puis à utiliser des structures symboliques (cartes, catégories d’objets, règles) pour interpréter ces signaux.

Dans ce monde instrumenté, le scepticisme à propos des sens perd une bonne part de sa force. Le travail épistémique est assuré par :

Le langage joue un rôle central à chaque étape. Les mesures n’acquièrent leur sens que lorsqu’elles sont consignées, comparées, mises en graphique, discutées. Le versant expérimental et le versant linguistique sont intriqués dès le départ.

Sous cet angle, opposer simplement « expérience » et « langage » ne rend pas justice au fonctionnement de la science moderne. Dans la pratique, expérimenter signifie dispositif + protocole + inscription. Le langage et les formalismes ne sont pas la négation du contact avec le monde : ils sont la manière dont ce contact se stabilise et s’accumule.

Deux trajectoires de développement vers la même architecture triangulaire

Pour clarifier le rapport entre perception, langage et « modèles du monde », il est utile de distinguer trois niveaux :

Munis de ces trois niveaux, nous pouvons comparer plus précisément le développement humain et celui des IA actuelles. Pour les humains :

Les bébés, en ce sens, ne portent donc pas des modèles du monde tout faits. Ils possèdent des dispositions et des mécanismes d’apprentissage qui, conjugués à un environnement social et linguistique, peuvent progressivement soutenir l’édification de tels modèles.

Quand les ingénieurs parlent d’un « modèle du monde » à l’intérieur d’un animal ou d’un robot, ils désignent souvent quelque chose de plus faible : une organisation interne de la perception et de l’action qui permet une prédiction et un contrôle à court terme. De telles structures existent et sont importantes. Mais elles ne correspondent pas encore aux modèles du monde, au sens fort, qui comptent pour la science et la philosophie.

Pour les systèmes d’IA actuels construits autour de LLMs, le chemin est presque inversé :

En résumé : les humains vont des sens vers le langage puis vers les modèles ; les IA centrées sur les LLMs partent du langage, construisent des modèles, et sont en train d’acquérir des capteurs et des actions. Dans les deux cas, le parcours n’est pas strictement séquentiel : les enfants sont baignés de parole dès les premiers jours de leur vie ; les LLMs sont entourés de coquilles utilitaires qui leur donnent des outils presque dès leur apparition. Mais le contraste des points de départ est réel.

Cela ne revient pas à soutenir que « les LLMs comprennent déjà le monde exactement comme nous ». En revanche, cela remet en cause l’intuition selon laquelle « langage = pas de monde, perception = vrai monde ». Les deux trajectoires de développement partagent une même architecture triangulaire, et toutes deux sont historiquement brouillonnes.

Un « modèle du monde » idéaliste

La critique de LeCun semble s’appuyer sur un schéma relativement clair : d’abord un système apprend à prédire ses entrées sensorielles et les conséquences de ses actions ; de là, il dérive un modèle interne du monde ; ensuite, éventuellement, il acquiert le langage comme moyen commode de communiquer et d’interroger ce modèle.

Un tel enchaînement est séduisant sur le plan conceptuel. Il fait écho aux récits empiristes : d’abord la perception, puis les concepts, puis les mots. Mais l’histoire des sciences et de la philosophie suggère que cet ordre relève davantage de l’idéalisation que de la description.

Lorsque les philosophes ont cherché, pour la première fois, à proposer des « modèles du monde » systématiques – en Grèce, en Inde, dans l’Europe moderne –, ils ne sont pas partis d’un espace perceptif neutre et pré-théorique. Ils sont partis de mythologies, du langage ordinaire, de distinctions et d’histoires héritées, et ont tenté de les réordonner en structures conceptuelles plus cohérentes. Ils ont travaillé dans et sur le langage.

Avec Bacon et ses successeurs, les pratiques expérimentales prennent une place plus centrale. Mais là encore, ces pratiques arrivent d’emblée accompagnées de mots, de tableaux, de diagrammes, de normes sociales. On ne commence pas par amasser des impressions sensibles pour inventer ensuite des symboles. On conçoit des expériences en formulant des hypothèses déjà exprimées dans un langage, on bâtit des instruments pour les tester, on exprime les résultats sous forme symbolique. Théorie et observation se transforment conjointement.

Les « modèles du monde » qui constituent des tournants – mécanique newtonienne, électromagnétisme de Maxwell, évolution darwinienne, mécanique quantique, relativité générale – ne sont pas le produit d’un unique processus d’optimisation uniforme appliqué à une perception brute. Ils résultent de la mise en cohérence, après coup, de plusieurs lignes historiques contingentes : résultats expérimentaux, techniques mathématiques, métaphores, tensions conceptuelles. Ils émergent de décennies de bricolage, de révisions, de controverses.

De ce point de vue, le projet d’un modèle du monde soigneusement appris à partir de la seule prédiction sensori-motrice apparaît comme une construction un peu idéaliste. Il abstrait la part brouillonne d’instruments, de cadres conceptuels et de langage qui, en réalité, ont contribué à produire nos meilleures théories.

Il ne s’ensuit pas que le programme technique de LeCun soit mal orienté. Des architectures prédictives plus riches, qui opèrent sur des flux sensoriels bruts ou peu traités, seront presque certainement nécessaires pour agir de façon robuste dans le monde physique. L’enjeu, plutôt, est le suivant :

Si l’on réserve le terme de « modèle du monde » à ces images conceptuelles de haut niveau, alors, dans le cas humain, le langage n’est pas une interface optionnelle ajoutée après que nous aurions compris le monde. Il est le médium principal dans lequel se forme cette compréhension.

Le langage comme colonne vertébrale, non comme ornement

Une fois que l’on cesse d’opposer les mots et les choses de façon tranchée, le paysage se modifie.

D’un côté, l’accent mis par LeCun sur la perception, la mémoire et l’action demeure essentiel. Un système qui n’apprend qu’à partir de langage archivé héritera de nos angles morts et peinera dans les domaines où le corpus textuel est mince, biaisé ou systématiquement silencieux. Relier les systèmes d’IA à des capteurs, des instruments et des environnements n’est pas un luxe : c’est une condition pour qu’ils se forgent une histoire propre.

D’un autre côté, le langage n’est pas une couche décorative. Il est le moyen avec lequel les sociétés humaines abstraient, accumulent et interprètent les expériences. Il est le médium symbolique dans lequel prennent forme les philosophies et les théories scientifiques – nos modèles du monde les plus clairs. Une IA qui n’aurait aucun accès à cette couche devrait tout redécouvrir à partir de zéro, et devrait malgré tout se doter d’un médium symbolique ou quasi symbolique pour stabiliser ce qu’elle apprend.

Les LLMs constituent une des voies d’entrée dans cette couche. Ils partent de l’exosquelette linguistique et formel que l’humanité a construit autour de ses relations avec le monde. À partir de là, ils commencent à reconstruire des modèles implicites et, de plus en plus, à agir au moyen d’outils et de capteurs. Les systèmes conçus sur la base des « modèles du monde » de LeCun procèdent en sens inverse : ils cherchent à apprendre des structures prédictives à partir de la perception et de l’action, puis doivent se connecter à nos langages s’ils veulent participer à la connaissance humaine.

Dans les deux cas, l’horizon n’est ni une pure incarnation sans symboles, ni un langage sans contact : c’est un triangle constitué à partir des canaux sensoriels et instrumentaux, de l’organisation interne, et de médiums symboliques partagés. Les trajectoires diffèrent, mais l’architecture converge.

Plutôt que de choisir entre LLMs et « modèles du monde », il est sans doute plus fécond de les voir comme deux configurations différentes dans ce même triangle, plus étendues du côté du langage pour les LLMs et du côté sensorimoteur pour les modèles du monde. Le véritable défi consiste à comprendre comment les apprentissages guidés par la perception et les apprentissages guidés par le langage peuvent se corriger et s’enrichir mutuellement, comme l’ont fait expériences et théories tout au long de l’histoire des sciences.

Notes

  1. Voir par exemple Yann LeCun, « Meta’s AI Chief Yann LeCun on AGI, Open-Source, and AI Risk », TIME, 14 juin 2023, où il soutient que les LLMs actuels « ne comprennent pas vraiment le monde réel » et « ne constituent pas une voie vers ce que l’on appelle l’AGI », en les opposant à des systèmes futurs qui apprendraient des « modèles du monde » à partir de la perception et de l’interaction ; ainsi que « Meta’s Yann LeCun Asks How AIs will Match — and Exceed — Human-level Intelligence », Columbia Engineering Lecture Series in AI, 18 octobre 2024, qui décrit les modèles de langage comme des prédicteurs de mot suivant « qui ne comprennent pas le monde aussi bien qu’un chat domestique » et plaide pour des architectures centrées sur des « modèles du monde » prédictifs plutôt que sur le texte seul. ↩︎
  2. https://www.linkedin.com/posts/yann-lecun_lots-of-confusion-about-what-a-world-model-activity-7165738293223931904-vdgR ↩︎

Étiquettes :