Yann LeCun fait le pari de l’«Intelligence Avancée» face à l’illusion des LLM

Posté le 4 décembre 2025
par Philippe RICHARD dans Informatique et Numérique

Après plus d'une décennie à la tête de la recherche en IA chez Meta, le chercheur français Yann LeCun reprend sa liberté. En fondant sa propre start-up, le lauréat du prix Turing 2018 entend prouver que l'avenir de l'intelligence artificielle ne réside pas dans les chatbots qui parlent, mais dans des systèmes qui comprennent.

Yann LeCun, figure de l’intelligence artificielle moderne et père des réseaux de neurones convolutionnels, a officialisé son départ de Meta (maison mère de Facebook).

Ce départ est l’aboutissement d’une divergence philosophique majeure avec Mark Zuckerberg. Alors que le géant de la tech mise son avenir sur les produits commerciaux dérivés des LLM (grands modèles de langage) comme Llama pour concurrencer ChatGPT, Yann LeCun choisit la voie de la recherche fondamentale.

Pour Yann LeCun, l’engouement mondial pour les IA génératives (GenAI) repose sur un malentendu. Il qualifie régulièrement les LLM d’« illusionnistes statistiques ». S’il reconnaît leur utilité économique immédiate pour rédiger du code ou du texte, il martèle une vérité qui dérange : ces modèles sont intrinsèquement limités. Ils fonctionnent de manière autorégressive, prédisant le mot suivant sans aucune compréhension du sens, de la logique ou de la réalité physique. C’est pourquoi ils « hallucinent » : ils n’ont aucun ancrage dans le réel.

L’IA et l’intelligence humaine

Pour LeCun, « croire que les LLM atteindront l’intelligence humaine est une bulle spéculative ». Selon lui, ces systèmes sont moins intelligents qu’un chat domestique, car incapables de comprendre la persistance des objets ou la gravité sans avoir lu des milliards de textes.

Pour dépasser ces limites, Yann LeCun ne veut pas plus de données, mais une meilleure architecture. C’est tout l’objet de sa nouvelle start-up qui se concentrera sur les World Models (modèles du monde) via une architecture qu’il a théorisée : JEPA (Joint Embedding Predictive Architecture).

Il existe une différence significative entre les LLM (modèles génératifs) et le JEPA. Les LLM s’efforcent de prédire chaque détail, que ce soit chaque mot ou chaque pixel, ce qui est un processus lourd et énergivore, sujet à une erreur exponentielle. En face, nous avons le JEPA. Il ne cherche pas à reconstruire l’image, mais à en extraire le sens dans un espace de représentation abstrait.

Imaginez une voiture roulant sur une route. Un modèle génératif essaierait de prédire chaque feuille de chaque arbre sur le bas-côté (inutile et coûteux). Un modèle JEPA, lui, ignorera les détails imprévisibles pour se concentrer sur l’essentiel : la trajectoire de la voiture et la position des obstacles. C’est ainsi que fonctionne le cerveau humain : il modélise des concepts, pas des pixels.

L’ambition de cette nouvelle structure est de créer ce que Yann LeCun nomme l’AMI (Advanced Machine Intelligence). Contrairement aux chatbots passifs, ces systèmes seront capables de percevoir le monde via des capteurs (vidéo, son) et non plus seulement du texte. Ils pourront aussi raisonner et planifier. Enfin, ils pourront apprendre efficacement.

Là où un LLM a besoin de lire tout Internet, une architecture JEPA pourrait apprendre des lois physiques en visionnant quelques heures de vidéo, de manière beaucoup plus sobre énergétiquement.

Si le pari est risqué, les débouchés potentiels dépassent largement la génération de texte. Cette approche est le chaînon manquant pour la robotique et la conduite autonome.

Dans un contexte d’apprentissage par renforcement, un robot équipé de JEPA n’aura plus besoin de millions d’essais-erreurs dans le monde réel (ce qui est dangereux et lent). Il pourra utiliser son modèle interne pour prédire l’état futur de son environnement et optimiser ses actions vers un objectif précis.

L’imagerie médicale (comme la représentation en trois dimensions d’une tumeur plutôt que la génération de pixels) et l’aide domestique capable de nettoyer une table sans casser les verres sont des exemples d’applications qui cherchent à ancrer l’intelligence artificielle dans le monde physique.

Mais la start-up du français n’est pas la seule sur ce créneau. World Labs, fondé par Fei-Fei Li (une informaticienne et chercheuse américaine) a levé plus de 230 millions de dollars. C’est aujourd’hui le concurrent le plus visible et avancé dans ce domaine. Son premier produit commercial, Marble, permet de générer des environnements 3D persistants et éditables à partir de prompts textuels, d’images ou de vidéos.

DeepMind, de Google, mise également sur les « world models » avec des projets comme SIMA 2, un agent capable d’apprendre, de raisonner et d’interagir dans des mondes virtuels 3D.

Pour aller plus loin

Dans l'actualité

Dans les ressources documentaires