Yann LeCun, figure de l’intelligence artificielle moderne et père des réseaux de neurones convolutionnels, a officialisé son départ de Meta (maison mère de Facebook).
Ce départ est l’aboutissement d’une divergence philosophique majeure avec Mark Zuckerberg. Alors que le géant de la tech mise son avenir sur les produits commerciaux dérivés des LLM (grands modèles de langage) comme Llama pour concurrencer ChatGPT, Yann LeCun choisit la voie de la recherche fondamentale.
Pour Yann LeCun, l’engouement mondial pour les IA génératives (GenAI) repose sur un malentendu. Il qualifie régulièrement les LLM d’« illusionnistes statistiques ». S’il reconnaît leur utilité économique immédiate pour rédiger du code ou du texte, il martèle une vérité qui dérange : ces modèles sont intrinsèquement limités. Ils fonctionnent de manière autorégressive, prédisant le mot suivant sans aucune compréhension du sens, de la logique ou de la réalité physique. C’est pourquoi ils « hallucinent » : ils n’ont aucun ancrage dans le réel.
L’IA et l’intelligence humaine
Pour LeCun, « croire que les LLM atteindront l’intelligence humaine est une bulle spéculative ». Selon lui, ces systèmes sont moins intelligents qu’un chat domestique, car incapables de comprendre la persistance des objets ou la gravité sans avoir lu des milliards de textes.
Pour dépasser ces limites, Yann LeCun ne veut pas plus de données, mais une meilleure architecture. C’est tout l’objet de sa nouvelle start-up qui se concentrera sur les World Models (modèles du monde) via une architecture qu’il a théorisée : JEPA (Joint Embedding Predictive Architecture).
Il existe une différence significative entre les LLM (modèles génératifs) et le JEPA. Les LLM s’efforcent de prédire chaque détail, que ce soit chaque mot ou chaque pixel, ce qui est un processus lourd et énergivore, sujet à une erreur exponentielle. En face, nous avons le JEPA. Il ne cherche pas à reconstruire l’image, mais à en extraire le sens dans un espace de représentation abstrait.
Imaginez une voiture roulant sur une route. Un modèle génératif essaierait de prédire chaque feuille de chaque arbre sur le bas-côté (inutile et coûteux). Un modèle JEPA, lui, ignorera les détails imprévisibles pour se concentrer sur l’essentiel : la trajectoire de la voiture et la position des obstacles. C’est ainsi que fonctionne le cerveau humain : il modélise des concepts, pas des pixels.
L’ambition de cette nouvelle structure est de créer ce que Yann LeCun nomme l’AMI (Advanced Machine Intelligence). Contrairement aux chatbots passifs, ces systèmes seront capables de percevoir le monde via des capteurs (vidéo, son) et non plus seulement du texte. Ils pourront aussi raisonner et planifier. Enfin, ils pourront apprendre efficacement.
Là où un LLM a besoin de lire tout Internet, une architecture JEPA pourrait apprendre des lois physiques en visionnant quelques heures de vidéo, de manière beaucoup plus sobre énergétiquement.
Si le pari est risqué, les débouchés potentiels dépassent largement la génération de texte. Cette approche est le chaînon manquant pour la robotique et la conduite autonome.
Dans un contexte d’apprentissage par renforcement, un robot équipé de JEPA n’aura plus besoin de millions d’essais-erreurs dans le monde réel (ce qui est dangereux et lent). Il pourra utiliser son modèle interne pour prédire l’état futur de son environnement et optimiser ses actions vers un objectif précis.
L’imagerie médicale (comme la représentation en trois dimensions d’une tumeur plutôt que la génération de pixels) et l’aide domestique capable de nettoyer une table sans casser les verres sont des exemples d’applications qui cherchent à ancrer l’intelligence artificielle dans le monde physique.
Mais la start-up du français n’est pas la seule sur ce créneau. World Labs, fondé par Fei-Fei Li (une informaticienne et chercheuse américaine) a levé plus de 230 millions de dollars. C’est aujourd’hui le concurrent le plus visible et avancé dans ce domaine. Son premier produit commercial, Marble, permet de générer des environnements 3D persistants et éditables à partir de prompts textuels, d’images ou de vidéos.
DeepMind, de Google, mise également sur les « world models » avec des projets comme SIMA 2, un agent capable d’apprendre, de raisonner et d’interagir dans des mondes virtuels 3D.
Dans l'actualité
- La France se dote d’un laboratoire privé dédié à l’IA
- TotalEnergies s’allie à Mistral AI
- Facebook veut mieux informer les internautes sur les deepfakes
- Pourquoi la majorité des projets d’IA Générative stagnent
- IA générative et ingénierie : une révolution passée au crible du think tank Arts & Métiers
- L’IA générative et les Français : entre fascination et craintes
- Le développement d’un outil d’IA généraliste pourrait révolutionner le diagnostic médical
- L’IA générative a un impact sur la « pensée critique »
- L’IA est-elle créatrice ou destructrice d’emplois ?
- Les thèses du mois : « Emploi : quel impact réel de l’IA pour les ingénieurs ? »
- Collaboration entre l’IA et l’ingénieur : quelle réalité aujourd’hui dans l’industrie ?
Dans les ressources documentaires
- Évaluation de l’intelligence artificielle
- Optimiser l’IA générative avec le RAG - La génération de réponses à partir de LLMs, augmentée par la recherche d’information
- Explicabilité en Intelligence Artificielle ; vers une IA Responsable - Instanciation dans le domaine de la santé
- Environnements virtuels 3D - Typologie et interopérabilité
- Effectuer des résumés et analyses de texte avec l’IA