Avec "Vera Rubin", Nvidia ambitionne de redéfinir les frontières de l'IA

Avec Vera Rubin, le géant de la Silicon Valley ne se contente pas d'une mise à jour technique. Il prépare un saut générationnel destiné à soutenir l'émergence de l'IA «agentique».

Toujours plus loin. Nvidia occupe aujourd’hui plus de 80 % du marché, mais le fondeur californien ne cesse de repousser les limites et les frontières. En baptisant sa prochaine puce Vera Rubin (du nom d’une astronome américaine dont les travaux ont confirmé l’hypothèse de la présence de matière noire dans la périphérie des galaxies), le fondeur veut révolutionner l’IA agentique.

Sur son site, l’entreprise indique que « la plateforme NVIDIA Rubin est conçue pour l’ère de l’IA agentique et du raisonnement, et elle est pensée pour maîtriser la résolution de problèmes en plusieurs étapes et les workflows massifs à long contexte à grande échelle. »

L’architecture Vera Rubin, dont la production en volume est prévue pour le second semestre 2026, repose sur une synergie inédite entre calcul et mémoire. Là où les générations précédentes se concentraient sur la puissance brute, la plateforme Rubin est pensée comme un écosystème global.

Le cœur de cette machine est le GPU Rubin, qui promet d’atteindre 50 pétaflops de performance, soit 2,5 fois plus que la Blackwell Ultra, la puce de Nvidia sortie en août 2025. Mais, le véritable « game-changer » réside dans l’intégration de la mémoire HBM4.

Avec une bande passante atteignant les 22 To/s, Nvidia s’attaque au goulot d’étranglement historique du secteur. Pour les LLM dépassant le billion de paramètres, cette fluidité signifie une réduction drastique du temps d’inférence et, par extension, une baisse des coûts opérationnels pour les entreprises.

Trois défis majeurs

Mais, pour relever ces défis, Nvidia a dû maîtriser la gravure en trois nanomètres (procédé N3 de TSMC). Un niveau de gravure qui présente des contraintes physiques et logistiques majeures.

Le premier défi a été thermique. Avec une consommation pouvant grimper jusqu’à 2 300 W par accélérateur (contre 1 200 W pour les générations actuelles), le refroidissement par air devient obsolète. Le passage massif au refroidissement liquide direct est désormais une obligation, imposant une refonte totale de l’infrastructure des centres de données.

Le second casse-tête a été la fabrication car cette nouvelle puce s’appuie sur un design « multi-die » ultra-complexe. Assembler 336 milliards de transistors demande une précision chirurgicale.
Il y a enfin le contexte géopolitique. Les restrictions d’exportation vers certains marchés comme la Chine forcent Nvidia à scinder ses lignes de produits, complexifiant la rentabilité de la recherche et développement (R&D).

L’arrivée de Vera Rubin est aussi un moyen pour Nvidia de conserver sa position de leader. Car ses concurrents le marquent à la culotte ! AMD, son principal challenger, mise sur une stratégie agressive en matière de mémoire. L’Instinct MI450X, attendu à la même période, cherche à concurrencer directement Rubin sur la bande passante, en se positionnant comme une alternative plus ouverte grâce à l’écosystème logiciel ROCm.

Les géants du cloud développent aussi leurs propres puces (TPU, Trainium 3) pour être moins dépendants de Nvidia. Leur avantage ? Elles sont conçues spécifiquement pour leurs propres charges de travail, procurant une efficacité énergétique que Nvidia, qui doit rester polyvalent, peine parfois à égaler.

Reste aussi le fondeur historique américain, Intel. Après des années difficiles, Intel mise sur le rapport performance-prix pour séduire les entreprises qui n’ont pas les moyens de s’offrir les « superclusters » de Jensen Huang.

Si Nvidia semble conserver une avance technologique confortable, le coût énergétique et la complexité d’implémentation de ces nouveaux monstres de silicium ouvrent en effet une brèche pour des concurrents plus agiles ou spécialisés.

La bataille pour le cerveau de l’IA ne fait que commencer…