Google lance deux nouvelles puces pour s'adapter à l'ère des agents IA

Google a dévoilé mercredi deux nouvelles puces pour l’intelligence artificielle (IA), l’une pour entraîner les puissants nouveaux modèles d’IA générative, l’autre pour l’usage rapide et économique du quotidien, dont la demande pourrait exploser avec le rapide déploiement mondial des agents IA autonomes.

Google rejoint ainsi Amazon, qui a adopté dès 2018 cette même stratégie de distinction d’usage des puces, et fait un pas de plus dans sa quête d’une moindre dépendance de Nvidia, qui contrôle environ 80% du marché mondial des puces pour centres de données IA.

Cette 8e génération des Tensor Processing Unit (TPU), les processeurs maisons de Google, a été présentée mercredi à Las Vegas, lors de la conférence annuelle de Google Cloud, la division des services d’informatique à distance (cloud) du géant de Mountain View (Californie).

Cette nouvelle génération est pour la première fois constituée de deux composants distincts: les TPU 8t, conçues pour l’entraînement long et coûteux des modèles d’IA générative, et les TPU 8i, destinées à l’inférence, c’est-à-dire les multiples interactions d’usage d’un utilisateur ou d’un agent IA autonome, nécessitant rapidité et sobriété énergétique donc économique.

Ces deux puces, conçues en partenariat avec le fabricant de semi-conducteurs Broadcom, « seront disponibles plus tard cette année », a indiqué Thomas Kurian, le patron de Google Cloud.

Cette distinction reflète une réalité nouvelle: un agent IA autonome enchaîne des dizaines d’actions sans intervention humaine, générant bien plus d’opérations de calcul que le dialogue humain avec les assistants comme Gemini, ChatGPT, Claude ou Le Chat.

Les nouvelles puces d’exécution TPU 8i sont donc conçues pour « assurer le débit massif et la faible latence (temps de réaction) nécessaires pour faire tourner des millions d’agents simultanément, à moindre coût », a écrit mercredi Sundar Pichai, PDG d’Alphabet, maison mère de Google, dans un billet de blog.

Google revendique des performances 2,8 fois meilleures pour l’entraînement et un coût réduit de 80% à performances équivalentes à la génération précédente.

En janvier, le leader Nvidia avait annoncé le lancement de la production de ses nouvelles puces Vera et Rubin, affichant des performances jusqu’à cinq fois supérieures à la génération précédente.

Amazon, premier acteur mondial du cloud avec sa filiale AWS, avait de son côté dévoilé en décembre sa Trainium 3, une puce conçue elle aussi pour réduire la dépendance de ses clients aux GPU (processeurs graphiques) de Nvidia, avec un coût d’entraînement et d’inférence réduit jusqu’à 50% selon le groupe.

Google, Amazon et Microsoft continuent néanmoins d’intégrer les GPU de Nvidia dans leurs infrastructures, aucun n’envisageant de s’en passer entièrement à court terme.

bl/tu/vla