Manycores orientés réseaux de neurones profonds
Processeurs à grand nombre de cœurs (manycores)
H1014 v2 Article de référence

Manycores orientés réseaux de neurones profonds
Processeurs à grand nombre de cœurs (manycores)

Auteur(s) : Daniel ETIEMBLE

Date de publication : 10 nov. 2023

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Des processeurs multicœurs aux manycores

2 - Nombre de cœurs

3 - Caractéristiques des manycores

4 - Manycores orientés applications mobiles et embarquées

5 - Manycores orientés calcul scientifique

6 - Manycores orientés réseaux de neurones profonds

7 - Remarques pour conclure

Sommaire

Présentation

RÉSUMÉ

Cet article présente les processeurs à très grand nombre de cœurs (manycores), avec les caractéristiques qui les distinguent des multicœurs et des GPU : type et performances des cœurs, décomposition hiérarchique en clusters de cœurs, modèle mémoire (partagée ou distribuée) et développements logiciels. Ils sont utilisés dans trois classes d’applications : les applications mobiles ou embarquées haute performance à faible consommation, le calcul scientifique haute performance et les accélérateurs pour réseaux de neurones profonds

Six exemples sont détaillés : les Xeon Phi d’Intel, le SW26010 utilisé dans le superordinateur TaihuLight, les versions 16, 64 et 1024 cœurs de l’architecture Epiphany d’Adapteva, lesmanycoresMMPA2 et MMPA3 de Kalray, l’accélérateur Boqueria  d’Untether et le circuit WSE-2 de Celebras

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Daniel ETIEMBLE : Ingénieur de l’INSA de Lyon - Professeur émérite à l’université Paris Sud

INTRODUCTION

Sans prendre en compte les processeurs graphiques (GPU) qui constituent à eux-seuls une classe d’architecture, les processeurs à grand nombre de cœurs se distinguent des processeurs multicœurs, non seulement par le nombre de cœurs, mais également par un certain nombre de caractéristiques : le type et la performance des cœurs, la décomposition hiérarchique en clusters (ou nœuds) de cœurs, le modèle mémoire (mémoire partagée ou mémoire distribuée) et les problèmes logiciels liés au fait qu’ils sont presque toujours utilisés comme coprocesseurs. Ces manycores sont utilisés dans trois grandes classes d’applications :

  1. les applications mobiles et embarquées haute performance pour lesquelles les contraintes énergétiques sont fondamentales ;

  2. les applications pour lesquelles la haute performance est le critère le plus important, comme le calcul scientifique ;

  3. les circuits spécialisés pour l’apprentissage et l’inférence dans les réseaux de neurones profonds. Cette classe d’applications est celle qui voit apparaître le plus grand nombre de circuits.

Les différentes caractéristiques sont présentées avec les différentes variantes. Puis six exemples de processeurs manycores sont détaillés.

Les deux premiers sont des architectures destinées aux applications mobiles et embarquées haute performance et dissipent de quelques watts à trois dizaines de watts :

  • les processeurs implantant l’architecture Epiphany d’Adapteva, avec deux versions utilisées à 16 ou 64 cœurs et une version 1024 cœurs qui a été un échec ;

  • l’architecture MPPA de Kalray, avec notamment l’étude des versions MMPA2 et MPPA3.

Les deux exemples suivant sont destinés au calcul haute performance et dissipent deux à trois centaines de watts :

  • les processeurs et coprocesseurs Xeon Phi d’Intel avec les modèles Knights Corner et Knights Landing. Leur production a été abandonnée en 2018 ;

  • le manycore SW26010 utilisé dans le superordinateur chinois TaihuLight qui a été de juin 2016 à novembre 2017 le premier au TOP500 des superordinateurs.

Les deux derniers exemples correspondent à l’accélération de l’apprentissage et de l’inférence dans les réseaux de neurones :

  • l’accélérateur Boqueria AI de Untether est constitué d’une grille 2D de blocs mémoire, eux-même constitués d’une grille 2D de blocs avec un processeur élémentaire et une mémoire SRAM ;

  • le circuit WSE-2 de Celebras interconnecte une grille 2D de cœurs au niveau du wafer. Chaque cœur contient une partie calcul et une SRAM. Avec 850 000 cœurs et 15 kW de puissance dissipée, c’est le plus gros circuit en 2022.

Les processeurs manycores ne sont pas la continuité des multicœurs avec un plus grand nombre de cœurs. Le nombre de cœurs est très loin d’une progression exponentielle. Alors que les multicœurs utilisent le modèle mémoire partagée avec une hiérarchie de caches, les manycores utilisent le modèle mémoire distribuée, avec des blocs mémoire près du calcul. L’utilisation pour les réseaux de neurones de formats de donnée réduits (flottants 16 bits et 8 bits) permet d’augmenter le nombre de cœurs à consommation et surface de puce données par rapport aux circuits avec flottants double précision.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v2-h1014

Lecture en cours
Présentation

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

6. Manycores orientés réseaux de neurones profonds

6.1 Accélérateur Boqueria Untether AI

L’accélérateur Boqueria est un circuit spécialisé destiné à l’inférence dans les réseaux de neurones.

Il est constitué de 729 blocs mémoire organisés en grille 2D de 27 lignes et 27 colonnes (figure 10). Les blocs sont interconnectés par un réseau sur puce avec des connexions horizontales et des connexions verticales. Un bloc mémoire est constitué de 512 mémoires SRAM de 640 octets (pour un total de 326 ko) et de 512 processeurs élémentaires. S’y ajoutent deux processeurs RISC-V et 4 contrôleurs de ligne.

Le schéma d’un bloc mémoire est présenté en figure 11. Il y a un total de 512 Processeurs Élémentaires (PE) et 512 SRAM de 640 octets. Chaque processeur RISC-V contrôle quatre contrôleurs de lignes. Les « rotator cuffs » transfèrent l’activité d’un PE aux PE voisins.

Les PE sont optimisés pour le calcul des produits scalaires de multiplication matrice-vecteur (GEMV) et des produits matrice-matrice (GEMM). Ils utilisent les formats de données INT4, INT8, FP8 dans les formats 1-3-4 pour la précision et 1-4-3 pour l’étendue et BF16. Ces formats sont rappelés en figure 12. À chaque cycle, un PE peut fournir 8 flottants FP8 ou 4 flottants BF16 (opérations SIMD). Avec une fréquence d’horloge de 1,35 GHz et 512 PE, on obtient les performances crêtes annoncées de 2015 TFLOPS FP8 et 1008 TFLOPS FP16.

Les 8 NoC E-W et les 64 NoC N/S assurent les communications. Par exemple, les 8 NoC E-W ont un débit maximal de 56 Go/s dans chaque direction.

Les deux RISC-V ont une UAL 32 bits, un multiplicateur 32 bits et 4 contextes de 16 bits permettant un multithreading d’ordre 4. Il dispose de plus de 20 instructions spécialisées pour le calcul près de la mémoire et l’accélération de l’inférence.

On peut résumer les caractéristiques du circuit Boqueria de la manière suivante :

  • le...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


TEST DE VALIDATION ET CERTIFICATION CerT.I. :

Cet article vous permet de préparer une certification CerT.I.

Le test de validation des connaissances pour obtenir cette certification de Techniques de l’Ingénieur est disponible dans le module CerT.I.

Obtenez CerT.I., la certification
de Techniques de l’Ingénieur !
Acheter le module
Lecture en cours
Manycores orientés réseaux de neurones profonds

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - MATTSON (T.) -   The future of Many Core Computing: A tale of two processors,  -  https://cseweb.ucsd.edu/classes/fa12/cse291-c/talks/SCC-80-core-cern.pdf

  • (2) - DONGARRA (J.) -   Report on the Sunway TaihuLigtht System.  -  http://www.netlib.org/utk/people/JackDongarra/PAPERS/sunway-report-2016.pdf

  • (3) - FU (H.), LI AO (J.), YANG (J.), WANG (L.), HUANG (X.), YANG (C.), XUE (W.), QIAO (F.), ZHAO (W.), YIN (X.), HOU (C.), GE (W.), ZHANG (J.), WANG (Y.), YANG (G.) -   The Sunway TaihuLight supercomputer: system and applications,  -  In SCIENCE CHINA, Information Sciences, 59, 072001 (2016); doi : 10.1007/s11432-016-5588-7.

  • (4) - ADAPTEVA -   Epiphany Architecture Reference,  -  Rev 14.03.11, 2014. Available: http://adapteva.com/docs/epiphany_arch_ref.pdf, [Nov. 25, 2014].

  • (5) - OLOFSSON (A.), NORDSTROM (T.), UL-ABDIN (UL-ABDIN) (Z.) -   Kickstarting High-performance Energy-efficient Manycore Architectures with Epiphany,  -  Proceedings Asilomar Conference on Signal, Systems and Computers, pp 1719-1726 (2014).

  • ...

ANNEXES

  1. 1 Sites Web
    Logo Techniques de l'Ingenieur

    Cet article est réservé aux abonnés.
    Il vous reste 95 % à découvrir.

    Pour explorer cet article Consulter l'extrait gratuit

    Déjà abonné ?


    Article inclus dans l'offre

    "Technologies logicielles Architectures des systèmes"

    (236 articles)

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques.

    Des contenus enrichis

    Quiz, médias, tableaux, formules, vidéos, etc.

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

    Des avantages inclus

    Un ensemble de services exclusifs en complément des ressources.

    Voir l'offre

    Sommaire

    QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

    1/ Quiz d'entraînement

    Entraînez vous autant que vous le voulez avec les quiz d'entraînement.

    2/ Test de validation

    Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.

    Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.


    L'expertise technique et scientifique de référence

    La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
    + de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
    De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

    Article inclus dans l'offre

    "Technologies logicielles Architectures des systèmes"

    (236 articles)

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques.

    Des contenus enrichis

    Quiz, médias, tableaux, formules, vidéos, etc.

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

    Des avantages inclus

    Un ensemble de services exclusifs en complément des ressources.

    Voir l'offre

    Ressources documentaires

    Architecture des ordinateurs : CPU et coprocesseurs/accélérateurs

    Les différents coprocesseurs/accélérateurs utilisés pour accélérer l'exécution des programmes dans ...

    Codage des nombres dans les ordinateurs

    Les processeurs ne travaillant que sur des chiffres binaires, un codage est nécessaire pour représenter ...

    Hiérarchie mémoire : les caches

    Entre le ou les processeurs d'un ordinateur et les organes de stockage existe une hiérarchie de ...

    Processeurs : exécution pipeline des instructions

    Cet article présente les caractéristiques essentielles de l'exécution pipeline des instructions dans les ...