Calcul, mémorisation et communication
Supports matériels pour les réseaux de neurones profonds

H1098 v1 Article de référence

Calcul, mémorisation et communication
Supports matériels pour les réseaux de neurones profonds

Auteur(s) : Daniel ETIEMBLE

Date de publication : 10 août 2021 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Positionnement des réseaux de neurones

2 - Grandes caractéristiques des réseaux de neurones

2.1 - Schéma de principe

Figure 3 - Structure d’un neurone
2.2 - Apprentissage et inférence

3 - Réseaux de neurones profonds

3.1 - Caractéristiques
3.2 - Utilisation des réseaux de neurones profonds
3.3 - Bibliothèques logicielles pour les DNN

Figure 8 - Exemple de graphe TensorFlow
3.4 - Ressources matérielles pour les DNN

4 - Formats de données

5 - Opérations spécifiques

5.1 - Convolutions

Tableau 2
5.2 - Pooling

Figure 14 - Principe du Pooling
5.3 - Couches complètement connectées

6 - Extension du jeu d’instructions Intel64

7 - Opérateurs spécialisés : tenseurs et cœurs tenseurs

7.1 - Cœurs tenseurs des GPU NVidia
7.2 - Tenseurs des FPGA Intel

8 - Processeurs neuronaux

8.1 - Processeurs neuronaux d’ARM
8.2 - TPU de Google

Figure 23 - TPU de Google (version 2) Figure 24 - TPU Google (version 3)
8.3 - Intel Nirvana NNP-T

Figure 25 - Intel Nirvana NNP-T
8.4 - Xilinx Versal AI core (VC 1902)*

Figure 27 - Xilinx VC1902

9 - Calcul, mémorisation et communication

10 - Remarques pour conclure

Bibliographie & annexes

Présentation

RÉSUMÉ

Les applications de l’intelligence artificielle, utilisant notamment les réseaux de neurones profonds, ont conduit au développement de supports matériels pour accélérer leur exécution. Après un bref rappel des principes de ces réseaux, notamment les réseaux de neurones convolutionnels, les différents opérateurs nécessitant une accélération sont présentés. Les spécificités permettant l’utilisation d’une précision numérique réduite sont présentées, avec les formats de données correspondant. Les différentes techniques d’accélération sont présentées : ajout d’instructions, développement de composants matériels (opérateurs spécialisés à intégrer dans des systèmes sur puce, processeurs neuronaux) avec des exemples de circuits disponibles chez ARM, Intel, Google, NVidia, Xilinx.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Daniel ETIEMBLE : Professeur émérite LRI, Université Paris Saclay

INTRODUCTION

Avec l’importance croissante des applications de l’intelligence artificielle, les réseaux de neurones profonds sont de plus en plus utilisés. Ils ont vu le développement de supports matériels et logiciels significatifs. Les grands opérateurs (Google, Microsoft, etc.) et les fournisseurs de circuits (ARM, Intel, NVidia, Xilinx) ainsi que de très nombreuses petites sociétés ou startups proposent des solutions matérielles pour accélérer l’exécution des applications utilisant des réseaux de neurones profonds. L’objectif de l’article est d’expliciter les caractéristiques de ces solutions matérielles en relation avec les grandes caractéristiques des réseaux de neurones.

Sans prétendre à une présentation théorique ou exhaustive, les principes de base des réseaux de neurones (RN) sont rappelés : structure d’un RN, structure d’un neurone, fonction d’activation ainsi que les deux phases d’utilisation d’un RN (Apprentissage et Inférence). Les réseaux de neurones sont utilisés à plusieurs niveaux : centre de données, serveurs au bord du réseau (edge devices), smartphones et composants de l’Internet des Objets (IoT) avec des contraintes de performance et de consommation énergétique différentes, conduisant à différents supports matériels.

Alors que les flottants 32 bits sont le format numérique de base pour les réseaux de neurones, les contraintes de performance et de consommation ont conduit à l’utilisation de formats entiers 8 bits et 16 bits et de formats flottants réduits (F16, BF16, TF32) qui sont présentés. Les opérateurs spécifiques des réseaux de neurones convolutionnels sont présentés : convolution, pooling, couches complètement connectées (denses).

Des exemples de supports matériels sont présentés : les instructions IA du jeu d’instructions Intel pour le calcul en entier, les cœurs tenseurs de NVidia, les processeurs neuronaux d’ARM (Ethos), d’Intel (Nirvana NPP-T), de Google (TPU) et le système sur puce Xilinx VC 1902.

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

réseaux de neurones profonds opérateurs matriciels précision numérique processeurs neuronaux accélérateurs pour systèmes sur puce

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1098

Lecture en cours
Présentation

Page
suivante

Remarques pour conclure

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

9. Calcul, mémorisation et communication

Dans cette section, nous avons mis l’accent sur l’aspect calcul des processeurs neuronaux. Les cœurs de ces processeurs ont pour but de fournir la puissance de calcul nécessaire à l’exécution des convolutions et des niveaux complètement connectés. Mais la performance de calcul implique que les différents cœurs neuronaux soient interconnectés via des réseaux performants, et que les sous-systèmes mémoire soient capables de les alimenter en données.

Les processeurs neuronaux sont des multicœurs interconnectés sur puce ou sur châssis via des réseaux d’interconnexion performants, généralement de type grille 2D.
Les bandes passantes mémoire nécessaires sont considérables. Pour ne prendre qu’un seul exemple, les processeurs Xeon Intel de 2020 (E7-8890 v4, E5-2699A v4 avec respectivement 24 et 22 cœurs) ont une bande passante mémoire maximale de l’ordre de 80 Go/s. Par comparaison, la bande passante mémoire du processeur neuronal Xilinx VersaI Core est de 102 Go/s et le processeur Nirvana d’Intel a une bande passante maximale de 1 240 Go/s.

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.