Fonctionnement général d’un GPU
Processeurs graphiques totalement programmables (GPU)

H1013 v1 Article de référence

Fonctionnement général d’un GPU
Processeurs graphiques totalement programmables (GPU)

Auteur(s) : Daniel ETIEMBLE, David DEFOUR

Relu et validé le 05 janv. 2021 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Présentation

1 - Historique : des cartes graphiques 3D au processeur graphique

1.1 - Pipeline graphique
1.2 - Évolution des implémentations

Figure 2 - Pipeline de la carte 3dfx
1.3 - Vers l’organisation actuelle des GPU

2 - Fonctionnement général d’un GPU

2.1 - Principe

Figure 6 - Différence entre CPU et GPU Figure 8 - Modèle SIMT
2.2 - Un exemple : l’architecture Fermi

Figure 12 - Espace mémoire CUDA
2.3 - Problèmes de l’exécution SIMT
- Quiz d'entraînement

3 - Évolutions logicielles

3.1 - Part de marché des GPU
3.2 - Applications
3.3 - Écosystème

Tableau 1

4 - Évolutions matérielles

4.1 - Générations micro-architecturales

Tableau 2
4.2 - Puce et consommation
4.3 - Unités et instructions spécialisées
- Quiz d'entraînement

5 - Évolutions des mémoires

5.1 - Hiérarchie
5.2 - Technologie
5.3 - Liaisons

Figure 20 - Types de liaison CPU-GPU Tableau 3

6 - Évolutions du parallélisme

6.1 - Ordonnanceurs
6.2 - Synchronisation

7 - Remarques pour conclure

Quiz d'entraînement

RÉSUMÉ

Après avoir rappelé les différentes étapes qui ont mené des cartes graphiques des années 1980 aux processeurs graphiques entièrement programmables appelés GPU (2007), cet article présente les caractéristiques essentielles des GPU. La naissance de l’écosystème CUDA (2007) et l’explosion du nombre de codes scientifiques accélérés par GPU a conduit à des avancées technologiques spectaculaires de ces processeurs: évolutions matérielles, logicielles, des mémoires, des techniques d’utilisation du parallélisme. Elles permettent de comprendre l’importance croissante des GPU dans de nombreuses applications (calcul scientifique, réseaux de neurones, imagerie, bio-informatique, minage de crypto-monnaie, etc.).

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Daniel ETIEMBLE : Ingénieur de l’INSA de Lyon - Professeur émérite à l’université Paris Sud
David DEFOUR : Docteur en Informatique de l’ENS de Lyon - Maître de Conférences à l’université de Perpignan

INTRODUCTION

L’année 2007 a été marquée par la naissance de l’écosystème CUDA de la société NVIDIA et la période 2007-2017 a vu l’explosion du nombre de codes de calcul scientifique accélérés par les processeurs graphiques (GPU). Il existe actuellement trois grands fournisseurs de processeurs graphiques : AMD, Nvidia et Intel, avec différents segments : GPU pour stations de travail et PC, GPU pour systèmes mobiles et APU (Accelerated Processor Unit), dans lesquels CPU et GPU sont intégrés dans la même puce.

Nous rappelons brièvement les différentes étapes qui ont conduit du pipeline des cartes graphiques des années 1980 aux premiers processeurs graphiques unifiés, totalement programmables, en 2007. Le principe de fonctionnement d’un GPU est détaillé, avec l’exemple de l’architecture Fermi. La mise en œuvre de l’approche SIMT (Single Instruction Multiple Thread) est explicitée. Puis nous développons les différents aspects de dix années d’avancées technologiques liées au calcul généraliste sur GPU (GPGPU).

L’évolution des parts de marché, les applications du GPGPU et les évolutions logicielles sont présentées avec notamment les détails sur l’écosystème permettant de disposer d’API de haut niveau (proche de C) et de bas niveau (proche du matériel).

L’évolution du matériel est explicitée, avec les différentes générations micro-architecturales, les problèmes de consommation et l’apport d’unités de calcul et d’instructions spécialisées.

La hiérarchie mémoire et son évolution sont détaillées, avec les apports technologiques et la simplification introduite par l’approche « mémoire unifiée ».

Différentes techniques permettent d’améliorer l’exploitation du parallélisme, notamment au niveau des ordonnanceurs et des dispositifs matériels de gestion du parallélisme (synchronisation et opérations atomiques).

Tout en conservant leur rôle initial pour l’affichage graphique, les GPU sont devenus un acteur principal du calcul massivement parallèle. Ils exploitent le parallélisme de données grain fin que l’on trouve dans une large gamme d’applications, du calcul haute performance aux réseaux de neurones en passant par le génome. Le modèle d’exécution SIMT leur permet d’avoir un avantage significatif sur les CPU pour le parallélisme massif de données.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

CPU GPU CUDA NVIDIA

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1013

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Électronique - Photonique > Électronique > Architecture et tests des circuits numériques > Processeurs graphiques totalement programmables (GPU) > Fonctionnement général d’un GPU

Lecture en cours
Présentation

Page
suivante

Évolutions logicielles

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

2. Fonctionnement général d’un GPU

2.1 Principe

Comme leur nom l’indique, les GPU sont d’abord destinés à l’exécution du pipeline graphique. Cela implique le traitement simultané d’un grand nombre de sommets et d’un plus grand nombre encore de pixels. Par exemple, le rendu en temps réel nécessite le traitement de milliards de pixels par seconde. Cela implique un parallélisme de données massif, de type grain fin, avec le plus souvent le même traitement sur chaque pixel. Cela conduit à un modèle d’exécution fondamentalement différent du modèle des processeurs généralistes (CPU). La figure 6 présente la différence entre les deux modèles :

le CPU est conçu pour des applications complexes, avec une logique de contrôle importante, un nombre réduit d’opérateurs de calcul (même étendus avec les extensions SIMD), une hiérarchie de gros caches (L1, L2, L3…), des latences d’instructions faibles. Même si le passage du monoprocesseur aux multicœurs a augmenté le parallélisme de threads possible, celui-ci reste limité. Le lecteur intéressé trouvera un large traitement des CPU dans les articles de Techniques de l’Ingénieur listés dans Pour en savoir plus ;
le GPU est conçu pour un parallélisme massif avec un très grand nombre d’opérateurs de calcul. Il y a beaucoup de calculs par accès mémoire. Les pipelines ont un très grand nombre d’étages (centaines). Les latences sont importantes. Il y a un très grand débit d’exécution.

La différence de modèle se traduit par une différence de modèle de programmation, avec CUDA ou OpenCL pour les GPU.

Le traitement graphique implique un grand nombre d’opéra7tions sur des vecteurs ou des matrices, ce qui explique pourquoi les GPU ont été utilisés pour le calcul intensif (GPGPU pour General-Purpose Processing on Graphics Processing Units) avant même l’arrivée des architectures unifiées. Les opérations classiques du calcul scientifique étant également celles que l’on retrouve dans les réseaux de neurones profonds (DNN) éventuellement avec des précisions moindres, le domaine d’utilisation des GPU s’est étendu à l’intelligence artificielle dans la dernière période.

Les GPU ayant un beaucoup plus grand nombre de cœurs que les CPU, même si les cœurs GPU sont plus simples, il est clair que...

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.