Présentation
EnglishRÉSUMÉ
Cet article décrit les processeurs superscalaires «flot de données restreints», le plus souvent appelés superscalaires à exécution non ordonnée (out-of-order). Pour utiliser au mieux le parallélisme existant entre les instructions d’un code séquentiel, ce type de processeurs démarre l’acquisition et le décodage des instructions dans l’ordre, exécute les instructions selon le flot de données, puis termine les instructions dans l’ordre pour permettre de traiter les exceptions comme pour exécution strictement séquentielle. Aux caractéristiques des superscalaires «dans l’ordre» s’ajoutent de nouvelles caractéristiques pour permettre une exécution «flot de données» et la terminaison dans l’ordre. Ces processeurs sont maintenant les cœurs de la plupart des processeurs multicœurs.
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleAuteur(s)
-
François ANCEAU : Ingénieur INPG Grenoble, - Professeur CNAM retraité, Chercheur au LIP6, UPMC
-
Daniel ETIEMBLE : Ingénieur INSA Lyon - Professeur émérite à l’université Paris Sud
INTRODUCTION
Cet article examine les caractéristiques principales des processeurs superscalaires « flot de données », souvent appelés superscalaires à exécution non ordonnée (out-of-order). Comme tous les superscalaires, ces processeurs utilisent le parallélisme d’instructions existant dans un programme séquentiel pour exécuter en parallèle, sous contrôle du matériel, les instructions pouvant s’exécuter simultanément. Alors que les superscalaires dans l’ordre ne peuvent démarrer l’exécution que d’un nombre réduit d’instructions (2 à 4) dans les pipelines des différents opérateurs, les superscalaires flot de données considèrent un nombre beaucoup plus élevé d’instructions pour tirer parti au mieux du flot de données entre instructions. Les instructions sont lues et décodées dans l’ordre, exécutées en flot de données, et terminées dans l’ordre pour permettre le traitement des exceptions comme dans le cas d'une exécution strictement séquentielle.
Cet article présente les mécanismes et structures permettant à la fois le « flot de données » et la terminaison ordonnée. Le tampon de réordonnancement (ROB) reçoit les instructions décodées et garantit la terminaison ordonnée. La gestion des dépendances de données est traitée par le renommage des registres, qui peut être partiel (via les entrées du ROB) ou total (via des registres physiques et une correspondance entre ces registres physiques et les registres architecturaux). Les « stations de réservation » alimentent les opérateurs, permettant de réinjecter au plus tôt les résultats des opérateurs dans les entrées des stations qui attendent ces résultats. Les problèmes de reprise après une exécution spéculative erronée, des interruptions, de l’exécution multithread et des tampons de rangement mémoire sont aussi présentés.
Après un bref historique, les concepts introduits sont illustrés via des exemples de processeurs d’Intel, du Pentium Pro aux cœurs des multicœurs Core, dont certains utilisent le renommage partiel et d’autres le renommage total. L’exemple du Power 4 d’IBM, qui fournit à la partie « flot de données » des groupes d’instructions et termine les instructions par groupe, est également détaillé.
Les limites du parallélisme d’instructions dans un code séquentiel, le mur de la chaleur et un faible gain de performance résultant d’une augmentation importante de la complexité matérielle ont fait que les processeurs superscalaires « flot de données » sont les derniers monoprocesseurs haut de gamme. Mais ils sont maintenant les cœurs de la plupart des processeurs multicœurs.
MOTS-CLÉS
Renommage de registres superscalaire parallélisme d'instructions flot de données station de réservation tampon de réordonnancement
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Composantes de l’exécution « flot de données restreint »
Les différentes techniques n’étant pas totalement indépendantes, nous les introduisons dans un ordre évitant les redondances de présentation.
4.1 Terminaison ordonnée des instructions
Pour permettre des exceptions propres, les instructions doivent se terminer strictement dans l’ordre du programme, comme elles le feraient dans un processeur strictement séquentiel. La terminaison dans l’ordre est implantée par un tampon de réordonnancement (ROB), qui fonctionne comme un tampon circulaire. Lorsqu’une instruction est lancée, une entrée du ROB qui va contenir l’état de l’exécution de l’instruction lui est attribuée. Une instruction ne se termine et n’est retirée du ROB que si elle est garantie d’une part (plus d’exécution spéculative, plus de possibilité d’interruptions) et que toutes les instructions précédentes dans l’ordre séquentiel du programme sont terminées du point de vue de l’exécution dirigée par les données. Lorsqu’une instruction se termine, l’entrée correspondante du ROB redevient disponible pour une nouvelle instruction. Comme nous le verrons au § 4.2.1, le ROB sert aussi de tampon contrôlant l’exécution « flot de données » dans le cas du renommage partiel.
HAUT DE PAGE4.2 Renommage de registres
Le renommage de registres permet de supprimer les dépendances de nom, comme le montre la partie droite de la figure 7. Dans le cas d'un renommage partiel, il fournit par ailleurs à chaque instruction un emplacement pour placer le résultat de son exécution, réalisant ainsi l’assignation unique des variables.
Le renommage peut utiliser différentes techniques, la plupart distinguant les registres architecturaux (définis par le jeu d’instructions) des emplacements de renommage. Ces derniers peuvent être explicites (registres physiques) ou implicites comme les emplacements pour résultats dans le tampon de réordonnancement (ROB).
...Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Composantes de l’exécution « flot de données restreint »
BIBLIOGRAPHIE
-
(1) - THORNTON (J.) - Design of a Computer. - The Control Data 6600.
-
(2) - TOMASULO (R.M.) - An efficient algorithm for exploiting multiple arithmetic unit. - IBM Journal Research and Development, pp. 25-33 (January 1967).
-
(3) - HENNESSY (J.L.), PATERSON (D.) - Architecture des ordinateurs, une approche quantitative (3ème édition). - Vuibert Informatique (2003).
-
(4) - DESPAIN (A.), PATT (Y.) - The Aquarius Project. - COMPCON84 (Feb. 1984).
-
(5) - PATT (Y.N.), HWU (W.), SHEBANOW (M.C.) - HPS, a New Microarchitecture : Rationale and Introduction. - The 18th International Microprogramming Workshop, pp. 103-108 (December 1985).
-
(6) - PATT (Y.N.), HWU (W.), SHEBANOW (M.C.), MELVIN (S.) - Critical Issues regarding...
DANS NOS BASES DOCUMENTAIRES
Cet article fait partie de l’offre
Technologies logicielles Architectures des systèmes
(239 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive