Exemples de processeurs « flot de données restreint »
Processeurs superscalaires « flot de données »

H1011 v1 Article de référence

Exemples de processeurs « flot de données restreint »
Processeurs superscalaires « flot de données »

Auteur(s) : François ANCEAU, Daniel ETIEMBLE

Relu et validé le 03 août 2022 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - D’une instruction à plusieurs instructions par cycle

2 - Bref historique du concept « flot de données restreint »

2.1 - Stations de réservation de Tomasulo
2.2 - Projet HPS
2.3 - Premières propositions d’implantation

3 - Principe de l’exécution dirigée par les données

3.1 - Graphe de syntaxe abstraite

Figure 4 - Graphe de syntaxe abstraite
3.2 - Exécution dirigée par les données d’un programme informatique
3.3 - Implantation du « flot de données restreint »

4 - Composantes de l’exécution « flot de données restreint »

4.1 - Terminaison ordonnée des instructions
4.2 - Renommage de registres

Figure 10 - Entrée du ROB
4.3 - Lancement et exécution des instructions
4.4 - Prédiction des branchements
4.5 - Reprise après exécution spéculative erronée
4.6 - Tampons de rangement mémoire

Figure 20 - Tampon de rangement
4.7 - Mécanismes annexes

5 - Exemples de processeurs « flot de données restreint »

5.1 - Architecture Metaflow
5.2 - Processeurs x86 d’Intel et AMD
5.3 - Processeurs d’IBM : PowerPC et Power

Tableau 1

6 - Remarques pour conclure

Bibliographie & annexes

Présentation

RÉSUMÉ

Cet article décrit les processeurs superscalaires «flot de données restreints», le plus souvent appelés superscalaires à exécution non ordonnée (out-of-order). Pour utiliser au mieux le parallélisme existant entre les instructions d’un code séquentiel, ce type de processeurs démarre l’acquisition et le décodage des instructions dans l’ordre, exécute les instructions selon le flot de données, puis termine les instructions dans l’ordre pour permettre de traiter les exceptions comme pour exécution strictement séquentielle. Aux caractéristiques des superscalaires «dans l’ordre» s’ajoutent de nouvelles caractéristiques pour permettre une exécution «flot de données» et la terminaison dans l’ordre. Ces processeurs sont maintenant les cœurs de la plupart des processeurs multicœurs.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

François ANCEAU : Ingénieur INPG Grenoble, - Professeur CNAM retraité, Chercheur au LIP6, UPMC
Daniel ETIEMBLE : Ingénieur INSA Lyon - Professeur émérite à l’université Paris Sud

INTRODUCTION

Cet article examine les caractéristiques principales des processeurs superscalaires « flot de données », souvent appelés superscalaires à exécution non ordonnée (out-of-order). Comme tous les superscalaires, ces processeurs utilisent le parallélisme d’instructions existant dans un programme séquentiel pour exécuter en parallèle, sous contrôle du matériel, les instructions pouvant s’exécuter simultanément. Alors que les superscalaires dans l’ordre ne peuvent démarrer l’exécution que d’un nombre réduit d’instructions (2 à 4) dans les pipelines des différents opérateurs, les superscalaires flot de données considèrent un nombre beaucoup plus élevé d’instructions pour tirer parti au mieux du flot de données entre instructions. Les instructions sont lues et décodées dans l’ordre, exécutées en flot de données, et terminées dans l’ordre pour permettre le traitement des exceptions comme dans le cas d'une exécution strictement séquentielle.

Cet article présente les mécanismes et structures permettant à la fois le « flot de données » et la terminaison ordonnée. Le tampon de réordonnancement (ROB) reçoit les instructions décodées et garantit la terminaison ordonnée. La gestion des dépendances de données est traitée par le renommage des registres, qui peut être partiel (via les entrées du ROB) ou total (via des registres physiques et une correspondance entre ces registres physiques et les registres architecturaux). Les « stations de réservation » alimentent les opérateurs, permettant de réinjecter au plus tôt les résultats des opérateurs dans les entrées des stations qui attendent ces résultats. Les problèmes de reprise après une exécution spéculative erronée, des interruptions, de l’exécution multithread et des tampons de rangement mémoire sont aussi présentés.

Après un bref historique, les concepts introduits sont illustrés via des exemples de processeurs d’Intel, du Pentium Pro aux cœurs des multicœurs Core, dont certains utilisent le renommage partiel et d’autres le renommage total. L’exemple du Power 4 d’IBM, qui fournit à la partie « flot de données » des groupes d’instructions et termine les instructions par groupe, est également détaillé.

Les limites du parallélisme d’instructions dans un code séquentiel, le mur de la chaleur et un faible gain de performance résultant d’une augmentation importante de la complexité matérielle ont fait que les processeurs superscalaires « flot de données » sont les derniers monoprocesseurs haut de gamme. Mais ils sont maintenant les cœurs de la plupart des processeurs multicœurs.

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

Renommage de registres superscalaire parallélisme d'instructions flot de données station de réservation tampon de réordonnancement

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h1011

Lecture en cours
Présentation

Page
suivante

Remarques pour conclure

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Exemples de processeurs « flot de données restreint »

Nous présentons quelques exemples de processeurs à exécution « non ordonnée » pour mettre en évidence quelques grandes caractéristiques permettant de comprendre les évolutions sous plusieurs aspects :

les relations entre les choix architecturaux et les supports matériels sous-jacents. Cela s’illustre notamment par la limitation des tailles des mémoires associatives utilisées pour implanter le « flot de données », voire leur remplacement par des mécanismes d'adressage pour les machines comportant un faible nombre d'entrées dans les stations de réservation ;
la faible évolution de ces processeurs depuis leur apparition vers la fin des années 1990. L’évolution principale a été le développement plus ou moins poussé de l’exécution multi-thread simultanée. Ils sont également devenus les cœurs des processeurs multicœurs, mais sans que la microarchitecture d’un cœur change fondamentalement.

5.1 Architecture Metaflow

L’architecture Metaflow proposée au début des années 1990 par Popescu et al, est l’une des premières tentatives d’implantation du concept « flot de données restreint ». Elle est basée sur une table unique, appelée DRIS, dont le contenu d’une entrée a été présenté en figure 8. Une entrée du DRIS comprend :

les champs d’état que l’on trouve normalement dans un ROB ;
les champs opérande source que l’on trouve normalement dans une entrée de station de réservation ;
le champ opérande destination de l’approche renommage partiel ;
les numéros de registres architecturaux des opérandes sources parce qu’il n’y a pas de RAT.

Dans cette approche, les instructions attendent la disponibilité de leur opérande dans le DRIS....

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.