Réseaux de neurones profonds (DNN)
Introduction aux réseaux de neurones

H3730 v1 Article de référence

Réseaux de neurones profonds (DNN)
Introduction aux réseaux de neurones

Auteur(s) : Daniel ETIEMBLE, Fabrice AUZANNEAU

Date de publication : 10 mars 2023 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Introduction

2 - Neurone artificiel

2.1 - Présentation
2.2 - Fonctions d’activation

Figure 4 - Fonctions d’activation

3 - Perceptron

3.1 - Perceptron monocouche

Tableau 1 Tableau 2
3.2 - Perceptron multicouche
3.3 - Rétropropagation de gradient
3.4 - Propagation et rétropropagation

4 - Réseaux de neurones profonds (DNN)

4.1 - Réseaux de neurones artificiels (ANN)
4.2 - Réseaux de neurones convolutionnels (CNN)

Figure 14 - Principe du pooling
4.3 - Réseaux de neurones récurrents (RNN)

5 - Implantation des réseaux de neurones

5.1 - Programmation
5.2 - Supports matériels

Figure 17 - Formats flottants 16 bits

6 - Mise en œuvre embarquée

6.1 - Différents supports matériels
6.2 - Méthodes de simplification des réseaux
6.3 - Cas particulier des réseaux à impulsions (spikes)
6.4 - Formation continue

7 - Remarques pour conclure

Bibliographie & annexes

Présentation

RÉSUMÉ

Cet article est une introduction aux réseaux de neurones. Après un bref historique, le neurone artificiel est présenté avec les différentes fonctions d’activation. Le principe des réseaux est introduit avec les étapes apprentissage et inférence. Le perceptron monocouche avec des exemples d’implantation des fonctions logiques ET et OU, puis le perceptron multicouche sont introduits, avec les principes des algorithmes de rétropropagation du gradient pour la mise à jour des poids des neurones. Les caractéristiques des réseaux de neurones profonds sont présentées, notamment les réseaux convolutionnels (CNN) et des réseaux récurrents. L’implantation des réseaux de neurones est abordée : programmation à l’aide de bibliothèques comme TensorFlow et supports matériels (processeurs neuronaux, opérateurs matériels spécialisés, formats de données réduits, etc.). Les caractéristiques permettant d’utiliser des réseaux de neurones pour l’embarqué sont présentées.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Daniel ETIEMBLE : Ingénieur de l’INSA de Lyon - Professeur émérite à l’université Paris Saclay
Fabrice AUZANNEAU : Ingénieur chercheur en IA embarquée - CEA List

INTRODUCTION

S’inspirant du fonctionnement des neurones du cerveau, les réseaux de neurones artificiels sont définis dans les années 1940. Le perceptron est introduit en 1957, puis le perceptron multicouche en 1986. Ils ont disparu de l’actualité pendant une période avant de revenir au premier plan dans les années 2000 avec les réseaux de neurones profonds.

Le neurone artificiel est présenté avec les différentes fonctions d’activation. Le fonctionnement du perceptron monocouche est présenté avec les exemples d’implantation des fonctions logiques OU et ET ainsi que ses limites. Les caractéristiques des perceptrons multicouches sont détaillées avec notamment les principes de la rétropropation de gradient qui permet la mise à jour des poids des neurones des différentes couches.

Les réseaux de neurones profonds ont marqué une étape décisive dans le développement et l’utilisation des réseaux de neurones. Les réseaux de neurones convolutionnels (CNN) sont détaillés ; les couches convolution et pooling précédant les couches complètement connectées qui permettent de restreindre les tailles de données en extrayant les caractéristiques spatiales simples (comme des contours) que les couches suivantes combinent pour former des concepts plus complexes et abstraits : assemblage de contours en motifs, de motifs en parties d’objets, de parties d’objets en objets, etc. C’est ce qui permet d’utiliser des milliers de configurations différentes en entrées du réseau. Les caractéristiques de réseaux récurrents, permettant la reconnaissance de séquences d’entrée, sont également présentées.

L’implantation des réseaux de neurones a des aspects logiciels et matériels :

programmation. Des bibliothèques logicielles comme TensorFlow, Caffee, Torch et PyTorch sont utilisables sur ordinateurs avec CPU multicœurs sans ou avec GPU. Les différentes opérations sont définies sous forme d’un graphe : l’exécution du programme place les différentes opérations sur CPU, GPU ou tout autre processeur ou accélérateur spécifique et définit les méthodes pour leur exécution ;
support matériel. Des opérateurs matériels spécialisés (convolution, pooling) sont disponibles sous forme d’IP pour les systèmes sur puce (SoC) ; des processeurs neuronaux sont disponibles (processeurs neuronaux d’ARM, TPU de Google). Par ailleurs, des formats de données réduits comme les flottants 16 bits sont intégrés dans des processeurs neuronaux ou GPU pour réduire l’empreinte mémoire et la consommation et accélérer les calculs.

Les réseaux de neurones sont de plus en plus utilisés dans les applications embarquées. Les contraintes des composants embarqués impliquent de réduire et d’optimiser les réseaux utilisés. Quatre techniques sont possibles :

simplification/optimisation du réseau : diminuer le nombre de couches pour diminuer le nombre de paramètres ;
élagage (pruning) : réduire la taille d'un réseau en supprimant certains de ses paramètres ;
quantification : utilisation de formats de données réduits (entiers 8 bits (INT8) voire 4 ou 3 bits) sans perte de précision ;
distillation des connaissances (knowledge distillation) : un gros réseau est d’abord entraîné, puis utilisé pour « enseigner son savoir » à un réseau de plus petite taille.

Dans de nombreux domaines (reconnaissance d’images, traduction automatique, séries temporelles, etc.), les réseaux de neurones sont plus efficaces que les processeurs généralistes. On les trouve aux différents niveaux d’utilisation de l’apprentissage profond : serveurs du nuage, serveurs au bord (edge servers), composants utilisateurs jusqu’aux composants de l’Internet des Objets (IoT).

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

apprentissage réseau de neurones perceptron inférence réseau convolutionnel réseau récurrent implémentation des réseaux neuronaux RN pour l'embarqué

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3730

Lecture en cours
Présentation

Page
suivante

Implantation des réseaux de neurones

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

4. Réseaux de neurones profonds (DNN)

La caractéristique principale des réseaux de neurones profonds est leur grand nombre de couches cachées. Il y a trois grandes classes de réseaux de neurones profonds :

les réseaux de neurones unidirectionnels totalement connectés, encore appelés réseaux de neurones artificiels (ANN) ou perceptrons à nombreuses couches (MLP) ;
les réseaux de neurones convolutionnels (CNN) sont unidirectionnels, avec des couches particulières qui effectuent des prétraitements ;
dans les réseaux de neurones récurrents, les informations peuvent circuler dans les deux directions.

4.1 Réseaux de neurones artificiels (ANN)

Ils fonctionnent selon le principe décrit pour le perceptron, avec un grand nombre de couches. Ce type de réseau est utilisé pour classifier des données non linéaires. Ils sont utilisés en reconnaissance de la parole et d’autres technologies d’apprentissage machine.

HAUT DE PAGE

4.2 Réseaux de neurones convolutionnels (CNN)

Les CNN utilisent des noyaux de convolution avant d’attaquer un réseau de neurones totalement connecté de type ANN.

La figure 12 présente un exemple de CNN pour la classification d’images, avec des convolutions, des étages de pooling et des couches complètement connectées. Les étapes de convolution (§ 4.2.1 ) et de pooling (§ 4.2.2 ) ont pour objet de restreindre la taille des données transmises aux noyaux suivants, en extrayant les caractéristiques spatiales simples (comme des contours) que les noyaux suivants combineront pour former des concepts de plus en plus complexes et abstraits : assemblages de contours en motifs, de motifs en parties d’objets, de parties d’objets en objets, etc.