Modèles génératifs
Apprentissage statistique non supervisé

H5012 v1 Article de référence

Modèles génératifs
Apprentissage statistique non supervisé

Auteur(s) : Bruno SAUVALLE

Relu et validé le 18 janv. 2021 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Présentation

1 - Différents types d’apprentissage

2 - Clustering (ou partitionnement)

2.1 - Applications du clustering
2.2 - Principales classes d’algorithme de partitionnement
- Quiz d'entraînement

3 - Réduction de dimensionnalité

3.1 - Sélection de features
3.2 - Algorithmes conventionnels de projection (hors deep learning)
3.3 - Réduction de dimensionnalité et deep learning
- Quiz d'entraînement

4 - Estimation de densité

4.1 - Méthodes statistiques classiques
4.2 - Représentation des densités en moyenne et grande dimension
4.3 - Modèles autorégressifs et modèles de langage

5 - Modèles génératifs

5.1 - Auto-encodeurs variationnels
5.2 - Réseaux adverses génératifs (generative adversarial network : GAN)
5.3 - Avantages et inconvénients des différents types de modèles génératifs
- Quiz d'entraînement

6 - Conclusion

7 - Glossaire

8 - Sigles, notations et symboles

RÉSUMÉ

Cet article présente la notion d’apprentissage statistique non supervisé, puis les techniques actuellement disponibles pour procéder à de l’apprentissage statistique à partir de données non labellisées : partitionnement, réduction de dimensionnalité, estimation de densité et enfin utilisation de modèles génératifs. Il s’attache à couvrir aussi bien les algorithmes classiques les plus anciens (analyse en composantes principales, k-moyennes) que les techniques les plus récentes faisant appel à l’apprentissage profond (représentations de mots, modèles autorégressifs, auto-encodeurs, réseaux génératifs adverses).

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Bruno SAUVALLE : Ingénieur en chef des Mines - Centre de Robotique, MINES ParisTech, Paris, France

INTRODUCTION

L’objet de cet article est de présenter les méthodes et les techniques d’apprentissage statistique non supervisé, c’est-à-dire utilisant des données non labellisées au préalable.

La notion d’apprentissage statistique non supervisé, peut paraître difficile à appréhender quand on la compare avec celle d’apprentissage statistique supervisé, qui consiste simplement à apprendre une fonction f:y = f(x) à partir d’un très grand nombre d’exemples de couples (x_i ,y_i ) où x_i est la donnée d’entrée et y_i est le résultat en sortie, ou label.

Il est cependant difficile et coûteux d’obtenir une base de données labellisées dans la mesure où une intervention humaine est généralement nécessaire pour obtenir les labels y_i correspondant aux données x_i disponibles. La constitution de la base de données ImageNet, qui contient actuellement plus de 14 millions d’images et est à l’origine des succès spectaculaires observés ces dernières années en matière d’analyse d’image, a ainsi nécessité de nombreuses années et l’intervention de plusieurs dizaines de milliers d’« annotateurs » chargés de visualiser des images téléchargées sur Internet et d’identifier les objets ou les animaux présents sur ces images.

La baisse continue des coûts de captation, de communication, de stockage et de traitement des données conduit cependant naturellement à la disponibilité de bases de données beaucoup plus importantes dont une analyse exhaustive par l’homme est manifestement impossible.

Dans un tel contexte, l’apprentissage non supervisé se développe actuellement autour de deux axes.

Une première façon d’exploiter un ensemble de données de façon statistique sans intervention humaine est de chercher à apprendre la distribution de ces données. À titre d’exemple, les modèles de langage sont des programmes s’appuyant souvent sur des réseaux de neurones et cherchant, pour un langage donné, à assigner une probabilité, ou valeur de vraisemblance, à chaque phrase ou groupe de phrases que l’on leur propose, ce qui permet entre autres d’optimiser les logiciels de reconnaissance vocale ou de traduction en évitant de proposer des phrases qui seraient considérées comme trop peu probables dans le langage et le contexte considérés, par exemple si elles sont grammaticalement incorrectes. Les données utilisées pour construire ces modèles de langage sont des corpus de textes librement disponibles sur Internet et ne nécessitant donc pas d’effort particulier d’annotation.

Une deuxième façon d’exploiter un vaste ensemble de données est de chercher à les utiliser pour construire une représentation de ce type de données, optimisée pour une ou plusieurs classes d’utilisations. Si l’on cherche simplement à visualiser des données se présentant sous forme de vecteurs comprenant un grand nombre de coordonnées, une réduction de dimensionnalité à deux ou trois dimensions semble à l’évidence nécessaire. Si l’on envisage d’utiliser des données pour faire de la classification mais que l’on ne dispose que de peu d’exemples labellisés, un regroupement préalable de ces données en un nombre limité de groupes ou clusters semble, là encore, une approche utile. En matière de traitement du langage, des technologies ont été développées ces dernières années permettant de représenter chaque mot de notre vocabulaire par un vecteur de moyenne dimension, par exemple en dimension 300, de telle sorte que des mots représentés par des vecteurs proches les uns des autres aient des significations qui soient elles aussi proches. La représentation vectorielle de ces mots serait en quelque sorte leur contenu sémantique, leur « sens », ce qui permet le développement d’applications inimaginables auparavant en matière d’analyse de contenu. Là encore, ces représentations sont élaborées à partir de corpus de textes non annotés et librement disponibles.

Aussi décrirons-nous dans cet article non seulement les principales techniques d’apprentissage non supervisé (le partitionnement ou clustering, la réduction de dimensionnalité et l’estimation de densité) ainsi que la façon dont ces techniques ont évolué avec le développement de l’apprentissage profond, mais surtout de quelles façons ces méthodes peuvent être utiles, utilisées seules ou en s’insérant dans un ensemble de traitements plus complexes.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

partitionnement réduction de dimensionalité modèle génératif

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h5012

CET ARTICLE SE TROUVE ÉGALEMENT DANS :

Accueil > Ressources documentaires > Technologies de l'information > Technologies logicielles Architectures des systèmes > Intelligence artificielle : concepts et méthodes d'apprentissage > Apprentissage statistique non supervisé > Modèles génératifs

Accueil > Ressources documentaires > Automatique - Robotique > Automatique et ingénierie système > Méthodes et outils > Apprentissage statistique non supervisé > Modèles génératifs

Accueil > Ressources documentaires > Innovation > Innovations technologiques > Innovations en électronique et TIC > Apprentissage statistique non supervisé > Modèles génératifs

Lecture en cours
Présentation

Page
suivante

Conclusion

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Modèles génératifs

Un modèle génératif est un algorithme permettant de générer des échantillons suivant la même loi de probabilité que celle des données fournies dans la base de données initiales, mais sans que cette loi de probabilité ne soit nécessairement décrite de façon explicite.

5.1 Auto-encodeurs variationnels

Nous avons vu comment les méthodes de l’apprentissage profond peuvent être utilisées pour faire de la réduction de dimensionnalité grâce à des auto-encodeurs en associant à chaque objet x_i d’un espace de très grande dimension une représentation latente h_i = f_θ (x), où f_θ est un réseau de neurones, et en optimisant les paramètres θ de f_θ et $ϕ$ d’un deuxième réseau de neurones $g_{ϕ}$ tels que $‖ g_{ϕ} \circ f_{θ} (x_{i}) - x_{i} ‖$ soit en moyenne le plus bas possible.

Il est assez tentant, une fois que les paramètres θ et $ϕ$ des réseaux de neurones f_θ et $g_{ϕ}$ ont été optimisés, de chercher à obtenir de nouveaux échantillons x en procédant dans...

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Lecture en cours
Modèles génératifs

Page
précédenteEstimation de densité

Page
suivante

Conclusion

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

BIBLIOGRAPHIE

(1) - KARRAS (T.), LAINE (S.), AILA (T.) - A Style-Based Generator Architecture for Generative Adversarial Networks - (2018).
(2) - KLEINBERG (J.) - An Impossibility Theorem for Clustering, - in NIPS (2002).
(3) - ESTER (M.), KRIEGEL (H.P.), SANDER (J.), XU (X.) - A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, - in KDD-96 Proceedings, p. 226-231 (1996).
(4) - TENENBAUM (J.B.), de SILVA (V.), LANGFORD (J.C.) - A Global Geometric Framework for Nonlinear Dimensionality Reduction, - SCIENCE, vol. 290, p. 2319 (2000).
(5) - ROWEIS (S.T.), SAUL (L.K.). - Nonlinear Dimensionality Reduction by Locally Linear Embedding, - SCIENCE, vol. 290, p. 2323-2326 (2000).
(6) - HINTON (G.E.), SALAKHUTDINOV (R.R.) - Reducing...

DANS NOS BASES DOCUMENTAIRES

1 Outils logiciels

Pour les calculs ne faisant pas appel au deep learning et portant sur des volumes de données ne nécessitant pas un recours au calcul distribué, les deux outils logiciels de référence sont scikit-learn et R

La bibliothèque Spark Mlib comprend une adaptation de principaux algorithmes de machine learning (hors deep learning) à un environnement distribué et permettant donc le traitement de volumes de données très importants.

Pour ce qui concerne le deep learning, on citera les outils pytorch et tensorflow/ Keras. De très nombreux exemples de modèles pré-entraînés ainsi que les codes sources associés sont disponibles en libre accès sur la plateforme github.

HAUT DE PAGE

2 Événements

Conférences annuelles :

International Conference on Learning Representations ( https://iclr.cc/)

Conference on Neural Information Processing Systems ( https://nips.cc/)

Conference on Computer Vision and Pattern Recognition

International Conference on Machine Learning ( https://icml.cc/)

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Article inclus dans l'offre