RECHERCHEZ parmi plus de 10 000 articles de référence ou pratiques et 4 000 articles d'actualité
PAR DOMAINE D'EXPERTISE
PAR SECTEUR INDUSTRIEL
PAR MOTS-CLES
NAVIGUER DANS LA
CARTOGRAPHIE INTERACTIVE
DÉCOUVREZ toute l'actualité, la veille technologique GRATUITE, les études de cas et les événements de chaque secteur de l'industrie.
Article précédent
Apprentissage Statistique SuperviséArticle de référence | Réf : H5012 v1
ARTICLE INTERACTIF
Auteur(s) : Bruno SAUVALLE
Date de publication : 10 janv. 2020
Article suivant
Systèmes à bases de connaissancesCet article fait partie de l’offre
Technologies logicielles Architectures des systèmes (215 articles en ce moment)
Cette offre vous donne accès à :
Une base complète et actualisée d'articles validés par des comités scientifiques
Un service Questions aux experts et des outils pratiques
Des Quiz interactifs pour valider la compréhension et ancrer les connaissances
Présentation
Lire l'article interactif
Bibliographie & annexes
Quiz & Test
Inclus dans l'offre
La diversité des algorithmes utilisés en réduction de dimensionnalité s’explique tout d’abord par le fait que les objectifs d’une réduction de dimensionnalité sont très variables.
Si l’on utilise cette technique simplement dans un but de visualisation pour appréhender la répartition d’un ensemble de données, on recherchera naturellement un algorithme préservant au mieux la structure locale ou globale des données, en prenant par exemple comme référence les distances respectives entre chaque exemple. Si, à l’inverse, on utilise une telle réduction de dimensionnalité dans le but d’alimenter un algorithme de classification, on demandera plutôt à cet algorithme de conserver les variables les plus discriminantes pour la classification qui va suivre.
La sélection de features est la méthode la plus directe pour réduire la dimensionnalité d’un jeu de données. Elle consiste simplement à supprimer les coordonnées qui apparaissent comme inutiles ou redondantes. Dans un contexte totalement non supervisé, on pourra ainsi supprimer les coordonnées qui prennent toujours la même valeur. On pourra aussi supprimer celles qui sont redondantes en ce sens qu’une des variables peut être considérée comme essentiellement déterminée par une autre, et qu’il est donc inutile de maintenir les deux variables pour les analyses qui vont suivre. Les principaux tests statistiques de dépendance qui sont utilisés dans ce cadre sont :
le coefficient de corrélation entre deux variables, si l’on s’intéresse uniquement à des dépendances linéaires ;
le calcul de l’information mutuelle entre deux variables, qui mesure à quel point deux variables x et y ne sont pas indépendantes, c’est-à-dire l’écart entre la distribution de probabilité p(x,y) et le produit des distributions marginales, p(x) p(y), qui serait égal à p(x,y) si x et y étaient effectivement indépendantes ;
le test du χ2 d’indépendance pour les variables à modalité ou prenant des valeurs discrètes.
La sélection de features peut aussi être effectuée dans un contexte supervisé, c’est-à-dire que l’on cherche à réduire...
Vous êtes abonné à cette offre ?
Connectez-vous !
Vous souhaitez découvrir cette offre ?
Cet article est inclus dans l'offre :
TECHNOLOGIES LOGICIELLES ARCHITECTURES DES SYSTÈMES
(1) - KARRAS (T.), LAINE (S.), AILA (T.) - A Style-Based Generator Architecture for Generative Adversarial Networks - (2018).
(2) - KLEINBERG (J.) - An Impossibility Theorem for Clustering, - in NIPS (2002).
(3) - ESTER (M.), KRIEGEL (H.P.), SANDER (J.), XU (X.) - A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, - in KDD-96 Proceedings, p. 226-231 (1996).
(4) - TENENBAUM (J.B.), de SILVA (V.), LANGFORD (J.C.) - A Global Geometric Framework for Nonlinear Dimensionality Reduction, - SCIENCE, vol. 290, p. 2319 (2000).
(5) - ROWEIS (S.T.), SAUL (L.K.). - Nonlinear Dimensionality Reduction by Locally Linear Embedding, - SCIENCE, vol. 290, p. 2323-2326 (2000).
(6) - HINTON (G.E.), SALAKHUTDINOV (R.R.) - Reducing...
Pour les calculs ne faisant pas appel au deep learning et portant sur des volumes de données ne nécessitant pas un recours au calcul distribué, les deux outils logiciels de référence sont scikit-learn et R
La bibliothèque Spark Mlib comprend une adaptation de principaux algorithmes de machine learning (hors deep learning) à un environnement distribué et permettant donc le traitement de volumes de données très importants.
Pour ce qui concerne le deep learning, on citera les outils pytorch et tensorflow/ Keras. De très nombreux exemples de modèles pré-entraînés ainsi que les codes sources associés sont disponibles en libre accès sur la plateforme github.
HAUT DE PAGE
Conférences annuelles :
International Conference on Learning Representations ( https://iclr.cc/)
Conference on Neural Information Processing Systems ( https://nips.cc/)
Conference on Computer Vision and Pattern Recognition
International Conference on Machine Learning ( https://icml.cc/)
HAUT DE PAGE
Vous êtes abonné à cette offre ?
Connectez-vous !
Vous souhaitez découvrir cette offre ?
Cet article est inclus dans l'offre :
TECHNOLOGIES LOGICIELLES ARCHITECTURES DES SYSTÈMES
Entraînez vous autant que vous le voulez avec les quiz d'entraînement.
Lorsque vous êtes prêt, vous passez le test de validation. Vous avez deux passages possibles dans un laps de temps de 30 jours.
Entre les deux essais, vous pouvez consulter l’article et réutiliser les quiz d'entraînement pour progresser. L’attestation vous est délivrée pour un score minimum de 70 %.
DÉTAIL DE L'ABONNEMENT :
TOUS LES ARTICLES DE VOTRE RESSOURCE DOCUMENTAIRE
Accès aux :
Articles et leurs mises à jour
Nouveautés
Archives
Articles interactifs
Formats :
HTML illimité
Versions PDF
Site responsive (mobile)
Info parution :
Toutes les nouveautés de vos ressources documentaires par email
DES ARTICLES INTERACTIFS
Articles enrichis de quiz :
Expérience de lecture améliorée
Quiz attractifs, stimulants et variés
Compréhension et ancrage mémoriel assurés
DES SERVICES ET OUTILS PRATIQUES
Archives
Technologies anciennes et versions
antérieures des articles
Votre site est 100% responsive,
compatible PC, mobiles et tablettes.
FORMULES
Formule monoposte | Autres formules | |
---|---|---|
Ressources documentaires | ||
Consultation HTML des articles | Illimitée | Illimitée |
Quiz d'entraînement | Illimités | Illimités |
Téléchargement des versions PDF | 5 / jour | Selon devis |
Accès aux archives | Oui | Oui |
Info parution | Oui | Oui |
Services inclus | ||
Questions aux experts (1) | 4 / an | Jusqu'à 12 par an |
Articles Découverte | 5 / an | Jusqu'à 7 par an |
Dictionnaire technique multilingue | Oui | Oui |
(1) Non disponible pour les lycées, les établissements d’enseignement supérieur et autres organismes de formation. |
||
Formule 12 mois 1 945 € HT |
Autres formules |
1 - DIFFÉRENTS TYPES D’APPRENTISSAGE
2 - CLUSTERING (OU PARTITIONNEMENT)
3 - RÉDUCTION DE DIMENSIONNALITÉ
Information
Quiz d'entraînement bientôt disponible
TECHNIQUES DE L'INGENIEUR
L'EXPERTISE TECHNIQUE ET SCIENTIFIQUE
DE RÉFÉRENCE
ÉDITION - FORMATION - CONSEIL :
Avec Techniques de l'Ingénieur, retrouvez tous les articles scientifiques et techniques : base de données, veille technologique, documentation et expertise technique
LOGICIELS
Automatique - Robotique | Biomédical - Pharma | Construction et travaux publics | Électronique - Photonique | Énergies | Environnement - Sécurité | Génie industriel | Ingénierie des transports | Innovation | Matériaux | Mécanique | Mesures - Analyses | Procédés chimie - bio - agro | Sciences fondamentales | Technologies de l'information
ACCUEIL | A PROPOS | EXPERTS SCIENTIFIQUES | NOUS REJOINDRE | PUBLICITÉ | PLAN DU SITE | CGU | CGV | MENTIONS LÉGALES | RGPD | AIDE | FAQ | NOUS CONTACTER
PAIEMENT
SÉCURISÉ
OUVERTURE RAPIDE
DE VOS DROITS
ASSISTANCE TÉLÉPHONIQUE
+33 (0)1 53 35 20 20