Contactez-nous
Autres méthodes factorielles
Analyse des données ou statistique exploratoire multidimensionnelle
AF620 v1 Article de référence

Autres méthodes factorielles
Analyse des données ou statistique exploratoire multidimensionnelle

Auteur(s) : Philippe BESSE, Alain BACCINI

Date de publication : 10 avr. 2011 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Prolégomènes

2 - Analyse en composantes principales (ACP)

3 - Autres méthodes factorielles

4 - Classification

5 - Conclusion

Sommaire

Présentation

RÉSUMÉ

Les techniques d'analyse des données ou, plus précisément, de statistique exploratoire multidimensionnelle, sont utilisées pour l'étude descriptive de tableaux présentant un nombre de variables en lignes, individus, colonnes, variant de quelques dizaines à quelques milliers. La production de graphiques et indicateurs synthétiques permettent de résumer les structures et principales caractéristiques des ces tableaux de grand format. Les méthodes proposées viennent en complément d’outils élémentaires de statistique uni ou bidimensionnelle et sont souvent un préalable à une modélisation ou une approche inférentielle, décisionnelle ou prévisionnelle des données étudiées. Cette exploration présente un intérêt dans différents secteurs, industriel, recherche et développement, tertiaire.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

  • Philippe BESSE : Professeur à l'INSA de Toulouse - Institut de Mathématiques de Toulouse

  • Alain BACCINI : Ancien professeur à l’Université Paul Sabatier (Toulouse 3) - Institut de Mathématiques de Toulouse

INTRODUCTION

Les techniques d’analyse des données ou, plus précisément, de statistique exploratoire multidimensionnelle ont pour objectif l’étude descriptive des grands tableaux : n lignes, ou individus, ou unités statistiques, n variant de quelques dizaines à quelques milliers, voire millions, p colonnes, ou variables statistiques, où p varie de quelques dizaines à quelques milliers. Cet objectif est atteint par la production de graphiques et indicateurs synthétiques permettant de résumer les structures et principales caractéristiques de ces grands tableaux. Les méthodes proposées sont donc des techniques descriptives pour l’étude d’un grand nombre de variables et d’individus ; elles viennent en complément d’outils élémentaire de statistique uni- ou bidimensionnelle et sont souvent un préalable à une modélisation ou une approche inférentielle, décisionnelle ou prévisionnelle des données étudiées.

Le développement des moyens technologiques de mesure sont à l’origine de flux de données toujours en croissance et dont le stockage, comme l’analyse, sont rendus possibles par l’évolution conjointe des moyens de calcul. Les objectifs comme les champs d’application de l’exploration statistique de ces masses de données sont nombreux et très variés. Voyons quelques exemples de l’intérêt que cette exploration peut prendre dans différents secteurs :

  • dans le domaine industriel (agroalimentaire, microélectronique, construction mécanique…) où le suivi des procédés et la traçabilité des produits génèrent automatiquement des flux considérables de données. Une exploration statistique est un préalable à toute recherche de modélisation pour, par exemple, la mise en place d’une maîtrise statistique des procédés (MSP) ou la détection de défaillances ;

  • en amont, en recherche et développement où les besoins sont aussi importants : criblage virtuel de molécules dans l’industrie pharmaceutique, sensiométrie dans l’industrie agroalimentaire, sans parler de l’essor considérable des biotechnologies post-génomiques avec les données transcriptomiques, protéomiques… ;

  • dans le domaine tertiaire (banque, assurance, vente par correspondance, opérateurs de téléphonie…) et les services où les énormes fichiers de clientèle sont fouillés (data mining) à des fins marketing avec l’objectif de personnaliser la gestion de la relation client.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-af620

Lecture en cours
Présentation

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Autres méthodes factorielles

3.1 Analyse factorielle discriminante

HAUT DE PAGE

3.1.1 Objectifs

Pour cette méthode, les données sont constituées, d’une part, de p variables quantitatives X 1,…, Xp jouant le rôle de variables explicatives et, d’autre part, d’une variable qualitative T à m modalités {T 1,… Tm } jouant le rôle de variable à expliquer.

Deux techniques cohabitent sous la même appellation d’analyse discriminante. Une, descriptive, recherche, parmi toutes les ACP possibles sur les variables Xj , celle dont les représentations graphiques des individus « discriminent au mieux » les m classes engendrées par la variable T. L’autre, décisionnelle (ou de Fisher), construit un modèle de prévision de la classe d’un individu (modalité de T) à partir de l’observation des valeurs prises par les variables quantitatives Xj . Cette deuxième approche s’intègre aux méthodes dites de classification supervisée ou d’apprentissage statistique. Elle n’est pas abordée dans cet article mais, en revanche, l’approche descriptive ou analyse factorielle discriminante (AFD) est un préalable qui permet de représenter « au mieux » les classes et donc de s’intéresser graphiquement à la capacité des variables quantitatives à discriminer les classes de T.

L’explicitation de cette méthode factorielle est relativement technique, elle se base sur la décomposition de la matrice de covariances, somme de la matrice de covariances dite intraclasse (ou résiduelle, ou pooled within), moyenne pondérée des matrices de covariances de chaque classe, et de la matrice de covariances dite interclasse (ou expliquée, ou between), calculée sur les barycentres, ou centres de gravité des classes : S = S e + S r . Dans l’espace des individus, le principe consiste à projeter les individus dans une direction permettant de mettre en évidence les groupes. À cette fin, il faut privilégier la variance interclasse, au détriment de la variance intraclasse considérée comme due...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Autres méthodes factorielles

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BENZECRI (J.P.) -   L’analyse des données. L’analyse des correspondances  -  Dunod, Paris (1973).

  • (2) - BESSE (P.C.), CAUSSINUS (H.), FERRE (L.), FINE (J.) -   Principal component analysis and optimization of graphical displays  -  Statistics, 19, p 301-312 (1988).

  • (3) - BOUROCHE (J.M.), SAPORTA (G.) -   L’analyse des données  -  Que sais-je, P.U.F., Paris (1980).

  • (4) - CAILLIEZ (F.), PAGES (J.M.) -   Introduction à l’analyse des données  -  SMASH, Paris (1976).

  • (5) - CAUSSINUS (H.) -   *  -  . – Models and uses of principal component analysis, in Multidimensional Data Analysis, (Ed. de Leeuw, J. et al.), DSWO Press, p 149-170 (1986).

  • (6) - CELEUX (G.), DIDAY (E.), GOVAERT (G.), LECHEVALLIER (Y.) -   Classification automatique des données  -  Dunod, Paris (1989).

  • ...

1 Sites Internet

D’autres ressources (polycopiés, travaux pratiques, fonctions écrites en R) sont accessibles sur le site :

https://www.math.univ-toulouse.fr/

R Development Core Team R : A Language and Environment for Statistical Computing, R Foundation for Statistical Computing

http://www.R-project.org

HAUT DE PAGE

2 Pour en savoir plus

Les références générales et introductives les plus utiles pour ce thème sont : Bouroche & Saporta (1980), Jobson (1992), Lebart, Morineau & Piron (2006), Mardia, Kent & Bibby (1979), Saporta (2006). Des compléments et développements plus récents sont à rechercher dans : Droesbeke, Fichet & Tassi (1992), Govaert (2003).

HAUT DE PAGE
Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Fusion de données - Théorie et méthodes

La fusion des données consiste au développement de procédés de combinaison de données et d’information ...

Statistique inférentielle - Estimation

La statistique consiste de façon basique à recueillir et analyser des données. De façon plus ...

Géométrie stochastique

La géométrie stochastique traite des modèles et des propriétés stochastiques des ensembles géométriques ...

Processus stochastiques et fiabilité des systèmes

La sûreté de fonctionnement consiste en l’analyse quantitative des dangers potentiels de tout système ou ...