Objet du data mining
Extraction de connaissances à partir de données (ECD)

H3744 v1 Article de référence

Objet du data mining
Extraction de connaissances à partir de données (ECD)

Auteur(s) : Djamel Abdelkader ZIGHED, Ricco RAKOTOMALALA

Date de publication : 10 nov. 2002 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Valoriser les données

2 - Facteurs d’émergence du data mining

2.1 - Volume des bases de données
2.2 - Rapport à la clientèle

3 - Évolution des technologies informatiques de la décision

4 - Objet du data mining

5 - Extraction de connaissances à partir de données

5.1 - Niveau opérationnel et décisionnel
5.2 - Niveau analyse

6 - Phase d’acquisition de données

6.1 - Acquisition
6.2 - Prétraitement

7 - Phase de fouille de données

7.1 - Méthodes de visualisation et de description

Figure 7 - Représentations graphiques Figure 8 - Cube de données Figure 11 - Arbre de description
7.2 - Méthodes de structuration et de classification

Figure 14 - Méthodes de structuration
7.3 - Méthodes d’explication et de prédiction

Figure 16 - Méthodes polythétiques Figure 18 - Arbre de décision Figure 19 - Arbre à deux niveaux Figure 20 - Réseau multicouche

8 - Phase de validation et de mise en forme

9 - Données spécifiques

9.1 - Text mining
9.2 - Image mining
9.3 - Multimedia mining
9.4 - Web mining

10 - Grandes applications

10.1 - Gestion de relation client
10.2 - Aide à la décision dans les processus industriels
10.3 - Génomique

11 - Conclusion

Auteur(s)

Djamel Abdelkader ZIGHED : Professeur à l’université Lumière (Lyon-II) Laboratoire Équipe de recherche en ingénierie des connaissances (ERIC)
Ricco RAKOTOMALALA : Maître de conférences à l’université Lumière (Lyon-II) Laboratoire ERIC

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Le « data mining », dans sa forme et sa compréhension actuelle, comme champ à la fois scientifique et industriel, est apparu au début des années 1990. Cette émergence n’est pas le fruit du hasard mais le résultat de la combinaison de nombreux facteurs à la fois technologiques, économiques et même sociopolitiques.

On peut voir le « data mining » comme une nécessité imposée par le besoin des entreprises de valoriser les données qu’elles accumulent dans leurs bases. En effet, le développement des capacités de stockage et les vitesses de transmission des réseaux ont conduit les utilisateurs à accumuler de plus en plus de données. Certains experts estiment que le volume des données double tous les ans. Que doit-on faire avec ces données coûteuses à collecter et à conserver ?

Les contours

Une confusion subsiste encore entre « data mining », que nous appelons en français « fouille de données » et « knowledge discovery in data bases » (KDD), que nous appelons en français « extraction de connaissances à partir de données » (ECD). Le « data mining » est l’un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Sous forme imagée, nous pourrions dire que l’ECD est un véhicule dont le « data mining » est le moteur.

Le « data mining » est l’art d’extraire des connaissances à partir de données. Les données peuvent être stockées dans des entrepôts (« data warehouse »), dans des bases de données distribuées ou sur Internet (« web mining »). Le « data mining » ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel (« text mining »), les images (« image mining »), le son (« sound mining ») ou la vidéo et dans ce cas, on parle alors plus généralement de « multimedia mining ».

L’ECD, par le biais du « data mining », est alors vue comme une ingénierie pour extraire des connaissances à partir de données.

La démarche

L’ECD est un processus complexe qui se déroule suivant une suite d’opérations. Des étapes de prétraitement ont lieu avant le « data mining » proprement dit. Le prétraitement porte sur l’accès aux données en vue de construire des « datamarts », des corpus de données spécifiques. Le prétraitement concerne la mise en forme des données entrées selon leur type (numérique, symbolique, image, texte, son), ainsi que le nettoyage des données, le traitement des données manquantes, la sélection d’attributs ou la sélection d’instances. Cette première phase est cruciale car du choix des descripteurs et de la connaissance précise de la population va dépendre la mise au point des modèles de prédiction. L’information nécessaire à la construction d’un bon modèle de prévision peut être disponible dans les données mais un choix inapproprié de variables ou d’échantillons d’apprentissage peut faire échouer l’opération.

Les outils

Le « data mining », dans sa définition restreinte, opère sur des tables bidimensionnelles, appelées « datamarts », et fait appel à trois grandes familles de méthodes issues de la statistique, de l’analyse des données, de la reconnaissance de formes ou de l’apprentissage automatique. Ces méthodes couramment utilisées ou présentées comme faisant partie de l’arsenal du « data miner » sont :
- les méthodes de description uni-, bi- et multidimensionnelles : numériques, pour la plupart, elles sont issues de la statistique descriptive et de l’analyse des données, ainsi que des techniques de visualisation graphique dont certaines font appel à la réalité virtuelle et à des métaphores calquées sur le modèle mental humain ;
- les méthodes de structuration qui regroupent toutes les techniques d’apprentissage non supervisé et de classification automatique provenant des domaines de la reconnaissance de formes, de la statistique, de l’apprentissage automatique et du « connexionisme » (approche de modélisation basée sur l’utilisation des réseaux neuromimétiques) ;
- les méthodes explicatives dont le but est de relier un phénomène à expliquer à un phénomène explicatif : généralement mises en œuvre en vue d’extraire des modèles de classement ou de prédiction, ces méthodes descendent de la statistique, de la reconnaissance de formes, de l’apprentissage automatique et du « connexionisme », voire du domaine des bases de données dans le cas de la recherche de règles d’association.
En dehors du champ des statisticiens, nous assistons à l’émergence d’outils plutôt que de méthodes exploratoires. On peut ainsi citer les algorithmes de recherche de règles d’association dans les grandes bases de données. Les premiers algorithmes proposés dans ce domaine ont fait sourire des membres de la communauté des statisticiens et des spécialistes de l’induction en raison de la naïveté du matériel méthodologique qui était alors utilisé. Par la suite, ces problèmes ont été ramenés dans un cadre méthodologique plus général, faisant par exemple usage de parcours de treillis de Gallois ou de recherche de décomposition optimale d’une relation binaire par des relations dites maximales.

Les résultats et les applications

L’objectif de la mise en œuvre des techniques de « data mining » est d’aboutir à des connaissances opérationnelles. Ces connaissances sont exprimées sous forme de modèles plus ou moins complexes : une série de coefficients pour un modèle de prévision numérique, des règles logiques du type « si Condition alors Conclusion » ou des instances. Pour que ces modèles acquièrent le statut de connaissances, ils doivent être validés. Il s’agit alors de mettre en œuvre une série d’opérations dites de posttraitement qui visent à évaluer la validité des modèles, à les rendre intelligibles s’ils doivent être utilisés par l’humain ou à les exprimer dans un formalisme approprié pour être compréhensibles par une machine. Au-delà de la validation statistique, l’intelligibilité des modèles est souvent un critère de leur survie. En effet, un modèle compris par l’usager sera utilisé et par conséquent critiqué et perfectionné. Les utilisateurs n’aiment généralement pas employer de modèles sous forme de « boîtes noires ».

Une question importante, dans le domaine du « data mining », est de pouvoir répondre du choix de l’outil approprié en regard du problème à résoudre. Selon le type de problème, il existe de nombreuses méthodes de « data mining » concurrentes. Un consensus général semble se dégager pour reconnaître qu’aucune méthode ne surpasse les autres car elles ont toutes leurs forces et leurs faiblesses spécifiques. Il semble plus avantageux de faire coopérer des méthodes comme nous le ferions avec une équipe de spécialistes.

Les techniques de « data mining » ont été employées avec beaucoup de succès dans de grands secteurs d’application : la gestion de la relation client (GRC) – ou « customer relationship management » (CRM) –, la gestion des connaissances – « knowledge management » – ou l’indexation de documents. Aucun domaine d’application n’est a priori exclu car dès que nous sommes en présence de données empiriques, le « data mining » peut rendre de nombreux services.

Les limites

Le « data mining » est un domaine à la fois scientifique et technologique récent qui a encore de nombreux défis à relever. La communauté des chercheurs dans ce domaine s’intéresse ainsi à des problèmes tels que la recherche de bons espaces de représentation ou l’agrégation de prédicteurs.

La rédaction de cet article a été possible grâce au soutien et aux nombreuses contributions des chercheurs :
- Nadir BELKHITER, professeur à l’université de Laval (Québec, Canada) et professeur invité à l’université Lumière (Lyon-II) pendant l’année 2001-2002 ;
- Salima HASSAS, maître de conférences à l’université Claude-Bernard (Lyon-I) ;
- Fadila BENTAYEB, Omar BOUSSAID, Jérôme DARMONT, Sabine RABASÉDA, maîtres de conférences à l’université Lumière et membres du groupe Bases de données décisionnelles du laboratoire ERIC ;
- Fabrice MUHLENBACH, Jérémy CLECH, doctorants au laboratoire ERIC.

Qu’ils soient tous très chaleureusement remerciés.

Nous tenons également à exprimer nos remerciements à tous les membres du laboratoire ERIC qui ont, par leur encouragement et leur disponibilité, facilité la production de cet article.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3744

Lecture en cours
Présentation

Page
suivante

Extraction de connaissances à partir de données

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

4. Objet du data mining

Les bases de données ou les entrepôts de données atteignent des volumes de plusieurs téraoctets (1 téraoctet = 10¹² octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs téraoctets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L’une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d’analyse pour chercher s’il existe un profil comportemental typique des clients qui changent de fournisseur. L’entreprise pourra ainsi repérer plus facilement, parmi ses clients, ceux qui ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder.

Le data mining est un processus qui fait intervenir des méthodes et des outils issus de différents domaines de l’informatique, de la statistique ou de l’intelligence artificielle en vue de découvrir des connaissances utiles.

Quand nous parlons d’ECD ou de data mining, nous sous-entendons le fait qu’il y a nécessairement une présence de grandes bases de données. Par ailleurs, dans les situations où on employait traditionnellement l’expression « analyse de données », peut-être par un effet de mode, est maintenant plutôt fait usage de l’expression « data mining ».

Comme le montre la figure 4, l’ECD est un processus itératif qui met en œuvre un ensemble de techniques provenant des bases de données, de la statistique, de l’intelligence artificielle, de l’analyse de données, des interfaces de communication homme-machine. L’ECD vise à transformer des données (volumineuses, multiformes, stockées sous différents formats sur des supports pouvant être distribués) en connaissances. Ces connaissances peuvent s’exprimer sous forme d’un concept général qui enrichit le champ sémantique de l’usager par rapport à une question qui le préoccupe. Elles peuvent prendre la forme d’un rapport ou d’un graphique. Elles peuvent s’exprimer comme un modèle mathématique ou logique pour la prise de décision. Les modèles explicites, quelle que soit leur...