Conclusion
Qualité des données

H3700 v1 Archive

Conclusion
Qualité des données

Auteur(s) : Laure BERTI-ÉQUILLE

Date de publication : 10 août 2006

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - La gestion de la qualité des données à la convergence de plusieurs disciplines

1.1 - Les bases de données
1.2 - Les statistiques et la fouille de données
1.3 - La gestion de processus

2 - Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

3 - Mesurer la qualité du modèle et des données

3.1 - Évaluer la qualité d’un modèle conceptuel de données
3.2 - Mesurer la qualité d’une base de données relationnelle

4 - Prévention et diagnostic : techniques de détection des anomalies

4.1 - Vérification de contraintes et gestion des métadonnées associées à la qualité

Tableau 5
4.2 - Analyse statistique et fouille de données exploratoire

5 - Correction : nettoyage des données

5.1 - Extension des langages de manipulation des données pour l’extraction et la transformation

Tableau 6 Tableau 7 Tableau 8
5.2 - Standardisation des valeurs d’attributs avec les modèles de Markov
5.3 - Comparatif des outils actuels pour le nettoyage

6 - Gérer des problèmes spécifiques : doublons, valeurs manquantes, incomplètes et exceptions

6.1 - Jointures approximatives et élimination des doublons

Tableau 9 Tableau 10 Tableau 11
6.2 - Valeurs manquantes

Tableau 12 Tableau 13 Tableau 14 Tableau 15
6.3 - Détecter les valeurs aberrantes ou isolées

7 - Conclusion

RÉSUMÉ

De plus en plus, sont relevées des situations alarmantes liées à des problèmes de qualité des données stockées dans des bases ou des systèmes d’information commerciaux, industriels, hospitaliers ou universitaires. Cette non-qualité des données, erreurs, incohérences, valeurs manquantes, non fiables ou aberrantes entraîne des coûts financiers considérables. Des solutions fondées et validées existent pour combattre cette problématique récurrente. Cet article recense ces solutions et leurs modes d’action (prévention, diagnostic, détection, correction…), ainsi que l’avancée des recherches en la matière.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Laure BERTI-ÉQUILLE : Maître de Conférences, Université de Rennes I

INTRODUCTION

Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non) et dans tous les domaines d’application : données gouvernementales, commerciales, industrielles ou scientifiques. Il s’agit en particulier d’erreurs sur les données, de doublons, d’incohérences, de valeurs manquantes, incomplètes, incertaines, obsolètes, aberrantes ou peu fiables. Les conséquences de la non-qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables : de l’ordre de 611 milliards de dollars par an pour l’économie américaine selon un rapport du TDWI (The Data Warehousing Institute) en 2002. Avec la multiplication des sources d’informations disponibles et l’accroissement des volumes de données potentiellement accessibles, la qualité des données et, plus largement, la qualité des informations ont pris une place de premier plan, d’abord, au sein des entreprises et, depuis ces dix dernières années, dans le monde académique [31, 2, 8, 28, 34]. Il n’est plus question de « laisser-faire », c’est-à-dire, utiliser aveuglément les données sans en connaître la qualité et les laisser se dégrader. Il est urgent de proposer des solutions théoriques et pratiques aux multiples problèmes de qualité des données (voir tableau 1).

L’objet de ce dossier est de présenter une synthèse des solutions proposées et les perspectives de recherche actuelles pour le contrôle et la gestion de la qualité des données dans les bases et entrepôts de données.

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

VERSIONS

Il existe d'autres versions de cet article :

Version courante de oct. 2018 par Laure BERTI-ÉQUILLE

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3700

Lecture en cours
Présentation

Page
suivante

La gestion de la qualité des données à la convergence de plusieurs disciplines

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

7. Conclusion

De nombreux cas décrits dans la littérature et dans la presse scientifique, révèlent de nombreuses situations alarmantes liées aux enjeux de la qualité des données dans les bases, entrepôts de données et systèmes d’information commerciaux, médicaux, du domaine public ou de l’industrie. Les approches jusqu’ici mises en œuvre sont le plus souvent ad hoc, fragmentées et spécifiques à des domaines d’application relativement cloisonnés. Des solutions théoriquement fondées et validées en pratique sont aujourd’hui très attendues pour évaluer et contrôler la qualité des données. Plusieurs verrous scientifiques dans ce domaine ont été identifiés [8, 2] et ils expliquent d’ailleurs les limitations des outils actuellement disponibles. À titre indicatif, en voici les principaux :

• l’hétérogénéité et la diversité des données multisources à intégrer : les données sont extraites de différentes sources d’informations puis intégrées alors qu’elles possèdent différents niveaux d’abstraction (d’une donnée brute à un agrégat). Les données sont intégrées au sein d’un même jeu de données qui contient donc potentiellement une superposition de plusieurs traitements statistiques. Ceci nécessite une très grande précaution dans l’analyse de ces données. Les jointures entre les différents jeux de données sont difficiles (quand elles ne sont pas totalement faussées) par le problème de l’identification non ambiguë des données et l’impact des données manquantes ;
• les volumes de données manipulées et le problème de passage à l’échelle des techniques de mesure et de détection : si certaines méthodes statistiques sont tout-à-fait adaptées pour fournir des résumés décrivant la qualité de grandes quantités de données numériques, elles s’avèrent inefficaces sur des données multidimensionnelles en grandes dimensions ;
• la richesse et la complexité des données telles que les séries temporelles, les données extraites de pages Web (web-scrapped) et les données textuelles ou multimédias (combinant texte, audio, vidéo, image) pour lesquelles on ne dispose pas (ou très peu) de métriques de la qualité ;
• la...