Contactez-nous
Prévention et diagnostic : techniques de détection des anomalies
Qualité des données
H3700 v1 Archive

Prévention et diagnostic : techniques de détection des anomalies
Qualité des données

Auteur(s) : Laure BERTI-ÉQUILLE

Date de publication : 10 août 2006

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - La gestion de la qualité des données à la convergence de plusieurs disciplines

  • 1.1 - Les bases de données
  • 1.2 - Les statistiques et la fouille de données
  • 1.3 - La gestion de processus

2 - Approches générales et cas pratique pour détecter et corriger les problèmes de qualité des données

3 - Mesurer la qualité du modèle et des données

4 - Prévention et diagnostic : techniques de détection des anomalies

5 - Correction : nettoyage des données

6 - Gérer des problèmes spécifiques : doublons, valeurs manquantes, incomplètes et exceptions

7 - Conclusion

Sommaire

Présentation

RÉSUMÉ

De plus en plus, sont relevées des situations alarmantes liées à des problèmes de qualité des données stockées dans des bases ou des systèmes d’information commerciaux, industriels, hospitaliers ou universitaires. Cette non-qualité des données, erreurs, incohérences, valeurs manquantes, non fiables ou aberrantes entraîne des coûts financiers considérables. Des solutions fondées et validées existent pour combattre cette problématique récurrente. Cet article recense ces solutions et leurs modes d’action (prévention, diagnostic, détection, correction…), ainsi que l’avancée des recherches en la matière.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

INTRODUCTION

Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non) et dans tous les domaines d’application : données gouvernementales, commerciales, industrielles ou scientifiques. Il s’agit en particulier d’erreurs sur les données, de doublons, d’incohérences, de valeurs manquantes, incomplètes, incertaines, obsolètes, aberrantes ou peu fiables. Les conséquences de la non-qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables : de l’ordre de 611 milliards de dollars par an pour l’économie américaine selon un rapport du TDWI (The Data Warehousing Institute) en 2002. Avec la multiplication des sources d’informations disponibles et l’accroissement des volumes de données potentiellement accessibles, la qualité des données et, plus largement, la qualité des informations ont pris une place de premier plan, d’abord, au sein des entreprises et, depuis ces dix dernières années, dans le monde académique [31, 2, 8, 28, 34]. Il n’est plus question de « laisser-faire », c’est-à-dire, utiliser aveuglément les données sans en connaître la qualité et les laisser se dégrader. Il est urgent de proposer des solutions théoriques et pratiques aux multiples problèmes de qualité des données (voir tableau 1).

L’objet de ce dossier est de présenter une synthèse des solutions proposées et les perspectives de recherche actuelles pour le contrôle et la gestion de la qualité des données dans les bases et entrepôts de données.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3700

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(234 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

4. Prévention et diagnostic : techniques de détection des anomalies

Comme nous l’avons évoqué précédemment, la prévention et le diagnostic reposent essentiellement sur la définition et la mise en œuvre préalables de contraintes et de procédures de vérifications automatiques de la cohérence des données.

4.1 Vérification de contraintes et gestion des métadonnées associées à la qualité

De façon concrète, différents niveaux de contrôle (voir figure 6) peuvent être implémentés au dessus d’une base ou d’un entrepôt de données : du plus simple comptage à des analyses statistiques sophistiquées. Tout d’abord, dans le contexte d’un base relationnelle, des contraintes peuvent être formulées par des assertions (SQL check) (A), ensuite, selon les possibilités offertes par le système de gestion de base de données, des triggers peuvent être déclarés en SQL se déclenchant automatiquement dès qu’une contrainte n’est plus satisfaite sur les données de la base (B). Lors d’un requêtage ciblé, des vues avec vérification de contraintes pourront être également déclarées (C). Un peu plus évoluées car alliant la puissance d’un langage de programmation, des procédures stockées (stored procedures) (en PL/SQL par exemple) pourront automatiser des vérifications et analyses sur les données (D).

S’éloignant du « noyau » du système de gestion de la base de données, plusieurs programmes pourront assurer la vérification des données dès la saisie soit au niveau des modules d’accès (E), du code de l’application qui permet d’accéder aux données (F) ou de l’interface utilisateur (G), la possibilité de valider manuellement les données restant réservée, par un accès restreint, à l’administrateur de la base ou à « l’intendant » des données (K). Lors de l’import de données issues d’une source externe, des programmes de prévalidation (H) et de nettoyage (J) des données permettront de contrôler et corriger la qualité des données importées. Des programmes de validation a posteriori pourront par la suite mettre en œuvre des tests, analyses statistiques pour vérifier les données de la base et procéder éventuellement à des actions correctives (J). Un historique des contrôles,...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Prévention et diagnostic : techniques de détection des anomalies

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(234 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BARNETT (V.), LEWIS (T.) -   Outliers in Statistical Data.  -  John Wiley and Sons (1994).

  • (2) - BATINI (C.), CATARCI (T.), SCANNAPICECO (M.) -   A survey of data quality issues in cooperative information systems;  -  tutorial présenté à International Conference on Conceptual Modeling (ER) (2004).

  • (3) - BREUNIG (M.), KRIEGEL (H.), NG (R.), SANDER (J.) -   LOF: Identifying density-based local outliers;  -  International Conference ACM SIGMOD, p. 93-104 (2000).

  • (4) - BERTI-ÉQUILLE (L.) -   Modelling and measuring data quality for quality-awareness in data mining,  -  Quality Measures in Data Mining, Studies in Computational Intelligence, F. Guillet and H. Hamilton (eds), Springer (June 2006).

  • (5) - CARUSO (F.), COCHINWALA (M.), GANAPATHY (U.), LALK (G.), MISSIER (P.) -   Telcordia’s database reconciliation and data quality analysis tool;  -  International Conference on Very Large databases (VLDB), p. 615-618 (2000).

  • ...

ANNEXES

  1. 1  
    Logo Techniques de l'Ingenieur

    Cet article est réservé aux abonnés.
    Il vous reste 95 % à découvrir.

    Pour explorer cet article Consulter l'extrait gratuit

    Déjà abonné ?


    Article inclus dans l'offre

    "Technologies logicielles Architectures des systèmes"

    (234 articles)

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques.

    Des contenus enrichis

    Quiz, médias, tableaux, formules, vidéos, etc.

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

    Des avantages inclus

    Un ensemble de services exclusifs en complément des ressources.

    Voir l'offre

    Ressources documentaires

    Détection et correction des problèmes de qualité de données par apprentissage automatique

    Cet article présente l’évolution récente des techniques d’évaluation et d’amélioration de la qualité des ...

    Technologies d’identification et d’authentification pour un système de traçabilité

    La traçabilité consiste à retrouver à tout moment l’historique des événements de la vie d’un produit au ...

    Stratégies et organisations numériques et collaboratives des entreprises

    Cet article vise à dresser un bilan provisoire des avancées de la digitalisation des métiers de la ...