6. Gérer des problèmes spécifiques : doublons, valeurs manquantes, incomplètes et exceptions
Dans cette section, nous nous intéressons plus particulièrement au cas des doublons, des valeurs manquantes et des valeurs aberrantes ou isolées en présentant dans une certaine limite à l’exhaustivité, l’ensemble des méthodes et techniques issues des travaux de recherche dans le domaine.
6.1 Jointures approximatives et élimination des doublons
Dans le cas d’une intégration de plusieurs sources d’information (en l’occurrence l’intégration de bases de données relationnelles), il est nécessaire d’associer plusieurs tables au moyen de jointures pour lesquelles souvent on ne dispose pas de clés communes exactes. Lors d’une recherche de doublons sur une seule table, il est nécessaire de procéder par auto jointure : bien que les clés puissent identifier de façon unique chaque enregistrement de la table, plusieurs enregistrements peuvent pourtant décrire la même réalité : dans notre exemple précédent, les enregistrements ass21 et ass22 de la source ASS décrivent la même personne avec deux clés distinctes. Ainsi pour détecter les doublons, la technique de jointure approximative est recommandée [12, 16]. D’après...
La suite de cet article est réservée aux abonnés
Vous n'êtes pas abonné ?
Consultez gratuitement cet article.
votre période de consultation gratuite
Découvrez le plus important corpus scientifique et technique francophone
Plus de 8 000 articles, 13 univers, 400 bases documentaires, les plus grands auteurs, un enrichissement permanent et un éventail de services associés.
