Conclusion
Détection et correction des problèmes de qualité de données par apprentissage automatique

H3701 v1 Article de référence

Conclusion
Détection et correction des problèmes de qualité de données par apprentissage automatique

Auteur(s) : Laure BERTI-ÉQUILLE

Relu et validé le 19 nov. 2024 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Présentation

1 - Impacts de la qualité des données en apprentissage automatique

1.1 - Impact sur les résultats de classification
1.2 - Impact sur les résultats de régression
- Quiz d'entraînement

2 - Détection et correction par apprentissage automatique

2.1 - Détection des anomalies par apprentissage
2.2 - Correction des erreurs par apprentissage
- Quiz d'entraînement
Tableau 2
2.3 - Application à la déduplication
- Quiz d'entraînement

3 - Conclusion

RÉSUMÉ

Cet article présente l’évolution récente des techniques d’évaluation et d’amélioration de la qualité des données basées sur des méthodes d’apprentissage automatique. Il décrit les solutions issues principalement du monde de la recherche ainsi que des approches mises en œuvre pour détecter et corriger les principaux problèmes de qualité des données que sont les données aberrantes, incohérentes ou manquantes et les doublons.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Laure BERTI-ÉQUILLE : Directrice de Recherche - Institut de Recherche pour le Développement - ESPACE-DEV - Montpellier, France

INTRODUCTION

Des progrès significatifs ont été accomplis ces dernières années dans la conception d’outils permettant d’automatiser l’évaluation, le suivi et l’amélioration de la qualité des données, notamment grâce aux avancées technologiques de l’Intelligence Artificielle, et en particulier, de l’apprentissage automatique (ML – Machine Learning). Les techniques d’apprentissage ont été rendues opérationnelles à grande échelle et largement déployées dans tous les secteurs d’activités afin d’automatiser les tâches de prédiction et de classification en aide à la décision pour de nombreux domaines d’application (santé, finance, marketing, etc.). La fiabilité des résultats de ces méthodes demeure cependant très dépendante de la qualité des données en entrée des modèles d’apprentissage. Les données sont souvent imparfaites et la qualité des données optimale est rarement au rendez-vous. Ainsi, deux approches complémentaires sont communément proposées : l’une émanant de la communauté de recherche en gestion des données visant à corriger les données en amont des chaînes d’analyse (par nettoyage ou réparation des données) et l’autre issue de la communauté des chercheurs et praticiens en apprentissage (data scientists) visant à développer des modèles plus robustes au bruit et plus performants en mettant davantage l’accent sur la transformation et la préparation des données en fonction d’une tâche prédictive particulière.

Pendant des décennies, pour la communauté spécialisée en gestion des données, le nettoyage des données a consisté à corriger et transformer les données par des approches déclaratives de type ETL (Extraction-Transformation-Loading) , à détecter les incohérences dans les bases de données relationnelles sous forme de violation de contraintes, à les « réparer » et à proposer des solutions souvent théoriques permettant le raisonnement à partir des données incohérentes, leur interrogation, la vérification et la satisfaction de contraintes d’intégrité , la découverte de dépendances fonctionnelles ou de règles métier dans le but de corriger la base en un nombre minimal de mises à jour , d’éliminer les doublons ou de retourner une réponse cohérente aux requêtes .

Dans la pratique, les analystes confrontés à des anomalies dans leurs jeux de données utilisent, quant à eux, des chaînes de prétraitement permettant de préparer et transformer les données pour qu’elles soient conformes aux attendus des modèles employés . Ils utilisent un ensemble de transformations automatiques et de procédures d’étiquetage souvent manuelles. En pratique, l’approche la plus courante consiste soit à exclure de l’analyse les données en erreur, soit à les gérer séparément en utilisant souvent plusieurs méthodes pour la détection et le remplacement des erreurs.

Dans cet état de l’art (qui ne saurait être exhaustif), notre objectif est de montrer :

1) que les erreurs dans les données peuvent considérablement affecter les résultats des modèles d’apprentissage ;

et 2) qu’il existe de nombreuses techniques d’apprentissage permettant détecter les anomalies et les corriger de façon semi- voire totalement automatique et nous en ferons un rapide tour d’horizon limité au cas des données structurées sous forme de tables.

Les perspectives de recherche et de développement sont nombreuses pour évaluer la qualité des données complexes, notamment multimodales et spatio-temporelles (incluant, par exemple, texte, image, audio, vidéo, série temporelle géolocalisée), car assez peu de travaux existent aujourd’hui pour combiner ces différents signaux, détecter et corriger les anomalies en croisant les modalités. Les techniques d’apprentissage automatique offrent de nombreux avantages grâce à des représentations sous forme vectorielle (tenseurs, plongements (embeddings)) permettant ainsi d’analyser conjointement différents types de données et d’exploiter leurs caractéristiques latentes, ouvrant ainsi la voie à de nouvelles perspectives de recherche et d’innovation.

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

apprentissage automatique qualité des données science des données détection d'anomalies nettoyage des données gestion de la qualité des données réparation de données

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h3701

Lecture en cours
Présentation

Page
suivante

Impacts de la qualité des données en apprentissage automatique

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Conclusion

Le nettoyage et la préparation des données visant à améliorer la qualité des données sont largement considérés comme un élément essentiel, préalable à l’application des techniques d’apprentissage automatique, car les erreurs dans les données impactent directement les performances des modèles prédictifs et la validité de leurs résultats. Traditionnellement, les solutions issues de la recherche pour le nettoyage des données se concentraient sur la correction des problèmes de qualité « dans l’absolu », parfois indépendamment de l’application utilisant les données. Dans un contexte industriel, l’application des techniques de nettoyage de données est souvent déterminée par des exigences de réduction de coûts associés aux données de mauvaise qualité ou de gain en performance, en fonction d’indicateurs mesurables (KPI - Key Performance Indicators). Depuis l’essor de l’intelligence artificielle et la démocratisation de l’application des méthodes d’apprentissage, le nettoyage des données est désormais associé à l’étape de transformation et de préparation des données pour que celles-ci soient conformes aux attendus des modèles et permettent d’en améliorer les performances (en termes de score F1, AUC, par exemple). Les techniques d’apprentissage peuvent être mises œuvre pour automatiser à grande échelle la correction des données. Cet article a présenté différentes approches de détection des anomalies et de correction basées sur des méthodes d’apprentissage automatique. Ces approches se sont jusqu’ici principalement concentrées sur les données structurées et textuelles. Les défis sont désormais de pouvoir évaluer et améliorer la qualité des données combinant plusieurs modalités (texte, image, vidéo, audio, données spatio-temporelles). Les modèles d’apprentissage génératifs offrent, à ce titre, un fort potentiel pour corriger et préparer au mieux les données multimodales en les transformant en des représentations sémantiquement significatives et en permettant une analyse conjointe. Ceci ouvre la voie à de nouvelles perspectives de recherche et de développement pour améliorer la qualité des données au-delà des bases de données relationnelles.

...

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

Lecture en cours
Conclusion

Page
précédenteDétection et correction par apprentissage automatique

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(235 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

BIBLIOGRAPHIE

(1) - BARBER (R.F.), CANDES (E.J.), RAMDAS (A.), TIBSHIRANI (R.) - Predictive inference with the Jackknife+. - Ann. Statist., 49(1):486-507, February 2021.
(2) - BARNETT (V.), LEWIS (T.) - Outliers in statistical data. – - John Wiley and Sons (1994).
(3) - BELKIN (M.), HSU (D.J.), MITRA (P.) - Overfitting or perfect fitting? Risk bounds for classification and regression rules that interpolate. - In Proceedings of the 37th Conference on Neural Information Processing Systems (NeurIPS), pp. 2306-2317 (2018).
(4) - BERTI-EQUILLE (L.) - Learn2Clean: Optimizing the sequence of tasks for Web data preparation. - In Proceedings of the Web Conference, pp. 2580-2586, San Francisco, CA, USA, May 2019.
(5) - BERTOSSI (L.) - Database repairing and consistent Query answering. - Morgan & Claypool Publishers (2011).

DANS NOS BASES DOCUMENTAIRES

1 Événements

Conférences internationales :

Very Large Databases (VLDB) Conference: http://vldb.org/conference.html
ACM SIGMOD (Special Interest Group on Management of Data): https://dl.acm.org/event.cfm?id=RE227
ACM KDD: Knowledge Discovery and Data Mining Conferences: https://www.kdd.org/conferences/
NeurIPS: Neural Information Processing Systems: https://nips.cc/
ICLR: International Conference on Learning Representations https://iclr.cc/
ICDM IEEE International Conference on Data Mining (ICDM) https://ieeexplore.ieee.org/xpl/conhome/1000179/all-proceedings
ICDE International Conference on Data Engineering https://ieeexplore.ieee.org/xpl/conhome/1000178/all-proceedings
ECML PKDD European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases https://ecmlpkdd.org/