1.1 - De bonnes pratiques

3 - NETTOYER LES DONNÉES

5 - RESTER DANS UNE UTILISATION ÉTHIQUE

5.1 - Un rappel sur le droit des données
5.2 - Les Creative Commons

6 - NOTRE CONSEIL

6.1 - Procédez au nettoyage de vos données
6.2 - Présentez les résultats

7 - ERREURS À ÉVITER

7.1 - Ne présumez pas de vos forces et de votre temps

8 - GLOSSAIRE

Références

Fiche pratique | Réf : FIC1275 v1

Nettoyer les données
Le scraping, des méthodes et des outils au service de la veille

Auteur(s) : David COMMARMOND

Date de publication : 10 août 2024 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Présentation

Auteur(s)

David COMMARMOND : Chargé de mission, Réseau Acrie

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

La donnée est devenue le « pétrole » du XXI^e siècle. Malgré cette formule, de nombreuses entreprises ignorent encore qu’elles possèdent et qu’elles peuvent trouver sur le Web de gigantesques dépôts d’informations et de données sous-exploitées ou dormant. Des entrepôts qui se sont stratifiés au cours des décennies d’évolution technique et qui, peu à peu, au gré de la vie des entreprises, ont connu diverses destinées, parfois disparues, souvent oubliées. Les questions de cybersécurité ont toutefois engagé une réflexion sur le sujet.

Le « grattage Web » peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :

screen scraping ;
collecte de données et collecte de données automatisée ;
Data Mining ;
grattage de site Web ;
extraction des données ;
données Crawling.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-fic1275

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(450 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Choisir les langages et les outils

3. Nettoyer les données

Cette opération repose sur un postulat, résumé souvent par « garbage in, garbage out » : si les éléments sont sales à l’entrée, le résultat ne peut être que sale à la sortie. Les opérations de nettoyage sont essentielles et peuvent être importantes. Elles peuvent être faites par des « moulinettes », des processus de traitement qui corrigent automatiquement les données nouvellement collectées, traitées et intégrées. C’est ici qu’intervient tout le talent de l’humain et depuis peu de l’intelligence artificielle, ainsi que les capacités de l’auteur à opérer ce travail.

Pour l’essentiel, les méthodes de nettoyage sont fortement corrélées aux technologies et aux évolutions techniques. On peut en faire un petit parcours.

La méthode antédiluvienne très « Web 1.0 » pour des internautes, qui se basait surtout sur des sources de sites existants, consistait à récupérer de manière ad hoc les données sur le Web (copier-coller), le code source des pages ou le texte interprété par le navigateur et à les recopier dans le fichier XLS ou texte. Ce « screen scraping » présentait l’inconvénient d’être lourd, fastidieux, donc limité à un traitement manuel et ponctuel. Cette méthode est quasiment révolue.

Avec l’arrivée des sites dynamiques, le Web s’est encore complexifié ; l’interrogation en ligne de bases de données est devenue possible. Elle s’est professionnalisée par le biais des développeurs et des journalistes, notamment les data-journalistes. Et le mouvement pour la libéralisation des données qui a accompagné le Web 2.0 a contribué à donner plus d’ampleur au phénomène.

Aujourd’hui, grâce à ces deux mouvements, le scraping est une technique qui s’apprend au sein de formations gratuites ou payantes telles celles proposées par le CEPE (suivre les rubriques marketing quantitatif, et en bas du document suivre le lien « Extraction de données sur le WEB ») et depuis plusieurs années par l’intermédiaire des MOOC. Ces formations, destinées aux professionnels de l’information, peuvent être aussi utiles au grand public ayant des bases en programmation.

Le nettoyage consistera à homogénéiser les informations – ici règne l’arbitraire de l’humain –,...

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(450 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Nettoyer les données

Page
précédenteOrganiser ses données

Page
suivante

Choisir les langages et les outils

DANS NOS BASES DOCUMENTAIRES

Optimiser son navigateur Internet avec des Add-ons

ANNEXES

1 Bibliographie

1 Bibliographie

Mathieu Andro
Nicolas Vigneron
Using Scrapy to acquire online data and export to multiple output files, Matthew J. Holland.
Data Mining, explorer les données du Data Warehouse par Alain Fernandez
A web scraping toolkit for journalists, Ebook de Kira Schacht

HAUT DE PAGE

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(450 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Nettoyer les données Le scraping, des méthodes et des outils au service de la veille

Auteur(s)

INTRODUCTION

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

DOI (Digital Object Identifier)

3. Nettoyer les données

Cet article est réservé aux abonnés.Il vous reste 93% à découvrir.

L'expertise technique et scientifique de référence

DANS NOS BASES DOCUMENTAIRES

ANNEXES

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

Nettoyer les données
Le scraping, des méthodes et des outils au service de la veille

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 93% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.