Le scraping, un nouvel outil au service de la veille : Dossier complet

Présentation

Auteur(s)

David COMMARMOND : Chargé de mission, Réseau Acrie

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

MOTS-CLÉS

DOI (Digital Object Identifier)

https://doi.org/10.51257/f-1275

Lire la fiche

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(415 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Présentation

Page
suivante

Le web est un gigantesque dépôt d’informations et de données destinées à être consultées, éventuellement partagées ou commentées sur un navigateur Web. Ce dépôt est changeant, impermanent, parcellaire. Ce qu’il contient ne répond pas toujours à nos besoins, parfois un peu plus ou un peu moins, et nécessite de temps à autre un coup de neuf. Le grattage Web peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :

screen scraping ;
collecte de données et collecte de données automatisée ;
Data Mining
grattage de site Web ;
extraction des données ;
données Crawling ;
site Web Ripper.

Étapes :

1 - Cadrez votre pratique du scraping
2 - Comment organiser ses données ?
3 - Les méthodes de nettoyage
4 - Quels langages et outils utiliser ?
5 - Que faire avec des données publiques ? sont-elles open source ?

Étapes :

1 - Cadrez votre pratique du scraping
2 - Comment organiser ses données ?
3 - Les méthodes de nettoyage
4 - Quels langages et outils utiliser ?
5 - Que faire avec des données publiques ? sont-elles open source ?

Étape 1 : Cadrez votre pratique du scraping

L’étudiant mettant à jour un tableau Excel pour réaliser un exposé à partir des données Wikipédia réalise une action de scraping. La secrétaire ou le cadre qui doit réaliser une présentation commerciale scrape des données issues de son entreprise, et l’enrichit de données issues d’autres sources comme des études de marchés ou l’INSEE.

On peut donc définir l’action de scraper comme l’action de collecter automatiquement des données provenant de différentes sources hétérogènes (sites web, tableaux).

À la question : pourquoi « dois-je scraper », les réponses peuvent commencer par :

Je dois récupérer les rues, ville associée au code postal, sur le département…
Je dois récupérer les dentistes, boulangers, coiffeurs sur la ville de Brie-Comte-Robert ou toute autre ville.

Dans ces hypothèses, collecter les données sur d’autres régions est hors propos et sans intérêt, même si la possibilité technique est là, si le coût financier est nul et si les informations ne représentent que quelques centaines d’octets.

Une bonne pratique

Pour limiter les risques, se focaliser sur une seule source est une grande erreur. Collecter intégralement un site comme un annuaire est le meilleur moyen d’entrer dans l’œil du cyclone et d’avoir le regard soupçonneux du serveur. La deuxième erreur serait de revendre ce contenu sans apporter la moindre valeur ajoutée. Cela relève du pillage pur et simple et tombe allègrement sous les fourches caudines de la justice.

Un exemple de bonnes pratiques

Les données du Conseil Constitutionnel ne sont pas directement exploitables. Elles sont accessibles certes, mais le format de diffusion, le pdf, limite son utilisation. Elles sont cependant classées par année, par type.

Dans le Pure playerOwni, Martin Untersinger et Sabine Blanc ont travaillé en juin 2011 (10.06.2011) sur un projet qui nécessite de scraper les 40 ans de décisions du Conseil constitutionnel (cf. Datablog puis remonter par les flèches previous en page 4), c’est-à-dire qui consiste à les mettre dans un format exploitable, dans un fichier csv.

Un petit programme sur mesure, en Ruby, est réalisé ensuite. Un tutoriel accompagne le programme pour expliquer comment l’adapter à n’importe quel site. Une « traduction » en langue naturelle décrypte et appuie la démonstration.

Comme le souligne Owni, pour les non-programmeurs un minimum de curiosité et d’efforts est nécessaire pour s’approprier un programme.

Étape 2

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.

+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.

De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(415 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Fiche

Page
précédente

Page
suivante

Fiches à lire

Optimiser son navigateur Internet avec des Add-ons

Aller plus loin

Sites internet

Les plates-formes MOOC permettent d’approfondir les compétences dans le domaine des statistiques, du nettoyage de données et les technologies numériques. En voici quelques exemples :

Coursera

Ce cours est une introduction aux idées et aux principes fondamentaux de la collecte, la présentation et l’analyse de données pour vous guider dans la formulation de conclusions valides et appropriées sur le monde.

Datasens

Ce cours en ligne d’autoformation est destiné à tous ceux qui veulent en savoir plus sur la façon de structurer, visualiser et manipuler des données. Cela inclut les étudiants, les éducateurs, les chercheurs, les journalistes et les propriétaires de petites entreprises.

France université numérique

L’objectif principal de ce MOOC est d’affiner sa pratique de recherche d’informations sur le web, d’acquérir une méthode permettant de trouver efficacement des informations utiles et de porter un jugement sur leur qualité́, d’apprendre à citer correctement les ressources du web afin d’étayer ses propos de façon solide, d’adopter une pratique de veille informationnelle simple et efficace avec les outils d’aujourd’hui.

Bibliographie

Une expérience de Data Journalism à Bordeaux, Modus Operandi
Xavier Polanco, Texte Mining et intelligence économique : Aujourd’hui et demain
Gilbert Saporta, « Data Mining » ou fouilles de données
Jonathan Weber, Sébastien Lefèvre, Fouille vidéo orientée objet, une approche générique
Matthew J. Holland, Using Scrapy to acquire online data and export to multiple output files
Peggy Cellier, Mireille Ducassé, Sébastien Ferré, Exploration de trace à partir de la fouille de données.
(Nathan Yau) Datavisualisation. De l’extraction des données à leur représentation graphique
Paul Bradshaw, Ebook : Scraping for jounalists

Produits et fournisseurs

Scraper est une extension pour Chrome qui permet d’extraire de l’information structurée d’une page web en un clic. Concrètement, cela permet de générer un tableau compatible Google Docs à partir des données présentées sur une page web, par exemple pour analyser les résultats d’un comparateur de prix ou d’un tableau Wikipedia. Des alternatives gratuites existent, telles que :

Application : phantomjs
Langage R : r-project et www.r-bloggers.com
Scrapy
Application Web : Outwit

OutWit Hub (outil payant) permet de saisir et d’organiser toutes sortes de données et de médias à partir de sources en ligne. Il étudie automatiquement des série de pages Web ou les résultats des moteurs de recherche et d’en extraire des contacts, des liens, des images, des données, des nouvelles, etc.

Glossaire

Web scraping

Le web scraping, parfois appelé Harvesting) est une technique d’extraction du contenu, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Le web scraping peut être utilisé pour récupérer des données et des métadonnées. De manière générale en informatique, le web scraping décrit un moyen d’extraire du contenu d’un site web, via un autre site web ou un programme. Cela permet de récupérer le contenu d’une page ou d’un site internet en vue de réutiliser ses données. Dans le contexte du PFM, cette technique est utilisée pour récupérer les données des clients sur le portail de leur banque pour les importer dans un autre site (celui d’une autre banque ou d’un prestataire tiers). Sans l’accord du site cible, cette technique peut être considérée comme illégale.

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(415 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Annexes

Page
précédente

Le scraping, un nouvel outil au service de la veille

Auteur(s)

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

Étape 1 : Cadrez votre pratique du scraping

Une bonne pratique

Un exemple de bonnes pratiques

Étape 2 : Comment organiser ses données ?

Étape 3 : Les méthodes de nettoyage

Étape 4 : Quels langages et outils utiliser ?

Étape 5 : Que faire avec des données publiques ? sont-elles open source ?

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

Fiches à lire

Aller plus loin

Sites internet

Bibliographie

Produits et fournisseurs

Glossaire

SUR LE MÊME SUJET

DANS LES RESSOURCES DOCUMENTAIRES

DANS L'ACTUALITÉ

DANS LES LIVRES BLANCS

DANS LES CONFÉRENCES EN LIGNE

Le scraping, un nouvel outil au service de la veille

Auteur(s)

Cet article est réservé aux abonnés.Il vous reste 94% à découvrir.

L'expertise technique et scientifique de référence

MOTS-CLÉS

DOI (Digital Object Identifier)

Étape 1 : Cadrez votre pratique du scraping

Une bonne pratique

Un exemple de bonnes pratiques

Étape 2 : Comment organiser ses données ?

Étape 3 : Les méthodes de nettoyage

Étape 4 : Quels langages et outils utiliser ?

Étape 5 : Que faire avec des données publiques ? sont-elles open source ?

Cet article est réservé aux abonnés.Il vous reste 95% à découvrir.

L'expertise technique et scientifique de référence

Fiches à lire

Aller plus loin

Sites internet

Bibliographie

Produits et fournisseurs

Glossaire

SUR LE MÊME SUJET

DANS LES RESSOURCES DOCUMENTAIRES

DANS L'ACTUALITÉ

DANS LES LIVRES BLANCS

DANS LES CONFÉRENCES EN LIGNE

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.