Présentation
Auteur(s)
-
David COMMARMOND : Chargé de mission, Réseau Acrie
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleMOTS-CLÉS
scraping | Harvesting | métadonnées | capture de données | dataviz | visualisation
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Management et ingénierie de l'innovation
(423 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
Le web est un gigantesque dépôt d’informations et de données destinées à être consultées, éventuellement partagées ou commentées sur un navigateur Web. Ce dépôt est changeant, impermanent, parcellaire. Ce qu’il contient ne répond pas toujours à nos besoins, parfois un peu plus ou un peu moins, et nécessite de temps à autre un coup de neuf. Le grattage Web peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :
- screen scraping ;
- collecte de données et collecte de données automatisée ;
- Data Mining
- grattage de site Web ;
- extraction des données ;
- données Crawling ;
- site Web Ripper.
Étapes :
Cet article fait partie de l’offre
Management et ingénierie de l'innovation
(423 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Fiches à lire
Aller plus loin
Sites internet
Les plates-formes MOOC permettent d’approfondir les compétences dans le domaine des statistiques, du nettoyage de données et les technologies numériques. En voici quelques exemples :
Ce cours est une introduction aux idées et aux principes fondamentaux de la collecte, la présentation et l’analyse de données pour vous guider dans la formulation de conclusions valides et appropriées sur le monde.
Ce cours en ligne d’autoformation est destiné à tous ceux qui veulent en savoir plus sur la façon de structurer, visualiser et manipuler des données. Cela inclut les étudiants, les éducateurs, les chercheurs, les journalistes et les propriétaires de petites entreprises.
L’objectif principal de ce MOOC est d’affiner sa pratique de recherche d’informations sur le web, d’acquérir une méthode permettant de trouver efficacement des informations utiles et de porter un jugement sur leur qualité́, d’apprendre à citer correctement les ressources du web afin d’étayer ses propos de façon solide, d’adopter une pratique de veille informationnelle simple et efficace avec les outils d’aujourd’hui.
Bibliographie
- Une expérience de Data Journalism à Bordeaux, Modus Operandi
- Xavier Polanco, Texte Mining et intelligence économique : Aujourd’hui et demain
- Gilbert Saporta, « Data Mining » ou fouilles de données
- Jonathan Weber, Sébastien Lefèvre, Fouille vidéo orientée objet, une approche générique
- Matthew J. Holland, Using Scrapy to acquire online data and export to multiple output files
- Peggy Cellier, Mireille Ducassé, Sébastien Ferré, Exploration de trace à partir de la fouille de données.
- (Nathan Yau) Datavisualisation. De l’extraction des données à leur représentation graphique
- Paul Bradshaw, Ebook : Scraping for jounalists
Produits et fournisseurs
Scraper est une extension pour Chrome qui permet d’extraire de l’information structurée d’une page web en un clic. Concrètement, cela permet de générer un tableau compatible Google Docs à partir des données présentées sur une page web, par exemple pour analyser les résultats d’un comparateur de prix ou d’un tableau Wikipedia. Des alternatives gratuites existent, telles que :
- Application : phantomjs
- Langage R : r-project et www.r-bloggers.com
- Scrapy
- Application Web : Outwit
OutWit Hub (outil payant) permet de saisir et d’organiser toutes sortes de données et de médias à partir de sources en ligne. Il étudie automatiquement des série de pages Web ou les résultats des moteurs de recherche et d’en extraire des contacts, des liens, des images, des données, des nouvelles, etc.
Glossaire
Le web scraping, parfois appelé Harvesting) est une technique d’extraction du contenu, via un script ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte. Le web scraping peut être utilisé pour récupérer des données et des métadonnées. De manière générale en informatique, le web scraping décrit un moyen d’extraire du contenu d’un site web, via un autre site web ou un programme. Cela permet de récupérer le contenu d’une page ou d’un site internet en vue de réutiliser ses données. Dans le contexte du PFM, cette technique est utilisée pour récupérer les données des clients sur le portail de leur banque pour les importer dans un autre site (celui d’une autre banque ou d’un prestataire tiers). Sans l’accord du site cible, cette technique peut être considérée comme illégale.
Cet article fait partie de l’offre
Management et ingénierie de l'innovation
(423 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Un Parcours Pratique
Opérationnel et didactique, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive