Présentation
Auteur(s)
-
David COMMARMOND : Chargé de mission, Réseau Acrie
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
La donnée est devenue le « pétrole » du XXIe siècle. Malgré cette formule, de nombreuses entreprises ignorent encore qu’elles possèdent et qu’elles peuvent trouver sur le Web de gigantesques dépôts d’informations et de données sous-exploitées ou dormant. Des entrepôts qui se sont stratifiés au cours des décennies d’évolution technique et qui, peu à peu, au gré de la vie des entreprises, ont connu diverses destinées, parfois disparues, souvent oubliées. Les questions de cybersécurité ont toutefois engagé une réflexion sur le sujet.
Le « grattage Web » peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :
-
screen scraping ;
-
collecte de données et collecte de données automatisée ;
-
Data Mining ;
-
grattage de site Web ;
-
extraction des données ;
-
données Crawling.
DOI (Digital Object Identifier)
Cet article fait partie de l’offre
Management et ingénierie de l'innovation
(450 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Des modules pratiques
Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Présentation
4. Choisir les langages et les outils
Dans l’absolu, tout langage de programmation peut faire l’affaire (Ruby, Python, R.). De plus, les outils logiciels open source, gratuits ou payants, sont aussi très nombreux.
Parmi les projets, nous pouvons citer trois exemples.
-
Lemur : Le projet Lemur développe des moteurs de recherche, des barres d’outils, des outils d’analyse de texte, des ressources de données qui appuient la recherche, le développement de la recherche d’information et des logiciels de text mining.
-
Lucene : Apache Lucene est une bibliothèque de moteur de recherche plein texte entièrement écrit en Java. Il s’agit d’une technologie appropriée pour presque n’importe quelle application qui nécessite la recherche plein texte, en particulier si elle est multi-plateforme. Apache Lucene est un projet open source disponible en téléchargement gratuit (sélectionnez l’onglet « Core » à partir de la page d’accueil).
-
Swish-e : Swish-e est un système open source rapide, flexible et gratuit pour les collections d’indexation des pages Web ou d’autres fichiers. Swish-e est idéal pour les collections d’1 million de documents ou moins.
-
Opensemanticsearch : Opensemanticsearch permet la recherche, l’analyse et l’exploration de grandes collections de documents grâce au moteur de recherche open source, au text mining, à l’analyse de documents et à Text Analytics Explorer.
On peut aussi citer trois autres applications :
Et les sources d’informations suivantes :
Les plates-formes MOOC permettent d’approfondir les compétences dans le domaine des statistiques, du nettoyage de données et des technologies numériques. En voici quelques exemples.
-
My-mooc.com...
Cet article fait partie de l’offre
Management et ingénierie de l'innovation
(450 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Des modules pratiques
Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive
Choisir les langages et les outils
DANS NOS BASES DOCUMENTAIRES
ANNEXES
-
Using Scrapy to acquire online data and export to multiple output files, Matthew J. Holland.
-
Data Mining, explorer les données du Data Warehouse par Alain Fernandez
-
A web scraping toolkit for journalists, Ebook de Kira Schacht
Cet article fait partie de l’offre
Management et ingénierie de l'innovation
(450 articles en ce moment)
Cette offre vous donne accès à :
Une base complète d’articles
Actualisée et enrichie d’articles validés par nos comités scientifiques
Des services
Un ensemble d'outils exclusifs en complément des ressources
Des modules pratiques
Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses
Doc & Quiz
Des articles interactifs avec des quiz, pour une lecture constructive