Présentation

Article

1 - CADRER SA PRATIQUE DU SCRAPING

  • 1.1 - De bonnes pratiques

2 - ORGANISER SES DONNÉES

3 - NETTOYER LES DONNÉES

4 - CHOISIR LES LANGAGES ET LES OUTILS

5 - RESTER DANS UNE UTILISATION ÉTHIQUE

  • 5.1 - Un rappel sur le droit des données
  • 5.2 - Les Creative Commons

6 - NOTRE CONSEIL

  • 6.1 - Procédez au nettoyage de vos données
  • 6.2 - Présentez les résultats

7 - ERREURS À ÉVITER

  • 7.1 - Ne présumez pas de vos forces et de votre temps

8 - GLOSSAIRE

Fiche pratique | Réf : FIC1275 v1

Choisir les langages et les outils
Le scraping, des méthodes et des outils au service de la veille

Auteur(s) : David COMMARMOND

Date de publication : 10 août 2024 | Read in English

Pour explorer cet article
Télécharger l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

La donnée est devenue le « pétrole » du XXIe siècle. Malgré cette formule, de nombreuses entreprises ignorent encore qu’elles possèdent et qu’elles peuvent trouver sur le Web de gigantesques dépôts d’informations et de données sous-exploitées ou dormant. Des entrepôts qui se sont stratifiés au cours des décennies d’évolution technique et qui, peu à peu, au gré de la vie des entreprises, ont connu diverses destinées, parfois disparues, souvent oubliées. Les questions de cybersécurité ont toutefois engagé une réflexion sur le sujet.

Le « grattage Web » peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :

  • screen scraping ;

  • collecte de données et collecte de données automatisée ;

  • Data Mining ;

  • grattage de site Web ;

  • extraction des données ;

  • données Crawling.

Cet article est réservé aux abonnés.
Il vous reste 95% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-fic1275


Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(450 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

4. Choisir les langages et les outils

Dans l’absolu, tout langage de programmation peut faire l’affaire (Ruby, Python, R.). De plus, les outils logiciels open source, gratuits ou payants, sont aussi très nombreux.

Parmi les projets, nous pouvons citer trois exemples.

  • Lemur : Le projet Lemur développe des moteurs de recherche, des barres d’outils, des outils d’analyse de texte, des ressources de données qui appuient la recherche, le développement de la recherche d’information et des logiciels de text mining.

  • Lucene : Apache Lucene est une bibliothèque de moteur de recherche plein texte entièrement écrit en Java. Il s’agit d’une technologie appropriée pour presque n’importe quelle application qui nécessite la recherche plein texte, en particulier si elle est multi-plateforme. Apache Lucene est un projet open source disponible en téléchargement gratuit (sélectionnez l’onglet « Core » à partir de la page d’accueil).

  • Swish-e : Swish-e est un système open source rapide, flexible et gratuit pour les collections d’indexation des pages Web ou d’autres fichiers. Swish-e est idéal pour les collections d’1 million de documents ou moins.

  • Opensemanticsearch : Opensemanticsearch permet la recherche, l’analyse et l’exploration de grandes collections de documents grâce au moteur de recherche open source, au text mining, à l’analyse de documents et à Text Analytics Explorer.

On peut aussi citer trois autres applications :

Et les sources d’informations suivantes :

À noter

Les plates-formes MOOC permettent d’approfondir les compétences dans le domaine des statistiques, du nettoyage de données et des technologies numériques. En voici quelques exemples.

Cet article est réservé aux abonnés.
Il vous reste 94% à découvrir.

Pour explorer cet article
Téléchargez l'extrait gratuit

Vous êtes déjà abonné ?Connectez-vous !


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Cet article fait partie de l’offre

Management et ingénierie de l'innovation

(450 articles en ce moment)

Cette offre vous donne accès à :

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques

Des services

Un ensemble d'outils exclusifs en complément des ressources

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

Doc & Quiz

Des articles interactifs avec des quiz, pour une lecture constructive

ABONNEZ-VOUS

Lecture en cours
Choisir les langages et les outils
Sommaire
Sommaire

    1 Bibliographie

    HAUT DE PAGE

    Cet article est réservé aux abonnés.
    Il vous reste 95% à découvrir.

    Pour explorer cet article
    Téléchargez l'extrait gratuit

    Vous êtes déjà abonné ?Connectez-vous !


    L'expertise technique et scientifique de référence

    La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
    + de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
    De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

    Cet article fait partie de l’offre

    Management et ingénierie de l'innovation

    (450 articles en ce moment)

    Cette offre vous donne accès à :

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques

    Des services

    Un ensemble d'outils exclusifs en complément des ressources

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses

    Doc & Quiz

    Des articles interactifs avec des quiz, pour une lecture constructive

    ABONNEZ-VOUS