Contactez-nous
Cadrer sa pratique du scraping
Le scraping, des méthodes et des outils au service de la veille
FIC1275 v1 Fiche pratique

Cadrer sa pratique du scraping
Le scraping, des méthodes et des outils au service de la veille

Auteur(s) : David COMMARMOND

Date de publication : 10 août 2024 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Cadrer sa pratique du scraping

  • 1.1 - De bonnes pratiques

2 - Organiser ses données

3 - Nettoyer les données

4 - Choisir les langages et les outils

5 - Rester dans une utilisation éthique

  • 5.1 - Un rappel sur le droit des données
  • 5.2 - Les Creative Commons

6 - Notre conseil

  • 6.1 - Procédez au nettoyage de vos données
  • 6.2 - Présentez les résultats

7 - Erreurs à éviter

  • 7.1 - Ne présumez pas de vos forces et de votre temps

8 - Glossaire

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

La donnée est devenue le « pétrole » du XXIe siècle. Malgré cette formule, de nombreuses entreprises ignorent encore qu’elles possèdent et qu’elles peuvent trouver sur le Web de gigantesques dépôts d’informations et de données sous-exploitées ou dormant. Des entrepôts qui se sont stratifiés au cours des décennies d’évolution technique et qui, peu à peu, au gré de la vie des entreprises, ont connu diverses destinées, parfois disparues, souvent oubliées. Les questions de cybersécurité ont toutefois engagé une réflexion sur le sujet.

Le « grattage Web » peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :

  • screen scraping ;

  • collecte de données et collecte de données automatisée ;

  • Data Mining ;

  • grattage de site Web ;

  • extraction des données ;

  • données Crawling.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-fic1275

Lecture en cours
Présentation

Article inclus dans l'offre

"Management et ingénierie de l'innovation"

(450 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

1. Cadrer sa pratique du scraping

L’étudiant en informatique mettant à jour un tableau pour réaliser un exposé à partir des données wikidata réalise une action de scraping. Le chargé d’étude qui doit réaliser une présentation commerciale scrape des données issues de son entreprise et l’enrichit de données issues d’autres sources comme des études de marché ou l’INSEE.

On peut donc définir l’action de « scraper » comme l’action de collecter automatiquement des données provenant de différentes sources hétérogènes (sites Web, tableaux, api/applications).

1.1 De bonnes pratiques

Même si l’on souhaite limiter les risques, il est très difficile – à l’heure du RGPD, de l’intelligence artificielle, de l’évolution des conditions générales d’utilisation des grandes plates-formes – de définir aujourd’hui les contours légaux fixes et définitifs du scraping.

Des contours demeurent imprécis, mais des éléments demeurent fondamentaux : collecter l’intégralité des données publiques issues d’un site est proscrit ; collecter massivement des données en exploitant des failles, c’est s’exposer à une condamnation civile et pénale. La deuxième erreur serait d’en tirer une dimension commerciale sans valeur ajoutée et s’apparente aussi à du pillage pur et simple. Il est impératif de se raisonner sur la fréquence et le nombre de requêtes effectuées par heure ou jour, et plus encore par seconde dans certains cas.

Sur la plate-forme de formation CyberInstitut, un article de blog donne quelques clés de la question du scraping et de la sécurité informatique. Enfin, la diffusion d’outils et de la culture du « no code » auprès d’un public plus néophyte et encore moins sensibilisé aux questions éthiques est un nouvel enjeu majeur de déstabilisation des écosystèmes de l’entreprise. En effet, par défi, par maladresse, l’adolescent, l’étudiant, qui souhaite tenter de comprendre et maîtriser les techniques de scraping, sans objectif ni éthique, peut adopter des comportements prohibés, ou pire être l’« idiot utile » de puissances étrangères.

...
Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Cadrer sa pratique du scraping

Article inclus dans l'offre

"Management et ingénierie de l'innovation"

(450 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

    1 Bibliographie

    HAUT DE PAGE
    Logo Techniques de l'Ingenieur

    Cet article est réservé aux abonnés.
    Il vous reste 94 % à découvrir.

    Pour explorer cet article Consulter l'extrait gratuit

    Déjà abonné ?


    Article inclus dans l'offre

    "Management et ingénierie de l'innovation"

    (450 articles)

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques.

    Des contenus enrichis

    Quiz, médias, tableaux, formules, vidéos, etc.

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

    Des avantages inclus

    Un ensemble de services exclusifs en complément des ressources.

    Voir l'offre