Contactez-nous
Rester dans une utilisation éthique
Le scraping, des méthodes et des outils au service de la veille
FIC1275 v1 Fiche pratique

Rester dans une utilisation éthique
Le scraping, des méthodes et des outils au service de la veille

Auteur(s) : David COMMARMOND

Date de publication : 10 août 2024 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Cadrer sa pratique du scraping

  • 1.1 - De bonnes pratiques

2 - Organiser ses données

3 - Nettoyer les données

4 - Choisir les langages et les outils

5 - Rester dans une utilisation éthique

  • 5.1 - Un rappel sur le droit des données
  • 5.2 - Les Creative Commons

6 - Notre conseil

  • 6.1 - Procédez au nettoyage de vos données
  • 6.2 - Présentez les résultats

7 - Erreurs à éviter

  • 7.1 - Ne présumez pas de vos forces et de votre temps

8 - Glossaire

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

La donnée est devenue le « pétrole » du XXIe siècle. Malgré cette formule, de nombreuses entreprises ignorent encore qu’elles possèdent et qu’elles peuvent trouver sur le Web de gigantesques dépôts d’informations et de données sous-exploitées ou dormant. Des entrepôts qui se sont stratifiés au cours des décennies d’évolution technique et qui, peu à peu, au gré de la vie des entreprises, ont connu diverses destinées, parfois disparues, souvent oubliées. Les questions de cybersécurité ont toutefois engagé une réflexion sur le sujet.

Le « grattage Web » peut être entendu et connu sous plusieurs termes ou technologies qui pourraient refléter ce que vous cherchez :

  • screen scraping ;

  • collecte de données et collecte de données automatisée ;

  • Data Mining ;

  • grattage de site Web ;

  • extraction des données ;

  • données Crawling.

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-fic1275

Lecture en cours
Présentation

Article inclus dans l'offre

"Management et ingénierie de l'innovation"

(450 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

5. Rester dans une utilisation éthique

Dans un contexte juridique toujours plus complexe et changeant, il convient d’avoir en mémoire quelques éléments de droit.

Depuis le RGPD, un cadre a été établi. Ce cadre européen a essaimé au-delà de l’Europe, mais il n’est pas absolu et peut encore évoluer.

Le Code de la protection des données peut être un outil précieux auquel il peut être nécessaire de se référer si des doutes venaient remettre en question un projet ambitieux.

5.1 Un rappel sur le droit des données

Le scraping est à la frontière de plusieurs droits : droit des affaires, droit de la donnée, droit du secret. Il est impossible ici d’aborder toutes ces questions.

Plusieurs grandes tendances se dessinent, qui oscillent entre la libéralisation et la transparence, d’un côté du spectre et de l’autre, la privatisation et le secret. À cela, il faut ajouter la coexistence de différentes approches juridiques entre les pays qui peuvent être proches sans être identiques, même en Europe.

Ainsi des données hébergées sur une fondation ou organisation tierce dans le monde, par exemple en Hollande ou au Canada, peuvent fournir en libre accès des données qui seront considérées comme trop récentes dans un autre pays et donc indisponibles.

Nous avons donc actuellement une importante présence du droit américain, avec ses creative commons. Nous développons un droit européen et un droit français représenté par le RGPD et Nis1/Nis2. Ces textes forment une alternative au droit américain et posent des bases face à l’émergence du droit chinois.

Pour conclure et être optimiste, on peut dire que la richesse de données libres circulant dans le monde, en Europe et en France, représente un immense gisement sous-exploité. Chaque jour, de nouvelles données sont encore libérées et deviennent accessibles par de grandes institutions.

Une étude du Pew Research Institut parue récemment a démontré que « 38 % des pages Web qui existaient en 2013 ne sont plus accessibles une décennie plus tard », soulignant ainsi le caractère plus éphémère qu’on ne le pensait du Web. Des initiatives privées comme archive.org tentent de conserver la mémoire du Web, une tâche d’importance.

...
Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Rester dans une utilisation éthique

Article inclus dans l'offre

"Management et ingénierie de l'innovation"

(450 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

    1 Bibliographie

    HAUT DE PAGE
    Logo Techniques de l'Ingenieur

    Cet article est réservé aux abonnés.
    Il vous reste 92 % à découvrir.

    Pour explorer cet article Consulter l'extrait gratuit

    Déjà abonné ?


    Article inclus dans l'offre

    "Management et ingénierie de l'innovation"

    (450 articles)

    Une base complète d’articles

    Actualisée et enrichie d’articles validés par nos comités scientifiques.

    Des contenus enrichis

    Quiz, médias, tableaux, formules, vidéos, etc.

    Des modules pratiques

    Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

    Des avantages inclus

    Un ensemble de services exclusifs en complément des ressources.

    Voir l'offre