Présentation
Auteur(s)
-
Béatrice FOENIX-RIOU : Directrice de BFR Consultants, formatrice et rédactrice en chef de BASES et NETSOURCES
Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.
Lire l’articleINTRODUCTION
Nous utilisons quotidiennement les moteurs de recherche web, et pourtant leur fonctionnement est mal connu. Les moteurs classent les résultats selon des algorithmes peu transparents, et ont tendance à mettre en avant des sites souvent commerciaux et pas nécessairement pertinents.
Comment optimiser la qualité des résultats ? Comment mieux comprendre ces algorithmes de classement qui ne cessent d’évoluer ? Cette fiche fait le point sur le fonctionnement des moteurs web, notamment :
-
ce qu’ils interrogent réellement ;
-
ce qu’ils ignorent ;
-
les critères qu’ils utilisent pour classer les résultats.
DOI (Digital Object Identifier)
Présentation
Article inclus dans l'offre
"Management et ingénierie de l'innovation"
(450 articles)
Actualisée et enrichie d’articles validés par nos comités scientifiques.
Quiz, médias, tableaux, formules, vidéos, etc.
Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.
Un ensemble de services exclusifs en complément des ressources.
2. Qu’est-ce que la notion de web invisible ?
Malgré la puissance des robots, il n’est pas possible pour les moteurs d’explorer la totalité des pages web. Le web « invisible », appelé également parfois web « profond » (deep web), correspond aux pages non localisables ou indexables par les robots.
Plusieurs types de contenus peuvent en faire partie, notamment :
-
les pages qui ont été volontairement exclues par le webmaster ; tout éditeur peut en effet décider d’interdire l’indexation de son site – ou d’une partie de son site – par un robot ; il lui suffit de le préciser dans les balises meta des pages ;
-
les sites pour lesquels il est nécessaire de s’identifier préalablement (que l’accès soit payant ou non) ;
-
les pages qui ne sont pas indexées par les robots pour des raisons techniques. Le format de la page peut en être la cause, mais le plus souvent, les pages « invisibles » sont les pages dynamiques, générées « à la volée » en réponse à une requête par mots sur un formulaire de recherche. On trouve dans cette catégorie de nombreuses bases de données pouvant offrir, par exemple, les références de brevets, le texte intégral de publications avec leurs archives, des informations sur les entreprises ou des références bibliographiques dans divers domaines…
Ce web invisible constitue la partie « immergée » du web et est composé pour une part de banques de données pouvant être gigantesques, certaines d’entre elles étant en accès libre. Si vos recherches doivent être aussi complètes que possible, ces bases de données, ignorées le plus souvent des moteurs, vous apporteront une aide précieuse.
Attention, il ne faut pas confondre le web invisible avec le dark web, c’est-à-dire un web clandestin, accessible via des logiciels comme TOR (The Onion Router) et contenant en partie des sites illégaux.
Qu’est-ce que la notion de web invisible ?
Article inclus dans l'offre
"Management et ingénierie de l'innovation"
(450 articles)
Actualisée et enrichie d’articles validés par nos comités scientifiques.
Quiz, médias, tableaux, formules, vidéos, etc.
Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.
Un ensemble de services exclusifs en complément des ressources.
Article inclus dans l'offre
"Management et ingénierie de l'innovation"
(450 articles)
Actualisée et enrichie d’articles validés par nos comités scientifiques.
Quiz, médias, tableaux, formules, vidéos, etc.
Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.
Un ensemble de services exclusifs en complément des ressources.