RECHERCHEZ parmi plus de 10 000 articles de référence ou pratiques et 4 000 articles d'actualité
PAR DOMAINE D'EXPERTISE
PAR SECTEUR INDUSTRIEL
PAR MOTS-CLES
NAVIGUER DANS LA
CARTOGRAPHIE INTERACTIVE
DÉCOUVREZ toute l'actualité, la veille technologique GRATUITE, les études de cas et les événements de chaque secteur de l'industrie.
Article précédent
Thésaurus documentaireArticle de référence | Réf : H7240 v3
Auteur(s) : Olivier ANDRIEU
Date de publication : 10 avr. 2022
Article suivant
Systèmes de recommandationCet article fait partie de l’offre
Documents numériques Gestion de contenu (66 articles en ce moment)
Cette offre vous donne accès à :
Une base complète et actualisée d'articles validés par des comités scientifiques
Un service Questions aux experts et des outils pratiques
Des Quiz interactifs pour valider la compréhension et ancrer les connaissances
Présentation
Lire l'article
Bibliographie & annexes
Inclus dans l'offre
Comme nous l’avons vu précédemment, plusieurs étapes sont nécessaires pour le bon fonctionnement d’un moteur de recherche :
dans un premier temps, des logiciels explorent le Web de lien en lien et récupèrent les informations contenues dans les pages web (phase dite de crawl) ;
ces informations sont ensuite indexées par des moteurs d’indexation, les termes répertoriés enrichissant un index – une base de données des mots contenus dans les pages – régulièrement mis à jour ;
enfin, une interface de recherche permet de restituer des résultats aux utilisateurs en les classant par ordre de pertinence (phase dite de ranking).
Les spiders (également appelés agents, crawlers, robots ou encore bots) sont des programmes de navigation visitant en permanence les pages web et leurs liens en vue d’indexer leurs contenus. Ils parcourent les liens hypertextes et reviennent périodiquement visiter les pages retenues pour prendre en compte leurs éventuelles modifications.
Un spider est donc un logiciel très simple mais redoutablement efficace. Il ne sait faire que deux choses (mais il les fait remarquablement bien pour les moteurs majeurs) (figure 2) :
lire des pages web et stocker leur contenu (code HTML) sur les disques du moteur ;
détecter les liens dans ces pages et les suivre pour identifier de nouvelles pages web.
Le processus est alors immuable : le spider trouve une page, la sauvegarde, détecte les liens qu’elle contient, se rend sur les pages de destination de ces liens, les sauvegarde, y détecte les liens, etc., et cela, 24 h/24… L’outil parcourt donc inlassablement le Web pour y détecter des pages web (puis les sauvegarder) en suivant des liens (figure 2).
Une image communément répandue pour un spider serait celle d’un internaute fou qui lirait et mémoriserait toutes les pages web qui lui sont proposées, tout en cliquant sur tous les liens qu’elles contiennent pour aller sur d’autres documents.
Tous les spiders ont un nom spécifique au moteur à qui ils appartiennent. Parmi les plus connus, citons notamment :
« Googlebot »...
Vous êtes abonné à cette offre ?
Connectez-vous !
Vous souhaitez découvrir cette offre ?
Cet article est inclus dans l'offre :
DOCUMENTS NUMÉRIQUES GESTION DE CONTENU
(1) - BRIN (S.), PAGE (L.) - The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN Systems. - https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf (1998).
(2) - FORD (D.), GRIMES (C.), TASSONE (E.) - Keeping a search engine index fresh: risk and optimality in estimating refresh rates for web pages. - Google https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34570.pdf
(3) - O’BRIEN (S.), GRIMES (C.) - Microscale evolution of web pages. - In WWW’08: Proceedings of the 17th International World Wide Web Conference (2008) https://www.researchgate.net/publication/221022492_Microscale_evolution_of_web_pages
(4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) - Detecting near-duplicates for web crawling. - Stanford University. WWW 2007 - Track: Data Mining (2007) https://www2007.org/papers/paper215.pdf
(5) - NAJORK (M.), WIENER (J.L.) - Breadth-first search crawling yields high-quality pages. - Compaq WWW10 (2001) http://www.www10.org/cdrom/papers/208/.
Statistiques sur les motours de recherche dans le monde
La problématique de la mesure (et comparaison) des parts de marché des moteurs de recherche
Abondance
Secrets2Moteurs
https://www.secrets2moteurs.com/
Veille disponible sur http://www.seobythesea.com/
HAUT DE PAGE
SEO Campus et SEO Camp Days
https://www.seo-camp.org/agenda-des-evenements-seo-et-webmarketing/
SMX Paris
HAUT DE PAGEOrganismes – Fédérations – Associations (liste non exhaustive)
Seo Camp...
Vous êtes abonné à cette offre ?
Connectez-vous !
Vous souhaitez découvrir cette offre ?
Cet article est inclus dans l'offre :
DOCUMENTS NUMÉRIQUES GESTION DE CONTENU
DÉTAIL DE L'ABONNEMENT :
TOUS LES ARTICLES DE VOTRE RESSOURCE DOCUMENTAIRE
Accès aux :
Articles et leurs mises à jour
Nouveautés
Archives
Articles interactifs
Formats :
HTML illimité
Versions PDF
Site responsive (mobile)
Info parution :
Toutes les nouveautés de vos ressources documentaires par email
DES ARTICLES INTERACTIFS
Articles enrichis de quiz :
Expérience de lecture améliorée
Quiz attractifs, stimulants et variés
Compréhension et ancrage mémoriel assurés
DES SERVICES ET OUTILS PRATIQUES
Archives
Technologies anciennes et versions
antérieures des articles
Votre site est 100% responsive,
compatible PC, mobiles et tablettes.
FORMULES
Formule monoposte | Autres formules | |
---|---|---|
Ressources documentaires | ||
Consultation HTML des articles | Illimitée | Illimitée |
Quiz d'entraînement | Illimités | Illimités |
Téléchargement des versions PDF | 5 / jour | Selon devis |
Accès aux archives | Oui | Oui |
Info parution | Oui | Oui |
Services inclus | ||
Questions aux experts (1) | 4 / an | Jusqu'à 12 par an |
Articles Découverte | 5 / an | Jusqu'à 7 par an |
Dictionnaire technique multilingue | Oui | Oui |
(1) Non disponible pour les lycées, les établissements d’enseignement supérieur et autres organismes de formation. |
||
Formule 12 mois 995 € HT |
Autres formules |
1 - DÉFINITIONS ET DONNÉES GÉNÉRALES
2 - SYSTÈME DE CRAWL D’UN MOTEUR DE RECHERCHE
4 - COMPRÉHENSION DE LA REQUÊTE
Information
Quiz d'entraînement bientôt disponible
TECHNIQUES DE L'INGENIEUR
L'EXPERTISE TECHNIQUE ET SCIENTIFIQUE
DE RÉFÉRENCE
ÉDITION - FORMATION - CONSEIL :
Avec Techniques de l'Ingénieur, retrouvez tous les articles scientifiques et techniques : base de données, veille technologique, documentation et expertise technique
SOLUTION EN LIGNE
Automatique - Robotique | Biomédical - Pharma | Construction et travaux publics | Électronique - Photonique | Énergies | Environnement - Sécurité | Génie industriel | Ingénierie des transports | Innovation | Matériaux | Mécanique | Mesures - Analyses | Procédés chimie - bio - agro | Sciences fondamentales | Technologies de l'information
PAIEMENT
SÉCURISÉ
OUVERTURE RAPIDE
DE VOS DROITS
ASSISTANCE TÉLÉPHONIQUE
+33 (0)1 53 35 20 20