RECHERCHEZ parmi plus de 10 000 articles de référence ou pratiques et 4 000 articles d'actualité
PAR DOMAINE D'EXPERTISE
PAR SECTEUR INDUSTRIEL
PAR MOTS-CLES
NAVIGUER DANS LA
CARTOGRAPHIE INTERACTIVE
DÉCOUVREZ toute l'actualité, la veille technologique GRATUITE, les études de cas et les événements de chaque secteur de l'industrie.
Article précédent
Thésaurus documentaireArticle de référence | Réf : H7240 v3
Auteur(s) : Olivier ANDRIEU
Date de publication : 10 avr. 2022
Article suivant
Systèmes de recommandationCet article fait partie de l’offre
Documents numériques Gestion de contenu (66 articles en ce moment)
Cette offre vous donne accès à :
Une base complète et actualisée d'articles validés par des comités scientifiques
Un service Questions aux experts et des outils pratiques
Des Quiz interactifs pour valider la compréhension et ancrer les connaissances
Présentation
Lire l'article
Bibliographie & annexes
Inclus dans l'offre
Une fois les pages du Web crawlées, le spider envoie au moteur d’indexation les informations collectées. L’indexation s’effectue en texte intégral : tous les mots d’une page, et plus globalement son code HTML, sont alors pris en compte.
Les systèmes d’indexation se chargent ensuite d’identifier en « plein texte » l’ensemble des mots des textes contenus dans les pages ainsi que leur position à l’intérieur de celle-ci. Certains moteurs peuvent cependant limiter leur capacité d’indexation. Ainsi, pendant de longues années, Google s’est limité aux 101 premiers kilooctets des pages (ce qui représentait cependant une taille assez conséquente). Cette limite n’est plus d’actualité aujourd’hui. D’autres moteurs peuvent effectuer une sélection en fonction des formats de document (Excel, Powerpoint, PDF…).
Enfin, comme pour les logiciels documentaires et les bases de données, une liste de mots « vides » (par exemple, « le », « la », « les », « et »…), appelés stop words en anglais, est le plus souvent automatiquement exclue (pour économiser de l’espace de stockage) ou ces mots sont systématiquement éliminés à l’occasion d’une requête (pour améliorer la rapidité des recherches).
HAUT DE PAGE
Au fur et à mesure de l’indexation et de l’analyse du contenu des pages web, un index des mots rencontrés est automatiquement enrichi. Cet index est constitué :
d’un index principal ou maître, contenant l’ensemble du corpus de données capturé par le spider ;
de fichiers inverses ou index inversés, créés autour de l’index principal et contenant tous les termes d’accès (mots-clés) associés aux URL exactes des documents contenant ces termes sur le Web.
Les fichiers inverses sont des espaces où sont répertoriés les différents termes rencontrés, chaque terme étant associé à toutes les pages où il figure. La recherche des documents dans lesquels ils sont présents s’en trouve ainsi fortement...
Vous êtes abonné à cette offre ?
Connectez-vous !
Vous souhaitez découvrir cette offre ?
Cet article est inclus dans l'offre :
DOCUMENTS NUMÉRIQUES GESTION DE CONTENU
(1) - BRIN (S.), PAGE (L.) - The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN Systems. - https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf (1998).
(2) - FORD (D.), GRIMES (C.), TASSONE (E.) - Keeping a search engine index fresh: risk and optimality in estimating refresh rates for web pages. - Google https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34570.pdf
(3) - O’BRIEN (S.), GRIMES (C.) - Microscale evolution of web pages. - In WWW’08: Proceedings of the 17th International World Wide Web Conference (2008) https://www.researchgate.net/publication/221022492_Microscale_evolution_of_web_pages
(4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) - Detecting near-duplicates for web crawling. - Stanford University. WWW 2007 - Track: Data Mining (2007) https://www2007.org/papers/paper215.pdf
(5) - NAJORK (M.), WIENER (J.L.) - Breadth-first search crawling yields high-quality pages. - Compaq WWW10 (2001) http://www.www10.org/cdrom/papers/208/.
Statistiques sur les motours de recherche dans le monde
La problématique de la mesure (et comparaison) des parts de marché des moteurs de recherche
Abondance
Secrets2Moteurs
https://www.secrets2moteurs.com/
Veille disponible sur http://www.seobythesea.com/
HAUT DE PAGE
SEO Campus et SEO Camp Days
https://www.seo-camp.org/agenda-des-evenements-seo-et-webmarketing/
SMX Paris
HAUT DE PAGEOrganismes – Fédérations – Associations (liste non exhaustive)
Seo Camp...
Vous êtes abonné à cette offre ?
Connectez-vous !
Vous souhaitez découvrir cette offre ?
Cet article est inclus dans l'offre :
DOCUMENTS NUMÉRIQUES GESTION DE CONTENU
DÉTAIL DE L'ABONNEMENT :
TOUS LES ARTICLES DE VOTRE RESSOURCE DOCUMENTAIRE
Accès aux :
Articles et leurs mises à jour
Nouveautés
Archives
Articles interactifs
Formats :
HTML illimité
Versions PDF
Site responsive (mobile)
Info parution :
Toutes les nouveautés de vos ressources documentaires par email
DES ARTICLES INTERACTIFS
Articles enrichis de quiz :
Expérience de lecture améliorée
Quiz attractifs, stimulants et variés
Compréhension et ancrage mémoriel assurés
DES SERVICES ET OUTILS PRATIQUES
Archives
Technologies anciennes et versions
antérieures des articles
Votre site est 100% responsive,
compatible PC, mobiles et tablettes.
FORMULES
Formule monoposte | Autres formules | |
---|---|---|
Ressources documentaires | ||
Consultation HTML des articles | Illimitée | Illimitée |
Quiz d'entraînement | Illimités | Illimités |
Téléchargement des versions PDF | 5 / jour | Selon devis |
Accès aux archives | Oui | Oui |
Info parution | Oui | Oui |
Services inclus | ||
Questions aux experts (1) | 4 / an | Jusqu'à 12 par an |
Articles Découverte | 5 / an | Jusqu'à 7 par an |
Dictionnaire technique multilingue | Oui | Oui |
(1) Non disponible pour les lycées, les établissements d’enseignement supérieur et autres organismes de formation. |
||
Formule 12 mois 995 € HT |
Autres formules |
1 - DÉFINITIONS ET DONNÉES GÉNÉRALES
2 - SYSTÈME DE CRAWL D’UN MOTEUR DE RECHERCHE
3 - MOTEUR D’INDEXATION
4 - COMPRÉHENSION DE LA REQUÊTE
Information
Quiz d'entraînement bientôt disponible
TECHNIQUES DE L'INGENIEUR
L'EXPERTISE TECHNIQUE ET SCIENTIFIQUE
DE RÉFÉRENCE
ÉDITION - FORMATION - CONSEIL :
Avec Techniques de l'Ingénieur, retrouvez tous les articles scientifiques et techniques : base de données, veille technologique, documentation et expertise technique
SOLUTION EN LIGNE
Automatique - Robotique | Biomédical - Pharma | Construction et travaux publics | Électronique - Photonique | Énergies | Environnement - Sécurité | Génie industriel | Ingénierie des transports | Innovation | Matériaux | Mécanique | Mesures - Analyses | Procédés chimie - bio - agro | Sciences fondamentales | Technologies de l'information
PAIEMENT
SÉCURISÉ
OUVERTURE RAPIDE
DE VOS DROITS
ASSISTANCE TÉLÉPHONIQUE
+33 (0)1 53 35 20 20