Contactez-nous
Moteur d'indexation
Moteurs de recherche web - Google, Bing et leurs challengers
H7240 v1 Archive

Moteur d'indexation
Moteurs de recherche web - Google, Bing et leurs challengers

Auteur(s) : Olivier ANDRIEU

Date de publication : 10 mai 2011

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Définitions et données générales

2 - Système de crawl d'un moteur de recherche

3 - Moteur d'indexation

4 - Système de ranking

5 - Affichage des résultats

6 - Conclusion

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le web...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7240

Lecture en cours
Présentation

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

3. Moteur d'indexation

3.1 Index

Une fois les pages du Web crawlées, le spider envoie donc au moteur d'indexation les informations collectées. L'indexation s'effectue en texte intégral : tous les mots d'une page, et plus globalement son code HTML, sont alors pris en compte.

Les systèmes d'indexation se chargent ensuite d'identifier en « plein texte » l'ensemble des mots des textes contenus dans les pages ainsi que leur position à l'intérieur de celle-ci. Certains moteurs peuvent cependant limiter leur capacité d'indexation. Ainsi, pendant de longues années, Google s'est limité aux 101 premiers kilooctets des pages (ce qui représentait cependant une taille assez conséquente). Cette limite n'est plus aujourd'hui d'actualité. D'autres moteurs peuvent effectuer une sélection en fonction des formats de document (Excel, Powerpoint, PDF...).

Enfin, comme pour les logiciels documentaires et les bases de données, une liste de mots « vides » (par exemple, « le », « la », « les », « et »...), appelés stop words en anglais, est le plus souvent automatiquement exclue (pour économiser de l'espace de stockage) ou ces mots sont systématiquement éliminés à l'occasion d'une requête (pour améliorer la rapidité des recherches).

HAUT DE PAGE

3.2 Index inversé

Au fur et à mesure de l'indexation et de l'analyse du contenu des pages web, un index des mots rencontrés est automatiquement enrichi. Cet index est constitué :

  • d'un index principal ou maître, contenant l'ensemble du corpus de données capturé par le spider ;

  • de fichiers inverses ou index inversés, créés autour de l'index principal et contenant tous les termes d'accès (mots-clés) associés aux URL exactes des documents contenant ces termes sur le Web.

Les fichiers inverses sont des espaces où sont répertoriés les différents termes rencontrés, chaque terme étant associé à toutes les pages où il figure. La recherche des documents dans lesquels ils sont présents s'en trouve ainsi fortement accélérée.

Pour comprendre le fonctionnement d'un index inversé, prenons, par exemple (figure 6), une page A disponible à l'adresse

...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Moteur d'indexation

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BRIN (S.), PAGE (L.) -   The anatomy of a large-scale hypertextual web search engine.  -  Google http://infolab.stanford.edu/~backrub/google.html

  • (2) - FORD (D.), GRIMES (C.), TASSONE (E.) -   Keeping a search engine index fresh : risk and optimality in estimating refresh rates for web pages.  -  Google http://www.google.com/research/pubs/archive/34570.pdf

  • (3) - O'BRIEN (S.), GRIMES (C.) -   Microscale evolution of web pages.  -  In WWW'08 : Proceedings of the 17th International World Wide Web Conference (2008) http://www.google.com/research/pubs/archive/34428.pdf

  • (4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) -   Detecting near-duplicates for web crawling.  -  Stanford University, Google Inc. http://research.compaq.com/SRC/mercator/papers/www10.ps

  • (5) - NAJORK (M.), WIENER (J.L.) -   Breadth-first search crawling yields high-quality pages.  -  Compaq http://research.compaq.com/SRC/mercator/papers/www10.ps

  • (6)...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Le classement des sommets dans les réseaux

Cet article expose l’un des principaux algorithmes numériques qui, dès l’origine des moteurs de ...

Optimisation d’un site web en vue de son référencement (SEO)

Les moteurs de recherche représentent près de la moitié du trafic sur un site web en général. La bonne ...

Professionnalisation des compétences liées aux TIC - Référentiel des métiers de l'Internet

Les technologies de l'information et de la communication (TIC) accroissent la compétition dans le nouvel ...

Machine virtuelle Java (JVM)

Le succès de Java l'a promu langage de programmation sur internet. Cet article présente une architecture ...