Contactez-nous
Système de ranking
Moteurs de recherche web - Google, Bing et leurs challengers
H7240 v1 Archive

Système de ranking
Moteurs de recherche web - Google, Bing et leurs challengers

Auteur(s) : Olivier ANDRIEU

Date de publication : 10 mai 2011

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Définitions et données générales

2 - Système de crawl d'un moteur de recherche

3 - Moteur d'indexation

4 - Système de ranking

5 - Affichage des résultats

6 - Conclusion

Sommaire

Présentation

Auteur(s)

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

INTRODUCTION

Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. Mais l'avenir sera peut-être différent. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le web...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-h7240

Lecture en cours
Présentation

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

4. Système de ranking

Le ranking est un processus qui consiste pour le moteur à classer automatiquement les données de l'index de façon à ce que, suite à une interrogation, les pages les plus pertinentes apparaissent en premier dans la liste de résultats. Le but du classement est d'afficher dans les 10 premières réponses les documents répondant le mieux à la question.

Pour cela, les moteurs élaborent en permanence de nouveaux algorithmes (des formules mathématiques utilisées pour classer les documents). Ces algorithmes sont bien sûr un véritable facteur différenciant entre eux et ne sont jamais publiés dans leur intégralité. Dans certains cas, ils sont même protégés par des brevets et font parfois l'objet de « secrets défense », voire de mythes comparables à celui du 7X (principal composant du Coca-Cola) pour ce qui est de l'algorithme utilisé par Google...

Il existe plusieurs grandes méthodes de ranking des résultats et les moteurs utilisent pour la plupart un mélange de ces différentes techniques.

– Les critères « in page » : le moteur prend en compte la requête de l'internaute (la suite de termes saisies dans le formulaire de recherche) et analyse quels documents contiennent ce(s) terme(s). Une première extraction des documents contenant au moins une fois chaque mot est effectuée. Le classement est ensuite effectué comme dans notre exemple précédent sur « corbeau » et « renard » en prenant en compte plusieurs critères : nombre d'occurrences du mot, proximité, présence dans certaines balises HTML (TITLE, H1, STRONG), dans l'URL, etc.

– Les critères « off page », qui vont donner au moteur certaines indications « au sujet de la page » : popularité (appelée PageRank chez Google : analyse de la qualité des liens pointant vers une page), réputation (analyse du texte des liens pointant vers une page), confiance (TrustRank), etc.

Tous les moteurs actuels mixent aujourd'hui les critères « in page » et « off page » pour améliorer au maximum leur algorithme de pertinence. Google communique le plus souvent sur 200 critères pris en compte pour juger de la qualité d'une page et sa pertinence par rapport à une requête donnée.

4.1 Critères in page

Les critères « in page »...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Système de ranking

Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BRIN (S.), PAGE (L.) -   The anatomy of a large-scale hypertextual web search engine.  -  Google http://infolab.stanford.edu/~backrub/google.html

  • (2) - FORD (D.), GRIMES (C.), TASSONE (E.) -   Keeping a search engine index fresh : risk and optimality in estimating refresh rates for web pages.  -  Google http://www.google.com/research/pubs/archive/34570.pdf

  • (3) - O'BRIEN (S.), GRIMES (C.) -   Microscale evolution of web pages.  -  In WWW'08 : Proceedings of the 17th International World Wide Web Conference (2008) http://www.google.com/research/pubs/archive/34428.pdf

  • (4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) -   Detecting near-duplicates for web crawling.  -  Stanford University, Google Inc. http://research.compaq.com/SRC/mercator/papers/www10.ps

  • (5) - NAJORK (M.), WIENER (J.L.) -   Breadth-first search crawling yields high-quality pages.  -  Compaq http://research.compaq.com/SRC/mercator/papers/www10.ps

  • (6)...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Documents numériques Gestion de contenu"

(68 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Le classement des sommets dans les réseaux

Cet article expose l’un des principaux algorithmes numériques qui, dès l’origine des moteurs de ...

Optimisation d’un site web en vue de son référencement (SEO)

Les moteurs de recherche représentent près de la moitié du trafic sur un site web en général. La bonne ...

Professionnalisation des compétences liées aux TIC - Référentiel des métiers de l'Internet

Les technologies de l'information et de la communication (TIC) accroissent la compétition dans le nouvel ...

Machine virtuelle Java (JVM)

Le succès de Java l'a promu langage de programmation sur internet. Cet article présente une architecture ...