Contactez-nous
Définitions et données générales
Moteurs de recherche web - Google, Bing et leurs challengers
H7240 v3 Article de référence

Définitions et données générales
Moteurs de recherche web - Google, Bing et leurs challengers

Auteur(s) : Olivier ANDRIEU

Relu et validé le 29 févr. 2024 | Read in English

Logo Techniques de l'Ingenieur Cet article est réservé aux abonnés
Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?

Présentation

1 - Définitions et données générales

2 - Système de crawl d’un moteur de recherche

3 - Moteur d’indexation

4 - Compréhension de la requête

5 - Système de ranking

6 - Affichage des résultats

7 - Conclusion

8 - Glossaire et acronyme

Sommaire

Présentation

RÉSUMÉ

Les moteurs de recherche font partie de notre quotidien numérique et sont des carrefours essentiels pour nous permettre de rechercher de l'information sur Internet. Quels ont les principaux moteurs ? Comment fonctionnent-ils ? Cet article décrit les différentes phases de traitement de l'information par des outils comme Google ou Bing : crawl du Web, indexation des pages, analyse et utilisation de critères de pertinence in page /off page permettant de donner des notes aux documents explorés, puis affichage des résultats.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

INTRODUCTION

Les moteurs de recherche rythment la vie numérique des internautes actuels. Carrefours indispensables pour mener à bien toute investigation sur la Toile, ils ont fortement évolué depuis les premiers outils (Excite, Webcrawler, Lycos, Altavista, etc.) jusqu'au leader actuel, Google et son challenger, Bing, que bien peu de concurrents arrivent à talonner pour l'instant. En tout état de cause, il est intéressant de se pencher sur le fonctionnement de ces outils et leur évolution au cours des années, car la connaissance de ce que l'on peut trouver « sous le capot des moteurs » peut également nous aider à mieux mener à bien nos recherches sur le Web…

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


VERSIONS

Il existe d'autres versions de cet article :

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v3-h7240

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

1. Définitions et données générales

1.1 Définitions

Un moteur de recherche est un ensemble de logiciels visant à créer une gigantesque banque de données de pages et de documents, pour les mettre par la suite à disposition de l’internaute. Ces logiciels parcourent le Web, indexent automatiquement les pages visitées puis les analysent et renvoient les résultats qui leur semblent les plus pertinents par rapport à la demande préalable de l’internaute.

Quatre étapes sont indispensables au bon fonctionnement d’un moteur de recherche :

  • la collecte d’informations (ou crawl) grâce à des robots (également appelés spiders, crawlers ou agents) ;

  • l’indexation des données collectées et la constitution d’une base de données de documents nommée « index » ;

  • le traitement des requêtes, avec tout particulièrement un système d’interrogation de l’index et de classement des résultats en fonction de critères de pertinence, suite à la saisie de mots-clés par l’utilisateur ;

  • la restitution des résultats identifiés, dans ce que l’on appelle communément des SERP (Search Engine Result Pages) ou pages de résultats, le plus souvent présentées sous la forme d’une liste de dix liens affichés les uns au-dessous des autres.

Les pages de résultats des moteurs de recherche affichent deux principaux types de contenu : les liens « organiques » ou « naturels » (souvent appelés « liens bleus »), obtenus grâce au crawl du web et les liens sponsorisés, ou liens commerciaux (exemple : Google Ads). Nous allons nous concentrer dans cet article sur les techniques utilisées par les moteurs de recherche pour indexer et retrouver des liens naturels. Nous n’abordons pas le traitement spécifique des liens sponsorisés qui obéissent à d’autres règles et ne font pas l’objet de cet article.

HAUT DE PAGE

1.2 Portails et moteurs de recherche

En dehors des deux leaders du marché en 2022 Google et Microsoft Bing, de nombreux sites n’utilisent pas leurs propres technologies de recherche mais sous-traitent cette partie auprès de grands moteurs. C’est par exemple le cas de Yahoo!, qui utilise Bing,...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 92 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Lecture en cours
Définitions et données générales

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire
Sommaire

BIBLIOGRAPHIE

  • (1) - BRIN (S.), PAGE (L.) -   The anatomy of a large-scale hypertextual web search engine. Computer networks and ISDN Systems.  -  https://snap.stanford.edu/class/cs224w-readings/Brin98Anatomy.pdf (1998).

  • (2) - FORD (D.), GRIMES (C.), TASSONE (E.) -   Keeping a search engine index fresh: risk and optimality in estimating refresh rates for web pages.  -  Google https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/34570.pdf

  • (3) - O’BRIEN (S.), GRIMES (C.) -   Microscale evolution of web pages.  -  In WWW’08: Proceedings of the 17th International World Wide Web Conference (2008) https://www.researchgate.net/publication/221022492_Microscale_evolution_of_web_pages

  • (4) - GURMEET (S.M.), JAIN (A.), SARMA (A.D.) -   Detecting near-duplicates for web crawling.  -  Stanford University. WWW 2007 - Track: Data Mining (2007) https://www2007.org/papers/paper215.pdf

  • (5) - NAJORK (M.), WIENER (J.L.) -   Breadth-first search crawling yields high-quality pages.  -  Compaq WWW10 (2001) http://www.www10.org/cdrom/papers/208/.

  • ...

1 Sites Internet

Statistiques sur les motours de recherche dans le monde

https://gs.statcounter.com/

La problématique de la mesure (et comparaison) des parts de marché des moteurs de recherche

https://www.abondance.com/20190912-40652-la-problematique-de-la-mesure-et-comparaison-des-parts-de-marche-des-moteurs-de-recherche.html

Abondance

https://www.abondance.com

Secrets2Moteurs

https://www.secrets2moteurs.com/

Veille disponible sur http://www.seobythesea.com/

HAUT DE PAGE

2 Événements

SEO Campus et SEO Camp Days

https://www.seo-camp.org/agenda-des-evenements-seo-et-webmarketing/

SMX Paris

https://smxfrance.com/

HAUT DE PAGE

3 Annuaire

Organismes – Fédérations – Associations (liste non exhaustive)

Seo Camp

...

Logo Techniques de l'Ingenieur

Cet article est réservé aux abonnés.
Il vous reste 94 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ?


Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Sommaire

QUIZ ET TEST DE VALIDATION PRÉSENTS DANS CET ARTICLE

Entraînez vous autant que vous le voulez avec les quiz d'entraînement.


L'expertise technique et scientifique de référence

La plus importante ressource documentaire technique et scientifique en langue française, avec + de 1 200 auteurs et 100 conseillers scientifiques.
+ de 10 000 articles et 1 000 fiches pratiques opérationnelles, + de 800 articles nouveaux ou mis à jours chaque année.
De la conception au prototypage, jusqu'à l'industrialisation, la référence pour sécuriser le développement de vos projets industriels.

Article inclus dans l'offre

"Technologies logicielles Architectures des systèmes"

(236 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

Ressources documentaires

Le classement des sommets dans les réseaux

Cet article expose l’un des principaux algorithmes numériques qui, dès l’origine des moteurs de ...

Optimisation d’un site web en vue de son référencement (SEO)

Les moteurs de recherche représentent près de la moitié du trafic sur un site web en général. La bonne ...

Professionnalisation des compétences liées aux TIC - Référentiel des métiers de l'Internet

Les technologies de l'information et de la communication (TIC) accroissent la compétition dans le nouvel ...

Machine virtuelle Java (JVM)

Le succès de Java l'a promu langage de programmation sur internet. Cet article présente une architecture ...