Description du problème
Le classement des sommets dans les réseaux

AF1527 v1 Article de référence

Description du problème
Le classement des sommets dans les réseaux

Auteur(s) : Claude Brezinski, Michela Redivo-Zaglia

Date de publication : 10 avr. 2017 | Read in English

Cet article est réservé aux abonnés

Pour explorer cet article plus en profondeur Consulter l'extrait gratuit

Déjà abonné ?Se connecter

Sommaire
Médias

Présentation

1 - Description du problème

2 - Le vecteur PageRank

2.1 - Expressions implicites
2.2 - Expressions explicites
2.3 - Expression polynomiale

3 - Calcul du vecteur PageRank

4 - Accélération de la méthode de la puissance

5 - Procédures d’extrapolation

6 - Conclusions

7 - Glossaire

Bibliographie & annexes

Présentation

RÉSUMÉ

Cet article expose l’un des principaux algorithmes numériques qui, dès l’origine des moteurs de recherche sur le Web, se cache derrière le classement des pages selon leur ordre de pertinence décroissante. Il décrit les méthodes d’analyse numérique qui sont utilisées pour effectuer ce classement, quelles sont leurs propriétés, comment en accélérer la convergence et comment des procédures d’extrapolation et d’approximation permettent de les améliorer. D’autres applications de ces algorithmes à divers graphes et réseaux ainsi que des généralisations récentes sont également mentionnées.

Lire cet article issu d'une ressource documentaire complète, actualisée et validée par des comités scientifiques.

Lire l’article

Auteur(s)

Claude Brezinski : Professeur - Laboratoire Paul Painlevé, UMR CNRS 8524, UFR de Mathématiques Pures et Appliquées, - Université de Lille – Sciences et Technologies, Villeneuve d’Ascq, France
Michela Redivo-Zaglia : Professeur - Dipartimento di Matematica “Tullio Levi-Civita”, - Università degli Studi di Padova, Padova, Italy

INTRODUCTION

Quand on insère des mots-clés dans un moteur de recherche sur le Web, on obtient les pages par ordre décroissant de pertinence. Ce classement n’est pas effectué pour chaque utilisateur à chacune de ses requêtes, mais le moteur de recherche procède de temps en temps à un classement général de toutes les pages du Web selon leur importance. Quand des mots-clés sont introduits, le moteur recherche les pages qui correspondent à la question posée dans cette liste classée complète.

Un problème mathématique et des algorithmes numériques se cachent derrière un tel classement. Les moteurs de recherche utilisent plusieurs stratégies pour effectuer ce classement, dont certaines relèvent du secret industriel. Nous allons exposer ici l’algorithme le plus connu pour effectuer ce classement, l’algorithme PageRank, ainsi que les méthodes mathématiques auxquelles il fait appel. Comme nous le verrons plus loin, cet algorithme a beaucoup d’autres applications que le seul classement des pages du Web. Signalons que PageRank et Google sont des marques déposées.

Une partie de cet article est empruntée à et nous tenons à remercier les éditeurs du journal Matapli ainsi que la Société de Mathématiques Appliquées et Industrielles qui le publie. Ces résultas sont eux-mêmes issus des travaux des auteurs de cet article et sont cités dans la bibliographie.

Le problème des ponts de Königsberg a été résolu en 1736 par le mathématicien suisse Leonhard Euler (1707-1783) qui peut être considéré comme l’inventeur de la théorie des graphes. Cette ville est traversée par une rivière sur laquelle se trouvent deux îles. Sept ponts (les arêtes du graphe) relient les deux rives et les deux îles (les nœuds du graphe). Il s’agissait de trouver un parcours les reliant sans passer deux fois par le même pont. Le problème rencontré par le Web est de nature semblable mais à une toute autre échelle. Il a fallu forger les outils permettant de trouver la bonne information dans cette énorme masse de données, de les structurer et de trouver les nœuds les plus importants. De plus, sur le Web, les nœuds et les arêtes changent constamment.

On peut faire remonter les premières idées sur le classement d’informations aux travaux de Derek J. de Solla Price (1922-1983) en 1965 . Il s’agissait alors d’évaluer les articles scientifiques selon leur nombre de citations. Mathématiquement, il s’agit d’un problème de valeurs propres. On construit une matrice dont chaque élément (i,j) vaut 1 ou 0 selon que l’article i cite ou non l’article j. Il se peut donc que l’élément (i,j) vaille 1 alors que l’élément (j,i) vaut 0. Les articles étaient ainsi classés suivant leur nombre de citations.

Le premier moteur de recherche qui classifiait automatiquement les pages du Web afin d’identifier les plus pertinentes d’entre elles a été Altavista dans les années 1997-1998. Ce moteur recherchait le nombre d’occurrences des mots-clés introduits par l’utilisateur, leur proximité et leur positionnement dans le texte. Les limites de cette méthode de sélection ont conduit à la recherche d’autres critères de classification. On est ainsi passé à des critères indépendants du contenu des pages pour passer à des méthodes de tri basées sur la popularité. C’est sur la co-citation que se base l’algorithme HITS (Hyperlink-Induced Topic Search ou Hubs and authorities) développé par Jon M. Kleinberg, professeur à Cornell University , ou l’algorithme PageRank que nous allons exposer maintenant. Nous n’en donnerons ici qu’une description simplifiée alors que le procédé complet est bien plus complexe.

En 1996, deux étudiants de l’université de Stanford, Larry Page et Sergey Brin (ils seront les fondateurs de la société Google), proposèrent un nouvel algorithme de classement des pages du Web . Selon cet algorithme, l’importance d’une page est définie par son rang dans une liste, appelé PageRank (nous conserverons ici l’appelation anglo-saxonne). À l’heure actuelle, les moteurs de recherche sur Internet ne se contentent pas de ce seul algorithme, mais utilisent simultanément de nombreux autres facteurs de classement, environ 200. Récemment, ces algorithmes ont reçu des applications dans divers domaines qui seront évoqués à la fin de cet article.

Il existe différentes façons d’appréhender intuitivement l’idée dominante de PageRank. La première d’entre elles est de savoir que cet algorithme a été bâti afin d’utiliser la structure d’un graphe pour quantifier l’importance de chacun de ses nœuds. Les utilisations de cet algorithme, en dehors du contexte du Web, font cependant toutes appel à une notion d’importance qui, selon l’application, peut prendre des significations diverses.

On peut interpréter PageRank comme un fluide circulant dans un réseau, passant d’un nœud à l’autre par ses arêtes et mettant en relation les nœuds les plus importants. Une autre interprétation consiste à le penser en termes de suffrages : un nœud acquiert les votes des autres nœuds le long des arêtes entrantes, et il donne sa voix à des nœuds plus importants, ceux qui ont intuitivement le plus de valeur. Enfin, une autre façon de penser l’algorithme est en termes de marche aléatoire à travers un réseau. Le PageRank d’un certain nœud est simplement la probabilité de se retrouver à ce nœud après être parti d’un nœud quelconque dans le réseau et en circulant pas à pas dans le graphe après avoir sélectionné une arête aléatoire à chaque nœud. C’est la simplicité et l’élégance de PageRank et le fait qu’il utilise uniquement la structure d’un graphe qui en font un outil qui peut être appliqué à d’autres réseaux.

Nous avons volontairement limité la bibliographie car elle est très vaste. On en trouvera une bonne partie dans . Un certain nombre de notions simples d’algèbre linéaire sont nécessaires pour aborder cet article (voir [AF1221]).

Cet article est réservé aux abonnés.
Il vous reste 93 % à découvrir.

Pour explorer cet article Consulter l'extrait gratuit

Déjà abonné ? Se connecter

MOTS-CLÉS

classement des sommets PageRank chaîne de Markov graphes

DOI (Digital Object Identifier)

https://doi.org/10.51257/a-v1-af1527

Lecture en cours
Présentation

Page
suivante

Le vecteur PageRank

Article inclus dans l'offre

"Mathématiques"

(172 articles)

Une base complète d’articles

Actualisée et enrichie d’articles validés par nos comités scientifiques.

Des contenus enrichis

Quiz, médias, tableaux, formules, vidéos, etc.

Des modules pratiques

Opérationnels et didactiques, pour garantir l'acquisition des compétences transverses.

Des avantages inclus

Un ensemble de services exclusifs en complément des ressources.

Voir l'offre

1. Description du problème

On considère qu’une page est importante si d’autres pages importantes pointent vers elle. L’importance d’une page est, par conséquent, déterminée par celle des autres pages qui pointent vers elle. Si une page Web personnelle n’est référencée que dans la page principale d’un petit laboratoire, cela lui donnera relativement peu d’importance. Si, par contre, on trouve un lien vers elle depuis la page de la Présidence de la République, alors elle acquerra une importance beaucoup plus grande. La définition de l’importance d’une page est donc implicite et le vecteur ligne r ^T qui contient les PageRanks de toutes les pages est solution d’un problème de point fixe comme nous allons le voir.

Soit deg(i) ≥ 0 le degré de sortie de la page i, c’est-à-dire le nombre total de pages vers lesquelles pointe cette page. Soit P = (p_ij ) la matrice de transition entre la page i et la page j, où p_ij = 1∕deg(i), p_ij = 0 s’il n’y a pas de lien de la page i vers la page j et p_ii = 0 (les autoréférences ne sont donc pas prises en compte).

La figure 1 montre un graphe avec 3 sommets et la matrice P correspondante.

Le vecteur PageRank r vérifie r ^T = r ^T P, soit encore, r = P^T r et il peut être calculé récursivement par la méthode de la puissance classique

r^{(n + 1)} = P^{T} r^{(n)}, n = 0, 1, \dots

en supposant que r est présent dans la décomposition spectrale du vecteur de départ de r ⁽⁰⁾ ...

Cet article est réservé aux abonnés.
Il vous reste 95 % à découvrir.