Décryptage

Nos interactions sur Internet sont analysées par l’Europe

Posté le 15 mars 2015
par La rédaction
dans Informatique et Numérique

Au moyen d’algorithmes d’analyse des pages web, des scientifiques européens tentent d’analyser l’action des internautes, notamment afin de prédire les échanges commerciaux.

Prédire l’action d’un internaute, à partir de liens Internet : c’est le rêve des chercheurs européens du projet NADINE (New tools and Algorithms for DIrected NEtwork analysis). Financé par l’union européenne dans le cadre du FP7, un programme de recherche international, il tente “d’analyser les liens entre les pages web, pour analyser les caractéristiques de nos interactions”.

Les scientifiques du CNRS (Centre national de la recherche scientifique), du MTA Sztaki (l’institut hongrois de recherche informatique et robotique, à Budapest) et des universités de Milan (Italie) et de Enschede (Pays-Bas) développent des algorithmes et des méthodes d’analyse de l’activité en ligne. Leur but est de “contribuer au développement d’une nouvelle génération de moteurs de recherche”, et de dévoiler, à terme, “la façon dont les personnes, les pays et même les échanges commerciaux sont liés”.

“Nous tentons d’établir une carte d’Internet afin de découvrir comment les pages sont reliées et comment les internautes utilisent ces liens lorsqu’ils parcourent la toile”, explique Dima Shepelyansky, directeur de recherche au laboratoire de physique théorique du CNRS.

L’algorithme de Google comme outil de base

Les scientifiques ont utilisé l’algorithme de Google, le PageRank,qui mesure l’importance d’une page en fonction du nombre de liens pointant vers elle. Avec d’autres algorithmes, il permet de de “voir comment les pages sont reliées entre elles”. Ces observations peuvent, par exemple, “amener à établir la probabilité que les internautes visitent certains sites, fassent certains choix, achètent des produits ou votent d’une certaine façon”.

Au départ, les physiciens, informaticiens et mathématiciens ont essayé de classer des personnalités selon leur influence, à partir de leurs biographies Wikipédia. Ils ont pris en compte les 24 langues principales et le nombre de pages pointant vers la biographie de chaque personnalité, grâce à PageRank.

Mais les résultats se sont avérés limités. “La personnalité déterminée comme étant la plus influente était le scientifique Carl Linnaeus. En effet, puisqu’il a proposé une classification des êtres vivants, toutes les pages Wikipédia sur les animaux et les plantes contiennent un lien vers sa biographie, ce qui a faussé les résultats”, expliquent les chercheurs.

Ces derniers ont alors décidé d’utiliser, en complément, un autre algorithme : CheiRank. Il s’agit d’un autre modèle d’analyse de la popularité d’une page, basé sur les liens entrants, mais aussi sur les liens sortants d’une page. Au lieu de n’évaluer que la popularité d’un article, CheiRank prend en compte le caractère communicatif des nœuds.

“En combinant les données obtenues avec ces deux outils, nous avons pu définir une méthode fiable de mesure de l’importance d’une page web”, indiquent les chercheurs. Les outils développés par NADINE permettraient également de détecter les “communautés auto-organisées, créées en ligne”.

“Une nouvelle façon d’analyser les échanges commerciaux”

Etant donné que, pour les scientifiques de NADINE, “l’information sur Internet circule de manière similaire aux échanges commerciaux”, l’équipe de chercheurs a appliqué ses résultats à l’analyse des flux commerciaux. Ils se sont ainsi basé sur “l’observation que les liens qui pointent vers une page web et les liens qui en sortent peuvent montrer comment se font les échanges d’information”.

A partir de la base de données commerciale de l’ONU, qui contient des données sur les 50 dernières années, NADINE  a développé “une nouvelle façon d’analyser les échanges commerciaux de 61 produits entre les pays des Nations Unies”, et a déterminé écomment les variations de prix influencent la balance commerciale”.

Sans vraiment l’avouer, les chercheurs tentent ainsi de prédire les échanges commerciaux. “Maintenant que la méthodologie est clairement définie, nous comptons continuer nos travaux en collaboration avec plusieurs partenaires, dont l’Organisation mondiale du commerce”, indiquent-ils.

Le projet NADINE prendra fin en avril 2015. Il est financé par l’UE à hauteur de 1,223 million d’euros.

Par Fabien Soyez


Pour aller plus loin