Pour savoir où on va, il faut savoir d'où l'on vient

Vous avez
une question ?
Un projet ?

Contactez nous !
 

Contactez-nous

Vous avez une question ? un projet ? 
Vous souhaitez plus d'informations sur un produit ? sur notre offre ? 
Contactez-nous, on vous répond sous 4H.

eZHumanCAPTCHACode reload
retour

L’algorithme de PageRank

L’algorithme de PageRank

En 1998, Larry Page et Sergey Brin, étudiants à Stanford University, créent le moteur de recherche Google sur la base de l’algorithme qu’ils ont mis au point : Page Rank ( PR).

Le principe du Page Rank, est le suivant. On considère que lorsqu’une page du web contient un lien vers une autre page, cela signifie que l’auteur de la première accordait un peu de valeur à l’auteur de la seconde puisqu’il jugeait pertinent d’y faire référence. Ainsi, si des milliers de sites de l’Internet contiennent des liens vers la page du site Microsoft consacrée à Word, c’est que cette page a quelque intérêt aux yeux de tous ceux qui y ont fait référence.

C’est donc cela qui fait que la page Word du site Microsoft arrivera en tête de votre recherche : des milliers de sites y font référence tandis que beaucoup moins feraient référence à une page du site Smile traitant du même sujet.

De manière plus précise donc :

  • L’internet, « la toile », constitue une immense réseau de pages, reliées entre elles par des liens hypertexte.
  • Chaque page P1 qui contient un lien hypertexte vers une page P apporte une voix, un vote, en faveur de cette page.
  • Chaque page répartit ses votes entre toutes les pages vers lesquelles elle pointe. Si une page porte 10 liens vers 10 autres pages, alors chacun de ces liens n’apporte que un dixième du vote de la page.
  • Les votes d’une page sont pondérés par le Page Rank de cette page. Un lien depuis le site www.cnn.com (PR9) vers votre site lui apporte beaucoup plus qu’un lien depuis le site lalentillevertedupuy.com (PR3).

Revenons sur ce dernier point. Les Page Rank de Google sont restitués sur une échelle de 0 à 10. Mais ce PR affiché est une représentation logarithmique du PR calculé. La base du logarithme n’est pas connue, et varie dans le temps, puisque c’est par définition celle qui permet à la page la plus référencée d’être à la valeur 10. Imaginons que le logarithme soit en base 10. Cela signifie qu’un lien venant d’une page notée PR5 vaut autant que 10 liens venant d’une page PR4, et autant que 100 liens de pages PR3.

Une autre manière d’exprimer cela est qu’il faudrait 1010 liens de pages sans valeur (PR0) pour apporter autant qu’un seul lien depuis la page d’accueil du site W3C (l’un des quelques happy few qui ont des pages PR10).

Il faut savoir que toute cette mécanique porte sur des pages et non des sites. Ce n’est pas un site dans sa globalité qui est plus ou moins bien noté, c’est chacune de ses pages. Il peut y avoir une importante disparité de notes entre les pages d’un même site.

Il faut comprendre également que les liens internes à un site sont pris en compte, au même titre que les liens externes. Cela étant, les mécanismes de pondération et de répartition des votes font que les liens internes ne peuvent seuls remonter la notation d’un site dans son ensemble – ou très peu. En revanche, ils ont pour effet soit de concentrer la note sur certaines pages, soit au contraire de répartir la note. Schématiquement, un site comportant beaucoup de liens internes aura tendance à propager et moyenner ses notes vers l’ensemble de ses pages.