Pour savoir où on va, il faut savoir d'où l'on vient

Vous avez
une question ?
Un projet ?

Contactez nous !
 

Contactez-nous

Vous avez une question ? un projet ? 
Vous souhaitez plus d'informations sur un produit ? sur notre offre ? 
Contactez-nous, on vous répond sous 4H.

eZHumanCAPTCHACode reload
retour

Le fichier Robots.txt

Le fichier Robots.txt

Les robots crawlers sont bien élevés. Surtout ceux des grands moteurs de recherche.

D’une part ils se signalent au site, c’est-à-dire qu’ils ne se font pas passer pour un utilisateur normal utilisant un navigateur normal. Ils se font connaître en renseignant dans leurs requêtes un champ particulier (user-agent), qui permet de les reconnaître. Ainsi, un site peut analyser ce champ, identifier le crawler, et présenter le cas échéant des pages différentes de celles que voient les visiteurs normaux. Nous verrons que cela peut faire partie des techniques visant à optimiser le référencement.

D’autre part, les robots respectent scrupuleusement les consignes qui leurs sont données par le site visité. Avant de visiter un site, le crawler demande à lire un fichier situé à la racine du site, et nommé robots.txt. Ce petit fichier, lorsqu’il existe, donne des instructions au robot, en particulier pour lui préciser le rythme de requête qu’il doit respecter, afin de ne pas submerger le serveur, ainsi que les ‘branches’ du site qu’il ne doit pas indexer.

Les indications peuvent distinguer l’un et l’autre des robots visiteurs.

Par exemple les lignes suivantes interdisent les répertoires /cgi-bin/ et /images/ aux robots.

  • User-agent: *
  • Disallow: /cgi-bin/
  • Disallow: /images/

Tandis que la ligne suivante interdit seulement le document email.htm au robot de Google :

  • User-agent: googlebot
  • Disallow: email.htm

Un autre exemple, pour un site voulant rester « secret » :

  • User-agent: *
  • Disallow: /

Autrement dit : « à tous les robots : n’indexez rien ! ».

Pour plus d’informations : http://www.searchengineworld.com/robots/robots_tutorial.htm, par exemple.

En fait, il semble que l’utilisation de robots.txt tombe un peu en désuétude ; on observe que beaucoup de grands sites n’en font pas usage. Sans doute considèrent-ils que le fonctionnement par défaut des robots les satisfait.