[ BLOG ]

Google se penche sur la standardisation du fichier robots.txt

Robots.txt - Google standard REP - Wimersion

Google a annoncé cette semaine, par une série de posts sur son blog dédié aux webmasters, avoir enclenché un projet de standardisation du REP (Robots Exclusion Protocol).

Rappel du périmètre d’action du fichier Robots.txt

Le fichier robots.txt et son protocole ont été conçus en 1994 par Martijn Koster (aidé par l’écosystème) suite à la propagation des robots crawlers perturbants les performances des serveurs.

Par convention, les crawlers consultent le fichier et assimilent ses consignes avant d’explorer le site.
On y retrouvait, à l’origine, la liste des ressources qui ne devaient pas être explorées, indiquées via la célèbre directive «Disallow:». Le sitemap pouvait également y être indiqué («Sitemap:»).

Au fil du temps, d’autres directives ont été assimilées par certains robots, sans que cela ne soit officiel :
– La directive Allow (Google, Yahoo, Bing, Yandex), permettant d’indiquer que l’on souhaite indexer un document précis dans un répertoire pourtant indiqué dans une directive Disallow.
– La directive Noindex (Google), pour spécifier que l’on ne veut pas indexer une page (ou plusieurs pages, en configurant la directive selon la construction de l’url).
– Le paramètre Crawl-Delay (Yahoo, Bing, Yandex), spécifiant l’attente que doit respecter le robot entre chaque requête.

Google veut simplifier et améliorer l’utilisation du fichier en ajustant le REP (Robots Exclusion Protocol)

Pour les 25 ans de la création du REP, Google a décidé de prendre les choses en main, en ayant la volonté de simplifier l’utilisation du robots.txt pour les webmasters après avoir constaté pendant des années qu’une trop grande partie des robots.txt contiennent des consignes contradictoires.

En collaboration avec le créateur à l’origine du protocole, des webmasters et d’autres moteurs de recherches, Google a documenté comment le REP est utile dans le web actuel. L’ensemble a été proposé à l’IETF.

Cette proposition ne vise pas à changer les règles créées en 1994, mais à étendre les fonctionnalités pour les besoins actuels.
Deux propositions retiennent notre attention :
– La création d’un temps maximum de mise en cache.
– L’ajout d’une précaution lorsque le fichier a été inaccessible à cause d’un problème serveur : les pages connues interdites au crawl ne seront pas explorées pendant une période raisonnablement longue.

C’est maintenant au tour de l’IETF d’observer la proposition et de donner suite à l’initiative d’évolution du REP.

Les premiers changements concrets à prévoir dans votre robots.txt

En outre, dans un autre billet de blog, Google a spécifié que son crawler ne prendra plus en compte les règles non officielles à partir du 1er Septembre 2019.

Cela signifie notamment que la directive Noindex deviendra inefficace dans le robots.txt.

Cette utilisation était déjà déconseillée, les SEO préconisants plutôt l’ajout de cette consigne dans les balises meta robots.

Pour les webmasters qui ont tout de même instauré ces consignes dans le fichier robots.txt, Google liste les alternatives :
– L’utilisation du Noindex dans les balises meta robots
– Les codes de statut 404 ou 410 pour les pages supprimées
– La protection par mot de passe pour les sections réservées
– Le disallow préventif

Besoin de faire le point sur votre fichier Robots.txt ?

Nous sommes disponibles pour vous guider dans l’ajustement des consignes de votre fichier, en relation avec votre stratégie SEO globale et la structure de votre site.
Contactez-nous dès maintenant pour profiter des conseils de nos chefs de projets spécialisés SEO.

Partagez l'article :

Partager sur facebook
Partager sur twitter
Partager sur linkedin