20/09/2024

Qu’est-ce qui vient de changer dans la documentation Google sur les crawlers ?

Google a récemment remanié en profondeur sa documentation sur les crawlers, simplifiant la page principale et ajoutant trois nouvelles sections détaillées. Ce changement vise à offrir un accès plus facile à des informations techniques précises. Voici un aperçu des modifications apportées, des suppressions, des ajouts et des nouvelles sections.

Points clés à retenir :

L’ancienne page intitulée « Aperçu des crawlers » a été scindée en trois nouvelles pages pour une meilleure lisibilité.
Une section inédite sur les propriétés techniques des crawlers a été ajoutée.
Les chaînes User-Agent ont été mises à jour et des informations concernant l’encodage des contenus ont été intégrées.

Une refonte complète de la documentation

L’ancienne page « Aperçu des crawlers » a été divisée en trois nouvelles sections distinctes : les crawlers principaux, ceux à usage spécifique, et les fetchers déclenchés par les utilisateurs. Cette restructuration répond à la complexité croissante de la page initiale, devenue difficile à mettre à jour avec de nouvelles informations techniques sans la surcharger.

Avant cette mise à jour, tous les crawlers de Google étaient regroupés sur une même page, sans distinction claire de leurs rôles spécifiques, ce qui rendait la navigation fastidieuse. Aujourd’hui, chaque type de crawler bénéficie de sa propre section, permettant une consultation plus fluide et une mise à jour simplifiée pour l’avenir.

Détails des changements

Nouvelles pages de documentation :

Crawlers principaux : Cette page rassemble les informations sur les bots les plus utilisés, tels que Googlebot et ses variantes (Googlebot Image, Googlebot Video). Bien que la plupart des informations restent inchangées, elles sont désormais mieux organisées. Ces bots suivent toujours les règles du fichier robots.txt.
Crawlers à usage spécifique : Une nouvelle page est dédiée aux crawlers utilisés pour des produits spécifiques, comme AdsBot et Mediapartners-Google, employés par des services tels que AdSense et Google Ads. Ces bots, parfois exécutés depuis des adresses IP distinctes, sont maintenant bien séparés des crawlers généraux.
Fetchers déclenchés par les utilisateurs : Cette section couvre des bots comme Google Site Verifier et Google Read Aloud, activés par les utilisateurs. Contrairement aux autres bots, ils ne respectent pas toujours les directives de robots.txt. La documentation offre des exemples concrets d’utilisation.

Introduction des propriétés techniques des crawlers

Une autre nouveauté majeure est l’ajout d’une section consacrée aux propriétés techniques des crawlers, inexistante dans la version précédente de la documentation. Elle détaille les différents types d’encodage supportés, tels que gzip, deflate et Brotli (br), ainsi que la manière dont ces encodages sont indiqués dans l’en-tête Accept-Encoding des requêtes des crawlers.

Extrait de la nouvelle documentation :

« Les crawlers et fetchers de Google supportent les encodages de contenu suivants : gzip, deflate et Brotli (br). Ces encodages sont indiqués dans l’en-tête Accept-Encoding de chaque requête effectuée. »

Avant, aucune information précise n’était fournie concernant l’encodage du contenu, ce qui est désormais clairement détaillé, offrant aux gestionnaires de sites une meilleure compréhension des interactions techniques avec les crawlers de Google.

Mise à jour des chaînes User-Agent

Certaines chaînes User-Agent ont été mises à jour, avec par exemple l’ajout d’une chaîne spécifique pour le crawler GoogleProducer. D’autres bots, comme Google-InspectionTool, sont également documentés avec plus de précisions.

Extrait de la nouvelle documentation :

« GoogleProducer utilise la chaîne d’agent utilisateur suivante : GoogleProducer/1.0. »

Cette information n’était pas présente dans la version précédente.

Support du HTTP/2

La documentation inclut désormais une mention de l’utilisation de HTTP/2 par les crawlers de Google, en plus du HTTP/1.1. Cette mise à jour apporte une meilleure efficacité dans le traitement des requêtes.

Avant : La documentation ne faisait aucune référence au HTTP/2.
Après : Il est maintenant précisé que les crawlers peuvent utiliser ce protocole plus moderne.

Une préparation pour l’avenir

En restructurant la documentation en sous-pages dédiées, Google anticipe un avenir où davantage d’informations techniques seront ajoutées sans compliquer l’expérience utilisateur. Cette approche modulaire permet une mise à jour plus agile et aide les gestionnaires de sites à mieux appréhender les interactions entre les différents types de crawlers et leurs sites.

Ainsi, Google adresse un problème fréquent dans les pages de documentation : la surcharge d’informations. En segmentant les données par catégorie et en introduisant de nouvelles sections techniques, la lisibilité et la qualité des informations sont améliorées.