Google a mis à jour sa documentation sur Googlebot et ses robots d'exploration pour ajouter une gamme d'adresses IP pour les robots déclenchés par les utilisateurs de produits Google. Les noms des flux ont changé, ce qui est important pour les éditeurs qui mettent sur liste blanche les adresses IP contrôlées par Google. Le changement sera utile pour les éditeurs qui souhaitent bloquer les scrapers qui utilisent le cloud de Google et d'autres robots d'exploration non directement associés à Google lui-même.
- Google a mis à jour sa documentation sur le Google Crawler pour ajouter une nouvelle liste d'adresses IP.
- La nouvelle liste comprend deux types de plages d'adresses IP, contrôlées et non contrôlées par Google.
- Cette mise à jour est importante pour les éditeurs qui souhaitent filtrer ou bloquer les robots d'exploration.
Nouvelle liste d'adresses IP
Google indique que la liste contient des plages d'adresses IP utilisées depuis longtemps et qu'il ne s'agit donc pas de nouvelles plages d'adresses IP.
Il existe deux types de plages d'adresses IP :
- Plages d'adresses IP initiées par les utilisateurs mais contrôlées par Google et résolues en un nom d'hôte Google.com.
Il s'agit d'outils tels que Google Site Verifier et probablement l'outil Rich Results Tester - Plages d'adresses IP initiées par les utilisateurs mais non contrôlées par Google et résolues en un nom d'hôte gae.googleusercontent.com.
Il s'agit d'applications qui se trouvent sur le cloud Google ou de scripts d'applications appelés à partir de Gooogle Sheets
Les listes qui correspondent à chaque catégorie sont désormais différentes.
Auparavant, la liste qui correspondait aux adresses IP de Google était celle-ci : special-crawlers.json (résolu en gae.googleusercontent.com)
Désormais la liste des « robots spéciaux » correspond aux robots qui ne sont pas contrôlés par Google.
«Les adresses IP de l'objet user-triggered-fetchers.json sont résolues en noms d'hôte gae.googleusercontent.com. Ces IP sont utilisées, par exemple, si un site fonctionnant sur Google Cloud (GCP) dispose d'une fonctionnalité qui nécessite de récupérer des flux RSS externes à la demande de l'utilisateur de ce site.
La nouvelle liste qui correspond aux robots contrôlés par Google est :
fetchers-déclenchés par l'utilisateur-google.json
« Outils et fonctions du produit où l'utilisateur final déclenche une récupération. Par exemple, Google Site Verifier agit à la demande d'un utilisateur. Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent les règles robots.txt.
Les récupérateurs contrôlés par Google proviennent des adresses IP de l'objet user-triggered-fetchers-google.json et se résolvent en un nom d'hôte google.com.
La liste des adresses IP des robots d'exploration de Google Cloud et d'applications que Google ne contrôle pas peut être trouvée ici :
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json
La liste des adresses IP de Google déclenchées par les utilisateurs et contrôlées par Google est ici :
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json
Nouvelle section de contenu
Il y a une nouvelle section de contenu qui explique en quoi consiste la nouvelle liste.
« Les récupérateurs contrôlés par Google proviennent des adresses IP de l'objet user-triggered-fetchers-google.json et sont résolus en un nom d'hôte google.com. Les adresses IP dans l'objet user-triggered-fetchers.json sont résolues en noms d'hôte gae.googleusercontent.com. Ces IP sont utilisées, par exemple, si un site fonctionnant sur Google Cloud (GCP) dispose d'une fonctionnalité qui nécessite de récupérer des flux RSS externes à la demande de l'utilisateur de ce site. ***-***-***-***.gae.googleusercontent.com ou google-proxy-***-***-***-***.google.com collecteurs déclenchés par l'utilisateur .json et user-triggered-fetchers-google.json »
Journal des modifications de Google
Le journal des modifications de Google explique les changements comme ceci :
« Exportation d'une plage supplémentaire d'adresses IP de récupération de Google
Quoi : Ajout d'une liste supplémentaire d'adresses IP pour les récupérateurs contrôlés par les produits Google, par opposition, par exemple, à un script Apps contrôlé par l'utilisateur. La nouvelle liste, user-triggered-fetchers-google.json, contient des plages IP utilisées depuis longtemps.
Pourquoi : Il est devenu techniquement possible d’exporter les gammes.
Lisez la documentation mise à jour :
Vérification de Googlebot et d'autres robots d'exploration Google
Lisez l'ancienne documentation :
Archive.org – Vérification de Googlebot et d'autres robots d'exploration Google
Image en vedette par Shutterstock/JHVEPhoto