Héberger des ressources sur un nom d'hôte différent pour économiser le budget d'exploration

Publié le 3 décembre 2024 par Alexandre Duval

Google Search Central a lancé une nouvelle série intitulée « Crawling December » pour fournir des informations sur la manière dont Googlebot explore et indexe les pages Web.

Google Search Central lance la série «Crawling December» pour expliquer l’exploration par Googlebot.
Le premier article aborde les bases de l’exploration et la gestion des ressources.
Des recommandations sont données pour optimiser le budget d’exploration.
Les outils de surveillance aident à comprendre comment Google explore les ressources d’un site.

Google publiera chaque semaine ce mois-ci un nouvel article explorant divers aspects du processus d'exploration qui ne sont pas souvent abordés mais qui peuvent avoir un impact significatif sur l'exploration de sites Web.

Le premier article de la série couvre les bases de l'exploration et met en lumière des détails essentiels mais moins connus sur la façon dont Googlebot gère les ressources des pages et les budgets d'exploration.

Notions de base de l'exploration

Les sites Web d'aujourd'hui sont complexes en raison de JavaScript et de CSS avancés, ce qui les rend plus difficiles à explorer que les anciennes pages HTML uniquement. Googlebot fonctionne comme un navigateur Web mais selon un calendrier différent.

Lorsque Googlebot visite une page Web, il télécharge d'abord le code HTML à partir de l'URL principale, qui peut renvoyer vers du JavaScript, du CSS, des images et des vidéos. Ensuite, le service de rendu Web (WRS) de Google utilise Googlebot pour télécharger ces ressources afin de créer la page vue finale.

Voici les étapes dans l'ordre :

Téléchargement HTML initial
Traitement par le service de rendu Web
Récupération de ressources
Construction de la dernière page

Gestion du budget d'exploration

L'exploration de ressources supplémentaires peut réduire le budget d'exploration du site Web principal. Pour vous aider, Google indique que « WRS essaie de mettre en cache toutes les ressources (JavaScript et CSS) utilisées dans les pages qu'il affiche ».

Il est important de noter que le cache WRS dure jusqu'à 30 jours et n'est pas influencé par les règles de mise en cache HTTP définies par les développeurs.

Cette stratégie de mise en cache permet d'économiser le budget d'exploration d'un site.

Recommandations

Cet article donne aux propriétaires de sites des conseils sur la façon d'optimiser leur budget d'exploration :

Réduire l'utilisation des ressources: utilisez moins de ressources pour créer une bonne expérience utilisateur. Cela permet d'économiser le budget d'exploration lors du rendu d'une page.
Héberger les ressources séparément: placez les ressources sur un nom d'hôte différent, comme un CDN ou un sous-domaine. Cela peut aider à alléger le fardeau du budget d’exploration de votre site principal.
Utilisez judicieusement les paramètres de contournement du cache: Soyez prudent avec les paramètres de contournement du cache. La modification des URL des ressources peut obliger Google à les revérifier, même si le contenu est le même. Cela peut gaspiller votre budget d'exploration.

En outre, Google prévient que bloquer l'exploration des ressources avec robots.txt peut être risqué.

Si Google ne peut pas accéder à une ressource nécessaire au rendu, il peut avoir du mal à obtenir le contenu de la page et à le classer correctement.

En rapport: 9 conseils pour optimiser le budget d'exploration pour le référencement

Outils de surveillance

L'équipe Search Central affirme que le meilleur moyen de voir quelles ressources Googlebot explore est de vérifier les journaux d'accès bruts d'un site.

Vous pouvez identifier Googlebot par son adresse IP à l'aide des plages publiées dans la documentation du développeur de Google.

Pourquoi c'est important

Cet article clarifie trois points clés qui ont un impact sur la façon dont Google recherche et traite le contenu de votre site :

La gestion des ressources affecte directement votre budget d'exploration, donc l'hébergement de scripts et de styles sur des CDN peut aider à le préserver.
Google met en cache les ressources pendant 30 jours quels que soient vos paramètres de cache HTTP, ce qui permet de conserver votre budget d'exploration.
Le blocage de ressources critiques dans robots.txt peut se retourner contre Google en empêchant Google de restituer correctement vos pages.

Comprendre ces mécanismes aide les référenceurs et les développeurs à prendre de meilleures décisions concernant l'hébergement et l'accessibilité des ressources – des choix qui ont un impact direct sur la façon dont Google peut explorer et indexer leurs sites.

En rapport: Google avertit : les paramètres d'URL créent des problèmes d'exploration

Image en vedette : ArtemisDiana/Shutterstock

FAQ

Qu'est-ce que le DNS load balancing ?

Le DNS load balancing est une méthode de répartition dynamique du trafic sur un réseau en utilisant le système de noms de domaine (DNS). Elle consiste à attribuer plusieurs adresses IP à un même nom de domaine, ce qui permet de diriger les requêtes vers différents serveurs pour équilibrer la charge de travail. Cela permet d’améliorer les performances et la disponibilité du site web ou du service hébergé. Le DNS load balancing peut également être utilisé pour rediriger les utilisateurs vers un serveur disponible en cas de panne ou d’indisponibilité temporaire d’un autre serveur.

Comment fonctionne le failover dans le DNS load balancing ?

Le failover dans le DNS load balancing fonctionne de manière à garantir une haute disponibilité d’un service en redirigeant automatiquement les requêtes vers un serveur de secours en cas de panne du serveur principal. Cela est possible grâce à l’utilisation de divers mécanismes tels que la mise à jour des enregistrements DNS, les timeout et les probes pour détecter la panne du serveur principal. Ensuite, le DNS load balancer redistribue équitablement le trafic entre les différents serveurs disponibles afin d’assurer une continuité du service sans interruption pour l’utilisateur.

Peut-on utiliser le DNS load balancing avec Active Directory ?

Oui, il est possible d’utiliser le DNS load balancing avec Active Directory. Cela permet de répartir la charge entre les différents serveurs du réseau pour une meilleure performance et éviter les surcharges. Cependant, ce type de configuration nécessite une bonne planification et des compétences techniques avancées pour être mis en place efficacement. En cas de doute, il est recommandé de faire appel à un professionnel pour assurer la mise en oeuvre de cette solution.

Comment mettre en place un DNS load balancing sur Windows Server 2026 ?

Pour mettre en place un DNS load balancing sur Windows Server 2026, il faut tout d’abord installer et configurer le rôle de serveur DNS sur l’ordinateur. 2. Ensuite, il est nécessaire de créer une zone de recherche directe pour le domaine concerné et y ajouter les enregistrements A et AAAA correspondant aux différents serveurs devant être chargés. 3. Dans les propriétés du serveur DNS, dans l’onglet « Avancé », il est possible de sélectionner l’option « Round Robin » qui permettra la rotation des adresses IP renvoyées lors des requêtes de résolution. 4. Enfin, il est recommandé d’utiliser également un outil externe (comme NLB – Network Load Balancing) pour distribuer équitablement la charge entre les différents serveurs ajoutés à la liste ronde afin d’optimiser les performances globales du système.

Quels sont les avantages de l'utilisation de Cloudflare pour le DNS load balancing ?

Le DNS load balancing de Cloudflare permet une distribution automatique du trafic vers les différents serveurs disponibles, assurant ainsi une meilleure répartition de la charge et une plus grande résilience pour le site web. 2. En utilisant Cloudflare, il est possible de créer des règles personnalisées pour définir précisément comment le trafic doit être réparti entre les serveurs, en fonction de critères tels que la localisation géographique des utilisateurs. 3. Grâce à sa technologie d’apprentissage automatique (machine learning), Cloudflare est capable d’ajuster constamment la distribution du trafic en temps réel, afin d’optimiser les performances et éviter toute surcharge sur un serveur spécifique. 4. L’utilisation du DNS load balancing de Cloudflare peut également améliorer la sécurité en détectant et en bloquant automatiquement tout trafic malveillant ou suspect avant qu’il n’atteigne le serveur cible, ce qui protège ainsi vos données sensibles.