11 Problèmes de crawlabilité et comment les résoudre

Publié le 6 juillet 2023 par Lucie Blanchard

Vous vous demandez pourquoi certaines de vos pages n’apparaissent pas dans Google ? Les problèmes d’exploration pourraient en être la cause. Dans ce guide, nous aborderons les problèmes d’exploration, leur impact sur le référencement et la manière de les résoudre. Commençons.

Quels sont les problèmes de crawlabilité ?

Les problèmes d’exploration sont des problèmes qui empêchent les moteurs de recherche d’accéder aux pages de votre site Web. Lorsque des moteurs de recherche tels que Google explorent votre site, ils utilisent des robots automatisés pour lire et analyser vos pages. S’il existe des problèmes d’exploration, ces robots peuvent rencontrer des obstacles qui entravent leur capacité. pour accéder correctement à vos pages. Les problèmes d’exploration courants incluent :

Liens sans suivi

Boucles de redirection

Mauvaise structure du site

Vitesse lente du site

Comment les problèmes de crawlabilité affectent-ils le référencement ?

Les problèmes de crawlabilité peuvent affecter considérablement votre jeu SEO. Les moteurs de recherche agissent comme des explorateurs lorsqu’ils explorent votre site Web, essayant de trouver autant de contenu que possible. Mais si votre site a des problèmes d’exploration, certaines (ou toutes) les pages sont pratiquement invisibles pour les moteurs de recherche. Ils ne peuvent pas les trouver. Cela signifie qu’ils ne peuvent pas les indexer, c’est-à-dire les enregistrer pour les afficher dans les résultats de recherche. Cela signifie une perte de trafic et de conversions potentiels des moteurs de recherche (organiques). Vos pages doivent être à la fois explorables et indexables afin de se classer dans les moteurs de recherche.

11 problèmes de crawlabilité et comment les résoudre

1. Pages bloquées dans Robots.txt

Les moteurs de recherche examinent d’abord votre fichier robots.txt. Cela leur indique quelles pages ils peuvent et ne peuvent pas explorer. Si votre fichier robots.txt ressemble à ceci, cela signifie que l’ensemble de votre site Web est bloqué pour l’exploration : User-agent : * Disallow : /Résoudre ce problème est simple. Remplacez la directive « disallow » par « allow ». Ce qui devrait permettre aux moteurs de recherche d’accéder à l’intégralité de votre site Web.User-agent : *Autoriser : /Dans d’autres cas, seules certaines pages ou sections sont bloquées. Par exemple : User-agent : * Disallow : /products/ Ici, toutes les pages du sous-dossier « produits » ne peuvent pas être explorées. Résolvez ce problème en supprimant le sous-dossier ou la page spécifié. Les moteurs de recherche ignorent la directive vide « disallow ». User-agent : * Disallow : vous pouvez également utiliser la directive « allow » au lieu de « disallow » pour demander aux moteurs de recherche d’explorer l’intégralité de votre site. Comme ceci : User-agent : * Autoriser : /Note: Il est courant de bloquer certaines pages de votre fichier robots.txt que vous ne souhaitez pas classer dans les moteurs de recherche, telles que les pages d’administration et de remerciement. C’est un problème d’exploration uniquement lorsque vous bloquez des pages censées être visibles dans les résultats de recherche.

2. Liens sans suivi

La balise nofollow indique aux moteurs de recherche de ne pas explorer les liens d’une page Web. La balise ressemble à ceci :Si cette balise est présente sur vos pages, les liens qu’elle contient peuvent généralement ne pas crawlé.Cela crée des problèmes d’exploration sur votre site.Analysez votre site Web avec l’outil d’audit de site de Semrush pour vérifier les liens nofollow.Ouvrez l’outil, entrez votre site Web et cliquez sur « Commencer Audit. »La fenêtre « Paramètres d’audit du site » apparaîtra. À partir de là, configurez les paramètres de base et cliquez sur « Commencer Placer Audit. » Une fois l’audit terminé, accédez à la section »Questions» et recherchez « nofollow ». Pour voir s’il y a des liens nofollow détectés sur votre site. Si des liens nofollow sont détectés, cliquez sur «XXX liens internes sortants contiennent l’attribut nofollow” pour afficher une liste des pages qui ont une balise nofollow. Passez en revue les pages et supprimez les balises nofollow si elles ne devraient pas être là.

3. Mauvaise architecture du site

L’architecture du site est la façon dont vos pages sont organisées. Une architecture de site robuste garantit que chaque page est à quelques clics de la page d’accueil et qu’il n’y a pas de pages orphelines (c’est-à-dire des pages sans liens internes pointant vers elles). Les sites dotés d’une architecture de site solide permettent aux moteurs de recherche d’accéder facilement à toutes les pages. Une mauvaise architecture de site peut créer des problèmes d’exploration. Notez l’exemple de structure de site illustré ci-dessous. Il a des pages orphelines. Il n’y a pas de chemin lié pour que les moteurs de recherche accèdent à ces pages à partir de la page d’accueil. Ainsi, ils peuvent passer inaperçus lorsque les moteurs de recherche explorent le site. La solution est simple : Créez une structure de site qui organise logiquement vos pages dans une hiérarchie avec des liens internes. Comme ceci : Dans l’exemple ci-dessus, la page d’accueil renvoie à des catégories, qui relient ensuite à des pages individuelles de votre site. Et fournissez un chemin clair aux crawlers pour trouver toutes vos pages.

4. Manque de liens internes

Les pages sans liens internes peuvent créer des problèmes d’exploration. Les moteurs de recherche auront du mal à découvrir ces pages. Identifiez vos pages orphelines. Et ajoutez-y des liens internes pour éviter les problèmes de crawlabilité.Recherchez les pages orphelines à l’aide de l’outil d’audit de site de Semrush.Configurez l’outil pour exécuter votre premier audit.Une fois l’audit terminé, rendez-vous surQuestions» et recherchez « orphelin ». Vous verrez s’il y a des pages orphelines présentes sur votre site. Pour résoudre ce problème potentiel, ajoutez des liens internes vers des pages orphelines à partir des pages pertinentes de votre site.

5. Mauvaise gestion du sitemap

Un sitemap fournit une liste des pages de votre site que vous souhaitez que les moteurs de recherche crawl, index et classement. Si votre sitemap exclut des pages destinées à être explorées, elles peuvent passer inaperçues. Et créez des problèmes de crawlabilité.Résolvez en recréant un sitemap qui inclut toutes les pages destinées à être explorées.Un outil tel que XML Sitemaps peut vous aider.Saisissez l’URL de votre site Web et l’outil générera automatiquement un sitemap pour vous.Ensuite, enregistrez le fichier en tant que « sitemap.xml » et téléchargez-le dans le répertoire racine de votre site Web. Par exemple, si votre site Web est www.example.com, l’URL de votre sitemap doit être accessible à l’adresse www.example.com/sitemap.xml.Enfin, soumettez votre sitemap à Google dans votre compte Google Search Console.Cliquez sur « Plans de site” dans le menu de gauche. Entrez l’URL de votre sitemap et cliquez sur « Soumettre.”

6. Balises « sans index »

Une balise Meta Robots « noindex » indique aux moteurs de recherche de ne pas indexer la page. La balise ressemble à ceci :Bien que la balise « noindex » soit destinée à contrôler l’indexation, elle peut créer problèmes d’exploration si vous les laissez sur vos pages pendant une longue période. Google traite les balises « noindex » à long terme comme « nofollow », comme l’a confirmé John Muller de Google., si vos pages ne sont pas explorées, les balises « noindex » à long terme pourraient en être la cause. Identifiez les pages avec une balise « noindex » à l’aide de l’outil d’audit de site de Semrush. l’exploration est terminée, rendez-vous sur le « Questions» et recherchez « noindex ». L’outil listera les pages de votre site avec une balise « noindex ». Passez en revue les pages et supprimez la balise « noindex » le cas échéant.Note: Avoir une balise « noindex » sur certaines pages – les pages de destination au paiement par clic (PPC) et les pages de remerciement, par exemple – est une pratique courante pour les garder hors de l’index de Google. C’est un problème uniquement lorsque vous n’indexez pas les pages destinées à être classées dans les moteurs de recherche. Supprimez la balise « noindex » sur ces pages pour éviter les problèmes d’indexation et d’exploration.

7. Vitesse lente du site

La vitesse du site est la vitesse à laquelle votre site se charge. La lenteur de la vitesse du site peut avoir un impact négatif sur l’exploration. Lorsque les robots des moteurs de recherche visitent votre site, ils disposent d’un temps limité pour explorer, ce que l’on appelle communément un budget d’exploration. La vitesse lente du site signifie que le chargement des pages prend plus de temps. Et réduit le nombre de pages que les robots peuvent explorer au cours de cette session d’exploration. Cela signifie que des pages importantes pourraient être exclues de l’exploration. Travaillez pour résoudre ce problème en améliorant les performances et la vitesse globales de votre site Web. Commencez par notre guide d’optimisation de la vitesse des pages.

8. Liens rompus internes

Les liens brisés sont des hyperliens qui pointent vers des pages mortes de votre site. Ils renvoient une « erreur 404 » comme celle-ci : les liens brisés peuvent avoir un impact significatif sur l’exploration du site Web. Les robots des moteurs de recherche suivent les liens pour découvrir et explorer davantage de pages sur votre site Web. Un lien brisé agit comme une impasse et empêche les robots des moteurs de recherche d’accéder à la page liée. Cette interruption peut entraver l’exploration approfondie de votre site Web. Pour trouver des liens brisés sur votre site, utilisez l’outil d’audit de site.Questions » et recherchez « cassé ». Ensuite, cliquez sur « # liens internes sont rompus.” Vous verrez un rapport répertoriant tous vos liens rompus. Pour réparer les liens rompus, modifiez le lien, restaurez la page manquante ou ajoutez une redirection 301 vers une autre page pertinente de votre site.

9. Erreurs côté serveur

Les erreurs côté serveur, telles qu’un code d’état HTTP 500, perturbent le processus d’exploration. Les erreurs côté serveur indiquent que le serveur n’a pas pu répondre à la demande, ce qui rend difficile l’accès et l’exploration du contenu de votre site Web par les bots. Surveillez régulièrement la santé du serveur de votre site Web pour identifier et résoudre les erreurs côté serveur. L’outil d’audit de site de Semrush peut vous aider. Recherchez « 5xx » dans le «Questions » pour vérifier les erreurs côté serveur. Si des erreurs sont présentes, cliquez sur « # pages ont renvoyé un code d’état 5XX” pour afficher une liste complète des pages concernées.Ensuite, envoyez cette liste à votre développeur pour configurer correctement le serveur.

10. Boucles de redirection

Une boucle de redirection se produit lorsqu’une page redirige vers une autre, qui à son tour redirige vers la page d’origine, formant une boucle continue. Les boucles de redirection piègent les robots des moteurs de recherche dans un cycle sans fin de redirections entre deux (ou plusieurs) pages. Les robots continuent de suivre les redirections sans atteindre la destination finale, ce qui fait perdre un temps crucial au budget d’exploration qui pourrait être consacré à des pages importantes. Résolvez en identifiant et en corrigeant les boucles de redirection sur votre site. L’outil d’audit de site peut vous aider.Questionsonglet « . L’outil affichera les boucles de redirection et offrira des conseils sur la façon de les corriger.

11. Restrictions d’accès

Les pages avec des restrictions d’accès, telles que celles derrière les formulaires de connexion ou les paywalls, peuvent empêcher les robots des moteurs de recherche d’explorer et d’indexer ces pages. Par conséquent, ces pages peuvent ne pas apparaître dans les résultats de recherche, ce qui limite leur visibilité pour les utilisateurs. Il est logique d’avoir certaines pages restreintes. Par exemple, les sites Web basés sur l’adhésion ou les plates-formes d’abonnement ont souvent des pages restreintes qui ne sont accessibles qu’aux membres payants ou aux utilisateurs enregistrés. Cela permet au site de fournir un contenu exclusif, des offres spéciales ou des expériences personnalisées. Pour créer un sentiment de valeur et inciter les utilisateurs à s’abonner ou à devenir membres.Mais si des parties importantes de votre site Web sont restreintes, c’est une erreur d’exploration.Évaluez la nécessité d’un accès restreint pour chaque page. Gardez les restrictions sur les pages qui en ont vraiment besoin. Supprimer les restrictions sur les autres.

Débarrassez votre site Web des problèmes de crawlabilité

Les problèmes de crawlabilité affectent vos performances SEO. L’outil d’audit de site de Semrush est une solution unique pour détecter et résoudre les problèmes qui affectent l’exploration. Inscrivez-vous gratuitement pour commencer.

11 problèmes de crawlabilité et comment les résoudre

Quels sont les problèmes de crawlabilité ?

Comment les problèmes de crawlabilité affectent-ils le référencement ?

11 problèmes de crawlabilité et comment les résoudre

1. Pages bloquées dans Robots.txt

2. Liens sans suivi

3. Mauvaise architecture du site

4. Manque de liens internes

5. Mauvaise gestion du sitemap

6. Balises « sans index »

7. Vitesse lente du site

8. Liens rompus internes

9. Erreurs côté serveur

10. Boucles de redirection

11. Restrictions d’accès

Débarrassez votre site Web des problèmes de crawlabilité

Lucie Blanchard

7 Conseils de rédaction de pages de destination pour générer plus de conversions

Abus de réputation sur le site Google : la FAQ répond aux préoccupations

Gains rapides pour votre site