Crawlabilité et indexabilité : comment ils affectent le référencement

Publié le 1 novembre 2016 par Lucie Blanchard

Dites-moi, quelle est la première chose qui vous vient à l’esprit lorsque vous pensez au classement d’un site Web?

Contenu? Ou peut-être des backlinks?

J’avoue que les deux sont des facteurs cruciaux pour positionner un site Web dans les résultats de recherche. Mais ils ne sont pas les seuls.

En fait, deux autres facteurs jouent un rôle important dans le référencement: la crawlabilité et l’indexabilité. Pourtant, la plupart des propriétaires de sites Web n’en ont jamais entendu parler.

Dans le même temps, même de petits problèmes d’indexation ou de capacité d’exploration peuvent entraîner la perte de son classement sur votre site. Et cela quel que soit le contenu de qualité ou le nombre de backlinks dont vous disposez.

Que sont l’explorabilité et l’indexabilité?

Pour comprendre ces termes, commençons par examiner comment les moteurs de recherche découvrent et indexent les pages. Pour en savoir plus sur toute page nouvelle (ou mise à jour), ils utilisent ce que l’on appelle des robots d’exploration, des robots dont le but est de suivre des liens sur le Web avec un seul objectif en tête :

Pour rechercher et indexer un nouveau contenu Web.

Comme l’explique Google :

«Les robots d’exploration consultent les pages Web et suivent les liens sur ces pages, comme vous le feriez si vous parcouriez du contenu sur le Web. Ils vont de lien en lien et ramènent des données sur ces pages Web aux serveurs de Google. »

Matt Cutts, anciennement de Google, a publié une vidéo intéressante expliquant le processus en détail. Vous pouvez le regarder ci-dessous:

En bref, ces deux termes se rapportent à la capacité d’un moteur de recherche à accéder et à indexer les pages d’un site Web pour les ajouter à son index.

Capacité d’exploration décrit la capacité du moteur de recherche à accéder au contenu d’une page et à l’explorer.

Si un site n’a aucun problème de capacité d’exploration, les robots d’exploration peuvent accéder facilement à tout son contenu en suivant les liens entre les pages.

Toutefois, des liens rompus ou des impasses peuvent entraîner des problèmes d’exploration – l’incapacité du moteur de recherche à accéder à un contenu spécifique sur un site.

Indexabilité, d’autre part, fait référence à la capacité du moteur de recherche d’analyser et d’ajouter une page à son index.

Même si Google peut explorer un site, il ne peut pas nécessairement indexer toutes ses pages, généralement en raison de problèmes d’indexation.

Qu’est-ce qui affecte l’exploration et l’indexabilité?

Structure du site

La structure informationnelle du site Web joue un rôle crucial dans sa capacité d’exploration.

Par exemple, si votre site contient des pages qui ne sont liées à aucun autre endroit, les robots d’exploration peuvent avoir des difficultés à y accéder.

Bien sûr, ils pourraient toujours trouver ces pages via des liens externes, à condition que quelqu’un les référence dans leur contenu. Mais dans l’ensemble, une structure faible pourrait entraîner des problèmes de capacité d’exploration.

Structure des liens internes

Un robot d’exploration Web parcourt le Web en suivant des liens, comme vous le feriez sur n’importe quel site Web. Et par conséquent, il ne peut trouver que les pages vers lesquelles vous créez un lien à partir d’un autre contenu.

Une bonne structure de liens internes, par conséquent, lui permettra d’atteindre rapidement même ces pages au plus profond de la structure de votre site. Une structure médiocre, cependant, peut l’envoyer dans une impasse, ce qui fait qu’un robot Web manque une partie de votre contenu.

Redirections en boucle

Les redirections de page interrompues arrêteraient un robot d’exploration Web, entraînant des problèmes de capacité d’exploration.

Erreurs du serveur

De même, des redirections de serveur interrompues et de nombreux autres problèmes liés au serveur peuvent empêcher les robots d’exploration Web d’accéder à tout votre contenu.

Scripts non pris en charge et autres facteurs technologiques

Par exemple, étant donné que les robots d’exploration ne peuvent pas suivre les formulaires, le blocage du contenu derrière un formulaire entraînera des problèmes de capacité d’exploration.

Divers scripts comme Javascript ou Ajax peuvent également bloquer le contenu des robots d’exploration Web.

Blocage de l’accès du robot d’exploration Web

Enfin, vous pouvez délibérément empêcher les robots d’indexation des pages de votre site.

Et il y a de bonnes raisons de faire cela.

Par exemple, vous avez peut-être créé une page à laquelle vous souhaitez restreindre l’accès public. Et pour empêcher cet accès, vous devez également le bloquer des moteurs de recherche.

Cependant, il est également facile de bloquer d’autres pages par erreur. Une simple erreur dans le code, par exemple, pourrait bloquer toute la section du site.

La liste complète des problèmes de crawlabilité que vous pouvez trouver dans cet article – 18 raisons pour lesquelles votre site Web n’est pas convivial pour les robots d’exploration : Guide des problèmes de capacité d’exploration.

Comment rendre un site Web plus facile à explorer et à indexer?

J’ai déjà répertorié certains des facteurs susceptibles d’entraîner des problèmes de capacité d’exploration ou d’indexation sur votre site. Et donc, dans un premier temps, vous devez vous assurer qu’ils ne se produisent pas.

Mais il y a aussi d’autres choses que vous pouvez faire pour vous assurer que les robots d’exploration peuvent facilement accéder et indexer vos pages.

Soumettez le plan du site à Google

Le plan du site est un petit fichier, résidant dans le dossier racine de votre domaine, qui contient des liens directs vers chaque page de votre site et les soumet au moteur de recherche à l’aide de la console Google.

Le plan du site informera Google de votre contenu et l’alertera de toute mise à jour que vous y avez apportée.

Renforcer les liens internes

Nous avons déjà expliqué comment l’interconnexion affecte la capacité d’exploration. Ainsi, pour augmenter les chances que le robot d’exploration de Google trouve tout le contenu de votre site, améliorez les liens entre les pages pour vous assurer que tout le contenu est connecté.

Mettez régulièrement à jour et ajoutez du nouveau contenu

Le contenu est la partie la plus importante de votre site. Il vous aide à attirer des visiteurs, à leur présenter votre entreprise et à les convertir en clients.

Mais le contenu vous aide également à améliorer l’exploration de votre site. D’une part, les robots d’exploration Web visitent des sites qui mettent constamment à jour leur contenu plus souvent. Et cela signifie qu’ils exploreront et indexeront votre page beaucoup plus rapidement.

Évitez de dupliquer tout contenu

Ayant un contenu en double, les pages qui présentent un contenu identique ou très similaire peuvent entraîner une perte de classement.

Mais le contenu dupliqué peut également réduire la fréquence à laquelle les robots d’exploration visitent votre site.

Alors, inspectez et corrigez tout problème de contenu en double sur le site.

Accélérez le temps de chargement de votre page

Les robots d’exploration Web ne disposent généralement que d’un temps limité pour explorer et indexer votre site. C’est ce qu’on appelle le budget d’exploration. Et en gros, ils quitteront votre site une fois ce délai écoulé.

Ainsi, plus vos pages se chargent rapidement, plus un robot d’exploration pourra les visiter avant qu’elles ne manquent de temps.

Outils de gestion de l’exploration et de l’indexabilité

Si tout ce qui précède semble intimidant, ne vous inquiétez pas. Il existe des outils qui peuvent vous aider à identifier et à résoudre vos problèmes d’exploration et d’indexabilité.

Analyseur de fichiers journaux

L’analyseur de fichiers journaux vous montrera comment les robots Google de bureau et mobiles explorent votre site, et s’il y a des erreurs à corriger et d’explorer le budget à économiser. Tout ce que vous avez à faire est de télécharger le fichier access.log de votre site Web et de laisser l’outil faire son travail.

Un journal d’accès est une liste de toutes les demandes que des personnes ou des robots ont envoyées à votre site; l’analyse d’un fichier journal vous permet de suivre et de comprendre le comportement des robots d’exploration.

Lisez notre manuel sur Où trouver le fichier journal d’accès.

Audit de site

L’audit de site fait partie de la suite SEMrush qui vérifie la santé de votre site Web. Analysez votre site à la recherche d’erreurs et de problèmes, y compris ceux qui affectent l’exploration et l’indexabilité d’un site Web.

Outils Google

Google Search Console vous aide à surveiller et à maintenir votre site dans Google. C’est un endroit pour soumettre votre plan de site, et il montre la couverture de votre site par les robots d’exploration.

Google PageSpeed Insights vous permet de vérifier rapidement la vitesse de chargement des pages d’un site Web.

Conclusion

La plupart des webmasters savent que pour classer un site Web, ils ont au moins besoin d’un contenu et de backlinks forts et pertinents qui augmentent l’autorité de leur site Web.

Ce qu’ils ne savent pas, c’est que leurs efforts sont vains si les robots des moteurs de recherche ne peuvent pas explorer et indexer leurs sites.

C’est pourquoi, en plus de vous concentrer sur l’ajout et l’optimisation de pages pour des mots clés pertinents et la création de liens, vous devez constamment surveiller si les robots d’exploration Web peuvent accéder à votre site et signaler ce qu’ils trouvent au moteur de recherche.

Crawlabilité et indexabilité: comment ils affectent le référencement