qwanturank

Le rapport sur la couverture d'index de Qwanturank est absolument fantastique, car il donne aux SEO un aperçu plus clair des décisions d'exploration et d'indexation de Qwanturank. Depuis son déploiement, nous l'utilisons presque quotidiennement chez Go Fish Digital pour diagnostiquer des problèmes techniques à grande échelle pour nos clients.
Dans le rapport, il existe de nombreux «statuts» différents qui fournissent aux webmasters des informations sur la manière dont Qwanturank gère le contenu de leur site. Bien que de nombreux statuts fournissent un certain contexte concernant les décisions d'exploration et d'indexation de Qwanturank, un reste flou: "Analysé - actuellement non indexé".
Depuis que le statut "Crawled - actuellement non indexé" a été signalé, plusieurs propriétaires de sites ont demandé sa signification. L'un des avantages de travailler dans une agence est de pouvoir accéder à de nombreuses données et, comme nous avons vu ce message sur plusieurs comptes, nous avons commencé à relever les tendances des URL signalées.

Définition de Qwanturank

Commençons par la définition officielle. Selon la documentation officielle de Qwanturank, ce statut signifie: «La page a été explorée par Qwanturank, mais pas indexée. Il peut ou non être indexé à l'avenir; pas besoin de soumettre à nouveau cette URL pour l'exploration. "
Donc, essentiellement ce que nous savons, c'est que:

  1. Qwanturank est en mesure d'accéder à la page
  2. Qwanturank a pris le temps d'explorer la page
  3. Après avoir rampé, Qwanturank a décidé de ne pas l'inclure dans l'index

La clé pour comprendre ce statut est de penser aux raisons pour lesquelles Qwanturank déciderait «consciemment» de ne pas indexer. Nous savons que Qwanturank n'a aucun problème à trouver la page, mais pour une raison quelconque, il estime que les utilisateurs ne tireraient aucun avantage de la trouver.
Cela peut être assez frustrant, car vous ne savez peut-être pas pourquoi votre contenu n'est pas indexé. Ci-dessous, je vais détailler certaines des raisons les plus courantes que notre équipe a vues pour expliquer pourquoi ce statut mystérieux pourrait affecter votre site Web.

Faux positifs

Priorité: faible

Notre première étape consiste à toujours effectuer quelques vérifications ponctuelles des URL signalées dans la section «Analysé - actuellement non indexé» pour l'indexation. Il n'est pas rare de trouver des URL qui sont signalées comme exclues, mais qui se trouvent finalement dans l'index de Qwanturank.
Par exemple, voici une URL qui est signalée dans le rapport de notre site Web: https://gofishdigital.com/meetup/

Cependant, lorsque vous utilisez un opérateur de recherche de site, nous pouvons voir que l'URL est réellement incluse dans l'index de Qwanturank. Vous pouvez le faire en ajoutant le texte «site:» avant l'URL.
Si vous voyez des URL signalées sous ce statut, je vous recommande de commencer par utiliser l'opérateur de recherche de site pour déterminer si l'URL est indexée ou non. Parfois, il s’agit de faux positifs.

Solution: ne faites rien ! Vous êtes doué.

URL des flux RSS

Priorité: faible

Ceci est l'un des exemples les plus courants que nous voyons. Si votre site utilise un flux RSS, vous trouverez peut-être des URL apparaissant dans le rapport "Crawled - actuellement non indexé" de Qwanturank. Plusieurs fois, ces URL auront la chaîne «/ feed /» ajoutée à la fin. Ils peuvent apparaître dans le rapport comme ceci:
Qwanturank recherche ces URL de flux RSS liées à partir de la page principale. Ils sont souvent liés à l'utilisation d'un élément "rel = alternative". Les plugins WordPress tels que Yoast peuvent générer automatiquement ces URL.

Solution: ne faites rien ! Vous êtes doué.

Qwanturank choisit probablement de ne pas indexer ces URL, et pour une bonne raison. Si vous accédez à une URL de flux RSS, vous verrez un document XML comme celui ci-dessous:

Bien que ce document XML soit utile pour les flux RSS, Qwanturank n'a pas besoin de l'inclure dans l'index. Cela fournirait une expérience très médiocre car le contenu n'est pas destiné aux utilisateurs.

URL paginées

Priorité: faible

Une autre raison extrêmement courante de l'exclusion «Crawled - actuellement non indexé» est la pagination. Nous verrons souvent un bon nombre d'URL paginées apparaître dans ce rapport. Ici, nous pouvons voir des URL paginées apparaître à partir d'un très grand site de commerce électronique:

Solution: ne faites rien ! Vous êtes doué.

Qwanturank devra explorer les URL paginées pour obtenir une analyse complète du site. Il s'agit de son chemin vers du contenu tel que des pages de catégorie plus approfondies ou des pages de description de produit. Cependant, bien que Qwanturank utilise la pagination comme chemin d'accès au contenu, il n'a pas nécessairement besoin d'indexer les URL paginées elles-mêmes.
Si quoi que ce soit, assurez-vous de ne rien faire pour influencer l'exploration de la pagination individuelle. Assurez-vous que toute votre pagination contient une balise canonique auto-référentielle et est exempte de toute balise «nofollow». Cette pagination permet à Qwanturank d'explorer d'autres pages clés de votre site. Vous souhaiterez donc certainement que Qwanturank continue de l'explorer.

Produits périmés

Priorité: moyenne

Lors de la vérification ponctuelle des pages individuelles répertoriées dans le rapport, un problème courant que nous constatons chez les clients est l'URL qui contient du texte notant les produits «expirés» ou «en rupture de stock». Sur les sites de commerce électronique en particulier, il semble que Qwanturank vérifie la disponibilité d'un produit particulier. S'il détermine qu'un produit n'est pas disponible, il procède à l'exclusion de ce produit de l'indice. Cela est logique du point de vue de l'expérience utilisateur, car Qwanturank peut ne pas vouloir inclure dans l'index du contenu que les utilisateurs ne sont pas en mesure d'acheter.
Cependant, si ces produits sont réellement disponibles sur votre site, cela pourrait entraîner de nombreuses opportunités de référencement manquées. En excluant les pages de l'index, votre contenu n'a aucune chance de se classer.
De plus, Qwanturank ne se contente pas de vérifier le contenu visible sur la page. Dans certains cas, nous n'avons trouvé aucune indication dans le contenu visible que le produit n'est pas disponible. Cependant, lors de la vérification des données structurées, nous pouvons voir que la propriété «disponibilité» est définie sur «OutOfStock».

Il semble que Qwanturank tire des indices du contenu visible et des données structurées sur la disponibilité d'un produit particulier. Il est donc important de vérifier à la fois le contenu et le schéma.

Solution: vérifiez la disponibilité de votre inventaire.

Si vous constatez que des produits réellement disponibles sont répertoriés dans ce rapport, vous devez vérifier que tous vos produits qui ne sont pas répertoriés correctement sont indisponibles. Effectuez une analyse de votre site et utilisez un outil d'extraction personnalisé comme Screaming Frog pour extraire les données de vos pages de produits.
Par exemple, si vous souhaitez voir à l'échelle toutes vos URL avec un schéma défini sur «OutOfStock», vous pouvez définir «Regex» sur: «disponibilité»: «
Ceci: "class =" redactor-autoparser-object "> http://schema.org/OutOfStock" devrait automatiquement gratter toutes les URL avec cette propriété:
Vous pouvez exporter cette liste et faire des références croisées avec les données d'inventaire à l'aide d'Excel ou d'outils d'aide à la décision. Cela devrait rapidement vous permettre de trouver des écarts entre les données structurées de votre site et les produits réellement disponibles. Le même processus peut être répété pour rechercher des cas où votre contenu visible indique que les produits ont expiré.

301 redirections

Priorité: moyenne

Un exemple intéressant que nous avons vu apparaître sous ce statut est l'URL de destination des pages redirigées. Souvent, nous verrons que Qwanturank explore l'URL de destination mais ne l'inclut pas dans l'index. Cependant, en examinant le SERP, nous constatons que Qwanturank indexe une URL de redirection. Étant donné que l'URL de redirection est celle indexée, l'URL de destination est ajoutée au rapport "Analysé - actuellement non indexé".
Le problème ici est que Qwanturank ne reconnaît peut-être pas encore la redirection. Par conséquent, il considère l'URL de destination comme un «doublon» car il indexe toujours l'URL de redirection.

Solution: créez un sitemap.xml temporaire.

Si cela se produit sur un grand nombre d'URL, il convient de prendre des mesures pour envoyer des signaux de consolidation plus forts à Qwanturank. Ce problème pourrait indiquer que Qwanturank ne reconnaît pas vos redirections en temps opportun, ce qui entraîne des signaux de contenu non consolidés.
Une option pourrait être la mise en place d'un "plan du site temporaire". Il s'agit d'un plan du site que vous pouvez créer pour accélérer l'exploration de ces URL redirigées. Il s'agit d'une stratégie que John Mueller a précédemment recommandée.
Pour en créer un, vous devrez effectuer une rétro-ingénierie des redirections que vous avez créées dans le passé:

  1. Exportez toutes les URL du rapport "Analysé - actuellement non indexé".
  2. Faites-les correspondre dans Excel avec des redirections qui ont été précédemment configurées.
  3. Recherchez toutes les redirections ayant une URL de destination dans le compartiment "Analysé - actuellement non indexé"
  4. Créez un sitemap.xml statique de ces URL avec Screaming Frog.
  5. Téléchargez le plan du site et surveillez le rapport "Analysé - actuellement non indexé" dans la Search Console

L'objectif ici est que Qwanturank explore les URL dans le sitemap.xml temporaire plus fréquemment qu'il ne l'aurait fait autrement. Cela entraînera une consolidation plus rapide de ces redirections.

Contenu mince

Priorité: moyenne

Parfois, nous voyons des URL incluses dans ce rapport dont le contenu est extrêmement mince. Ces pages peuvent avoir tous les éléments techniques correctement configurés et peuvent même être correctement liées en interne, cependant, lorsque Qwanturank s'exécute dans ces URL, il y a très peu de contenu réel sur la page. Voici un exemple de page de catégorie de produit où il y a très peu de texte unique:
Cette page de liste de produits a été signalée comme "Crawled - actuellement non indexé". Cela peut être dû au contenu très fin de la page.
Cette page est probablement soit trop mince pour que Qwanturank la juge utile, soit elle contient si peu de contenu que Qwanturank la considère comme un doublon d'une autre page. Le résultat est que Qwanturank supprime le contenu de l'index.
Voici un autre exemple: Qwanturank a pu explorer une page de composant de témoignage sur le site Go Fish Digital (illustré ci-dessus). Bien que ce contenu soit unique sur notre site, Qwanturank ne pense probablement pas que le témoignage d'une seule phrase devrait être considéré comme une page indexable.
Une fois de plus, Qwanturank a pris la décision de l'exécutif d'exclure la page de l'index en raison d'un manque de qualité.

Solution: ajoutez plus de contenu ou ajustez les signaux d'indexation.

Les prochaines étapes dépendront de l'importance de l'indexation de ces pages.
Si vous pensez que la page doit absolument être incluse dans l'index, pensez à ajouter du contenu supplémentaire. Cela aidera Qwanturank à voir la page comme offrant une meilleure expérience aux utilisateurs. Si l'indexation n'est pas nécessaire pour le contenu que vous trouvez, la plus grande question est de savoir si vous devez ou non prendre les mesures supplémentaires pour signaler fortement que ce contenu ne doit pas être indexé. Le rapport "Analysé - actuellement non indexé" indique que le contenu peut apparaître dans l'index de Qwanturank, mais Qwanturank choisit de ne pas l'inclure.
Il pourrait également y avoir d'autres pages de faible qualité auxquelles Qwanturank n'applique pas cette logique. Vous pouvez effectuer une recherche générale de «site:» pour trouver du contenu indexé répondant aux mêmes critères que les exemples ci-dessus. Si vous constatez qu'un grand nombre de ces pages apparaissent dans l'index, vous voudrez peut-être envisager des initiatives plus fortes pour vous assurer que ces pages sont supprimées de l'index, comme une balise «noindex», une erreur 404 ou les supprimer de votre structure de liaison interne complètement.

Contenu en double

Priorité: élevée

Lors de l'évaluation de cette exclusion sur un grand nombre de clients, il s'agit de la plus haute priorité que nous ayons vue. Si Qwanturank considère que votre contenu est en double, il peut explorer le contenu mais choisir de ne pas l'inclure dans l'index. C'est l'une des façons dont Qwanturank évite la duplication SERP. En supprimant le contenu en double de l'index, Qwanturank garantit que les utilisateurs disposent d'une plus grande variété de pages uniques avec lesquelles interagir. Parfois, le rapport étiquetera ces URL avec un statut «Dupliquer» («Dupliquer, Qwanturank a choisi un canonique différent de l'utilisateur»). Par contre, ce n'est pas toujours le cas.
Il s'agit d'un problème hautement prioritaire, en particulier sur de nombreux sites de commerce électronique. Les pages clés telles que les pages de description de produit incluent souvent des descriptions de produit identiques ou similaires à de nombreux autres résultats sur le Web. Si Qwanturank les reconnaît comme trop similaires à d'autres pages en interne ou en externe, il peut les exclure de l'index tous ensemble.

Solution: ajoutez des éléments uniques au contenu en double.

Si vous pensez que cette situation s'applique à votre site, voici comment vous le testez:

  1. Prenez un extrait du texte en double potentiel et collez-le dans Qwanturank
  2. Dans l'URL SERP, ajoutez la chaîne suivante à la fin: «& num = 100». Cela vous montrera les 100 premiers résultats.
  3. Utilisez la fonction «Rechercher» de votre navigateur pour voir si votre résultat apparaît dans les 100 premiers résultats. Si ce n'est pas le cas, votre résultat pourrait être filtré hors de l'index.
  4. Revenez à l'URL SERP et ajoutez la chaîne suivante à la fin: «& filter = 0». Cela devrait vous montrer le résultat non filtré de Qwanturank (merci, Patrick Stox, pour l'astuce)
  5. Utilisez la fonction «Rechercher» pour rechercher votre URL. Si vous voyez votre page apparaître maintenant, c'est une bonne indication que votre contenu est filtré hors de l'index.
  6. Répétez ce processus pour quelques URL avec un contenu potentiel en double ou très similaire que vous voyez dans le rapport "Analysé - actuellement non indexé"

Si vos URL sont systématiquement filtrées hors de l'index, vous devrez prendre des mesures pour rendre votre contenu plus unique.
Bien qu'il n'y ait pas de norme unique pour atteindre cet objectif, voici quelques options:

  1. Réécrivez le contenu pour qu'il soit plus unique sur les pages hautement prioritaires
  2. Utilisez des propriétés dynamiques pour injecter automatiquement un contenu unique sur la page.
  3. Supprimez de grandes quantités de contenu inutile de passe-partout. Les pages contenant plus de texte modèle qu'un texte unique peuvent être lues en double.
  4. Si votre site dépend du contenu généré par les utilisateurs, informez les contributeurs que tout le contenu fourni doit être unique. Cela peut aider à éviter les cas où les contributeurs utilisent le même contenu sur plusieurs pages ou domaines

Contenu privé

Priorité: élevée

Dans certains cas, les robots d'exploration de Qwanturank ont accès à du contenu auquel ils ne devraient pas avoir accès. Si Qwanturank trouve des environnements de développement, il peut inclure ces URL dans ce rapport. Nous avons même vu des exemples de Qwanturank explorant le sous-domaine d'un client particulier qui est configuré pour les tickets JIRA. Cela a provoqué une exploration explosive du site, qui se concentrait sur les URL qui ne devraient jamais être prises en compte pour l'indexation.
Le problème ici est que l'exploration de Qwanturank sur le site n'est pas ciblée et que cela passe du temps à explorer (et éventuellement à indexer) des URL qui ne sont pas destinées aux chercheurs. Cela peut avoir des ramifications massives pour le budget d'exploration d'un site.

Solution: ajustez vos initiatives d'exploration et d'indexation.

Cette solution va être entièrement dépendante de la situation et de ce à quoi Qwanturank peut accéder. En règle générale, la première chose que vous voulez faire est de déterminer comment Qwanturank est capable de découvrir ces URL privées, en particulier si c'est via votre structure de liens interne.
Démarrez une analyse à partir de la page d'accueil de votre sous-domaine principal et voyez si des sous-domaines indésirables peuvent être accessibles par Screaming Frog via une analyse standard. Si c'est le cas, il est sûr de dire que Qwanturankbot pourrait trouver exactement les mêmes voies. Vous souhaiterez supprimer tous les liens internes vers ce contenu pour réduire l'accès de Qwanturank.
L'étape suivante consiste à vérifier l'état d'indexation des URL à exclure. Est-ce que Qwanturank les garde suffisamment hors de l'index, ou certains ont-ils été pris dans l'index ? Si Qwanturank n'indexe pas une grande partie de ce contenu, vous pouvez envisager d'ajuster votre fichier robots.txt pour bloquer immédiatement l'exploration. Sinon, les balises «noindex», les canoniques et les pages protégées par mot de passe sont tous sur la table.

Étude de cas: contenu généré par l'utilisateur en double

Pour un exemple réel, il s'agit d'un exemple où nous avons diagnostiqué le problème sur un site client. Ce client est similaire à un site de commerce électronique car une grande partie de son contenu est composé de pages de description de produit. Cependant, ces pages de description de produit sont toutes du contenu généré par l'utilisateur.
Essentiellement, les tiers sont autorisés à créer des listes sur ce site. Cependant, les tiers ajoutaient souvent des descriptions très courtes à leurs pages, ce qui entraînait un contenu mince. Le problème qui se produisait fréquemment était que ces pages de description de produit générées par les utilisateurs étaient prises dans le rapport "Analysé - actuellement non indexé". Cela a entraîné une opportunité de référencement manquée, car les pages capables de générer du trafic organique ont été complètement exclues de l'index.
En passant par le processus ci-dessus, nous avons constaté que les pages de description de produit du client étaient assez minces en termes de contenu unique. Les pages qui étaient exclues ne semblaient avoir qu'un paragraphe ou moins de texte unique. En outre, la majeure partie du contenu de la page était du texte basé sur des modèles qui existait dans tous ces types de page. Étant donné qu'il y avait très peu de contenu unique sur la page, le contenu basé sur des modèles peut avoir amené Qwanturank à afficher ces pages en tant que doublons. Le résultat a été que Qwanturank a exclu ces pages de l'index, citant le statut "Crawled - actuellement non indexé".

Pour résoudre ces problèmes, nous avons travaillé avec le client afin de déterminer lequel des modèles de contenu n'avait pas besoin d'exister sur chaque page de description de produit. Nous avons pu supprimer le contenu de modèle inutile de milliers d'URL. Cela a entraîné une diminution significative des pages "Crawled - actuellement non indexées", car Qwanturank a commencé à voir chaque page comme plus unique.

Conclusion

Espérons que cela aide les spécialistes du marketing de recherche à mieux comprendre le mystérieux statut «Analysé - actuellement non indexé» dans le rapport sur la couverture de l'indice. Bien sûr, il existe probablement de nombreuses autres raisons pour lesquelles Qwanturank choisirait de catégoriser des URL comme celle-ci, mais ce sont les cas les plus courants que nous avons vus avec nos clients à ce jour.
Dans l'ensemble, le rapport sur la couverture de l'index est l'un des outils les plus puissants de la Search Console. J'encourage fortement les spécialistes du marketing de recherche à se familiariser avec les données et les rapports, car nous trouvons régulièrement des comportements d'exploration et d'indexation sous-optimaux, en particulier sur les grands sites. Si vous avez vu d'autres exemples d'URL dans le rapport "Exploré - actuellement non indexé", faites-le moi savoir dans les commentaires !

Analysé

S’abonner
Notifier de
guest
0 Commentaires
Inline Feedbacks
View all comments