qwanturank

Quelles choses devez-vous éviter

Qu'est-ce qu'un fichier Robots.txt ?

À l'époque où Internet n'était qu'un enfant au visage de bébé capable de faire de grandes choses, les développeurs ont imaginé un moyen d'explorer et d'indexer de nouvelles pages sur le Web. Ils ont appelé ces "robots" ou "araignées". Parfois, ces petits gars se promenaient sur des sites Web qui n'étaient pas destinés à être explorés et indexés, tels que les sites en cours de maintenance. Le créateur du premier moteur de recherche au monde, Aliweb, a recommandé une solution - une sorte de feuille de route, que chaque robot doit suivre. Cette feuille de route a été finalisée en juin 1994 par une collection de techniciens avertis d'Internet, sous le nom de "Robots Exclusion Protocol". Un fichier robots.txt est l'exécution de ce protocole. Le protocole définit les directives que chaque robot authentique doit suivre, y compris les robots Google. Certains robots illégitimes, tels que les logiciels malveillants, les logiciels espions et similaires, par définition, fonctionnent en dehors de ces règles. Vous pouvez jeter un coup d'œil derrière le rideau de n'importe quel site Web en tapant n'importe quelle URL et en ajoutant: /robots.txt à la fin. Par exemple, voici la version de POD Digital: Comme vous pouvez le voir, il n’est pas nécessaire d’avoir un fichier tout chantant et tout dansant, car nous sommes un site Web relativement petit.

Où localiser le fichier Robots.txt

Votre fichier robots.txt sera stocké dans le répertoire racine de votre site. Pour le localiser, ouvrez votre FTP cPanel, et vous pourrez trouver le fichier dans le répertoire de votre site Web public_html. Il n'y a rien dans ces fichiers pour qu'ils ne soient pas lourds - probablement seulement quelques centaines d'octets, si cela. Une fois que vous avez ouvert le fichier dans votre éditeur de texte, vous serez accueilli avec quelque chose qui ressemble un peu à ceci: si vous ne parvenez pas à trouver un fichier dans le fonctionnement interne de votre site, vous devrez créer le vôtre.

Comment assembler un fichier Robots.txt

Robots.txt est un fichier texte super basique, il est donc simple à créer. Tout ce dont vous aurez besoin est un simple éditeur de texte comme le Bloc-notes. Ouvrez une feuille et enregistrez la page vide sous "robots.txt" Une fois celui-ci ouvert, faites-y glisser votre fichier. Enfin, vous devez vous assurer que vous avez défini les autorisations appropriées pour le fichier. Fondamentalement, en tant que propriétaire, vous devrez écrire, lire et modifier le fichier, mais aucune autre partie ne devrait être autorisée à le faire. Le fichier doit afficher un code d'autorisation "0644". Sinon, vous devrez changer cela Voila ! Vous disposez d'un fichier Robots.txt.

Syntaxe de Robots.txt

Un fichier robots.txt est composé de plusieurs sections de "directives", chacune commençant par un agent utilisateur spécifié. L'agent utilisateur est le nom du robot d'analyse spécifique auquel le code parle. Deux options sont disponibles:

  • Vous pouvez utiliser un caractère générique pour adresser tous les moteurs de recherche à la fois
  • Vous pouvez adresser des moteurs de recherche spécifiques individuellement
  • Lorsqu'un bot est déployé pour explorer un site Web, il sera attiré vers les blocs qui les appellent. Voici un exemple:

    Directive agent utilisateur

    Les premières lignes de chaque bloc sont "l'agent utilisateur", qui identifie un bot spécifique. L'agent utilisateur correspondra à un nom de bot spécifique, par exemple: Donc, si vous voulez dire à un robot Google quoi faire, par exemple, commencez par: Agent utilisateur: les moteurs de recherche Googlebot essaient toujours de localiser des directives spécifiques qui se rapportent le plus étroitement pour eux. Ainsi, par exemple, si vous avez deux directives, une pour Googlebot-Video et une pour Bingbot. Un bot fourni avec l'agent utilisateur "Bingbot" suivra les instructions. Alors que le bot "Googlebot-Video" passera dessus et partira à la recherche d'une directive plus spécifique. La plupart des moteurs de recherche ont quelques robots différents, voici une liste des plus courants.

    Directive hôte

    La directive hôte n'est prise en charge que par Yandex pour le moment, même si certaines spéculations indiquent que Google la prend en charge. Cette directive permet à un utilisateur de décider d'afficher ou non le www. avant une URL utilisant ce bloc: Hôte: poddigital.co.uk Étant donné que Yandex est le seul partisan confirmé de la directive, il n'est pas conseillé de s'y fier. Au lieu de cela, 301 redirige les noms d'hôtes que vous ne voulez pas vers ceux que vous faites.

    Interdire la directive

    Nous couvrirons cela de manière plus spécifique un peu plus tard. La deuxième ligne d'un bloc de directives est Disallow. Vous pouvez l'utiliser pour spécifier les sections du site auxquelles les robots ne doivent pas accéder. Un refus vide signifie que c'est gratuit pour tous, et les bots peuvent se faire plaisir où ils vont et ne visitent pas.

    Directive sur les plans de site (plans de site XML)

    L'utilisation de la directive sitemap indique aux moteurs de recherche où trouver votre sitemap XML. Cependant, la chose la plus utile à faire serait probablement de soumettre chacun aux outils de webmaster spécifiques aux moteurs de recherche. En effet, vous pouvez apprendre beaucoup de précieuses informations de chacun sur votre site Web. Cependant, si vous manquez de temps, la directive sitemap est une alternative viable.

    Directive sur les délais d'attente

    Yahoo, Bing et Yandex peuvent être un petit déclencheur heureux en ce qui concerne l'exploration, mais ils répondent à la directive sur le délai d'exploration, qui les tient à distance pendant un certain temps. Appliquer cette ligne à votre bloc: Crawl-delay: 10 signifie que vous pouvez faire attendre les moteurs de recherche dix secondes avant d'explorer le site ou dix secondes avant de ré-accéder au site après l'exploration - il est fondamentalement le même, mais légèrement différent selon sur le moteur de recherche.

    Pourquoi utiliser Robots.txt

    Maintenant que vous connaissez les bases et comment utiliser quelques directives, vous pouvez assembler votre fichier. Cependant, cette prochaine étape se résumera au type de contenu de votre site. Robots.txt n'est pas un élément essentiel d'un site Web réussi; en fait, votre site peut toujours fonctionner correctement et bien se classer sans un. Cependant, vous devez connaître plusieurs avantages clés avant de le rejeter:

  • Point Bots loin des dossiers privés: Empêcher les bots de vérifier vos dossiers privés les rendra beaucoup plus difficiles à trouver et à indexer.
  • Gardez les ressources sous contrôle: Chaque fois qu'un bot parcourt votre site, il absorbe la bande passante et les autres ressources du serveur. Pour les sites avec des tonnes de contenu et beaucoup de pages, les sites de commerce électronique, par exemple, peuvent avoir des milliers de pages, et ces ressources peuvent être épuisées très rapidement. Vous pouvez utiliser robots.txt pour empêcher les robots d'accéder aux scripts et images individuels; cela conservera de précieuses ressources pour les vrais visiteurs.
  • Spécifiez l'emplacement de votre plan du site: C'est un point assez important, vous voulez que les robots d'exploration sachent où se trouve votre plan du site afin qu'ils puissent le parcourir.
  • Gardez le contenu dupliqué à l'écart des SERPs: En ajoutant la règle à vos robots, vous pouvez empêcher les robots d'indexation des pages contenant le contenu dupliqué.
  • Vous souhaiterez naturellement que les moteurs de recherche trouvent leur chemin vers les pages les plus importantes de votre site Web. En bouclant poliment des pages spécifiques, vous pouvez contrôler quelles pages sont mises devant les chercheurs (assurez-vous de jamais bloquer complètement les moteurs de recherche de voir certaines pages, cependant). Par exemple, si nous regardons en arrière le fichier des robots numériques POD, nous voyons que cette URL: poddigital.co.uk/wp-admin a été interdite. Étant donné que cette page est conçue uniquement pour nous permettre de nous connecter au panneau de configuration, cela n'a aucun sens de permettre aux bots de perdre leur temps et leur énergie à l'explorer.

    Noindex

    En juillet 2019, Google a annoncé qu'il cesserait de soutenir la directive noindex ainsi que de nombreuses règles auparavant non prises en charge et non publiées sur lesquelles nombre d'entre nous se sont appuyés auparavant. Beaucoup d'entre nous ont décidé de chercher d'autres moyens d'appliquer la directive noindex, et ci-dessous vous pouvez voir quelques options que vous pourriez choisir à la place:

  • Balise Noindex / en-tête de réponse HTTP Noindex: Cette balise peut être implémentée de deux manières, la première sera un en-tête de réponse HTTP avec une balise X-Robots ou créera un tag qui devra être implémenté dans le section.
  • Votre La balise doit ressembler à l'exemple ci-dessous: POINTE: Gardez à l'esprit que si cette page a été bloquée par le fichier robots.txt, le robot ne verra jamais votre balise noindex, et il y a toujours une chance que cette page soit présentée dans les SERPs.

  • Mot de passe de protection: Google indique que dans la plupart des cas, si vous masquez une page derrière une connexion, elle doit être supprimée de l'index de Google ce qui indique que la page est liée à un abonnement ou à un contenu payant.
  • Code d'état HTTP 404 et 410: Les codes d'état 404 et 410 représentent les pages qui n'existent plus. Une fois qu'une page avec le statut 404/410 est explorée et entièrement traitée, elle doit être supprimée automatiquement de l'index de Google.
  • Vous devez explorer systématiquement votre site Web pour réduire le risque d'avoir des pages d'erreur 404 et 410 et, si nécessaire, utiliser des redirections 301 pour rediriger le trafic vers une page existante.

  • Interdire la règle dans robots.txt: En ajoutant une règle d'interdiction spécifique à la page dans votre fichier robots.txt, vous empêcherez les moteurs de recherche d'explorer la page. Dans la plupart des cas, votre page et son contenu ne seront pas indexés. Cependant, vous devez garder à l'esprit que les moteurs de recherche sont toujours en mesure d'indexer la page en fonction des informations et des liens d'autres pages.
  • Search Console Remove URL Tool: Cette racine alternative ne résout pas complètement le problème d'indexation, car l'outil de suppression d'URL de la Search Console supprime la page des SERP pendant une durée limitée.
  • Cependant, cela pourrait vous donner suffisamment de temps pour préparer d'autres règles et balises de robots pour supprimer complètement les pages des SERP. Vous pouvez trouver l'outil de suppression d'URL sur le côté gauche de la navigation principale sur Google Search Console.

    Noindex vs Disallow

    Beaucoup d'entre vous se demandent probablement s'il est préférable d'utiliser la balise noindex ou la règle d'interdiction dans votre fichier robots.txt. Nous avons déjà expliqué dans la partie précédente pourquoi la règle noindex n'est plus prise en charge dans robots.txt et différentes alternatives. Si vous voulez vous assurer que l'une de vos pages n'est pas indexée par les moteurs de recherche, vous devriez certainement regarder la balise META noindex. Il permet aux robots d'accéder à la page, mais la balise permettra aux robots de savoir que cette page ne doit pas être indexée et ne doit pas apparaître dans les SERPs. La règle d'interdiction peut ne pas être aussi efficace que la balise noindex en général. Bien sûr, en l'ajoutant à robots.txt, vous empêchez les robots d'explorer votre page, mais si la page mentionnée est liée à d'autres pages par des liens internes et externes, les robots peuvent toujours indexer cette page en fonction des informations fournies par d'autres pages. /sites Internet. Vous devez vous rappeler que si vous interdisez la page et ajoutez la balise noindex, les robots ne verront jamais votre balise noindex, ce qui peut toujours provoquer l'apparition de la page dans les SERP.

    Utilisation d'expressions régulières et de caractères génériques

    Ok, alors maintenant nous savons ce qu'est le fichier robots.txt et comment l'utiliser, mais vous pourriez penser: "J'ai un grand site Web de commerce électronique et je voudrais interdire toutes les pages qui contiennent des points d'interrogation ( ? ) Dans leurs URL. . " C'est ici que nous aimerions présenter vos caractères génériques, qui peuvent être implémentés dans robots.txt. Actuellement, vous avez le choix entre deux types de caractères génériques.

  • * Caractères génériques - où * les caractères génériques correspondront à n'importe quelle séquence de caractères que vous souhaitez. Ce type de caractère générique sera une excellente solution pour vos URL qui suit le même modèle. Par exemple, vous souhaiterez peut-être interdire d'explorer toutes les pages de filtre qui incluent un point d'interrogation ( ? ) Dans leurs URL.
  • $ Wildcards - où $ correspondra à la fin de votre URL. Par exemple, si vous souhaitez vous assurer que votre fichier robots empêche les robots d'accéder à tous les fichiers PDF, vous pouvez ajouter la règle, comme celle présentée ci-dessous:

  • Décomposons rapidement l'exemple ci-dessus. Votre robots.txt permet à tous les robots des agents utilisateurs d'explorer votre site Web, mais il interdit l'accès à toutes les pages contenant .pdf end.

    Erreurs à éviter

    Nous avons parlé un peu des choses que vous pourriez faire et des différentes manières de faire fonctionner votre robots.txt. Nous allons approfondir un peu plus chaque point de cette section et expliquer comment chacun peut se transformer en catastrophe SEO s'il n'est pas utilisé correctement.

    Ne bloquez pas le bon contenu

    Il est important de ne bloquer aucun bon contenu que vous souhaitez présenter à la publicité par le fichier robots.txt ou la balise noindex. Nous avons vu dans le passé de nombreuses erreurs comme celle-ci, qui ont nui aux résultats du référencement. Vous devez vérifier soigneusement vos pages pour les balises noindex et interdire les règles.

    Utilisation excessive du délai d'exploration

    Nous avons déjà expliqué ce que fait la directive crawl-delay, mais vous devez éviter de l'utiliser trop souvent car vous limitez les pages explorées par les bots. Cela peut être parfait pour certains sites Web, mais si vous avez un énorme site Web, vous pourriez vous tirer une balle dans le pied et empêcher un bon classement et un trafic solide.

    Sensibilité à la casse

    Le fichier Robots.txt est sensible à la casse, vous devez donc vous rappeler de créer un fichier robots de la bonne manière. Vous devez appeler le fichier robots en tant que "robots.txt", tous avec des minuscules. Sinon, ça ne marchera pas !

    Utilisation de Robots.txt pour empêcher l'indexation de contenu

    Nous avons déjà couvert cela un peu. Interdire une page est le meilleur moyen d'essayer d'empêcher les robots de l'explorer directement. Mais cela ne fonctionnera pas dans les circonstances suivantes:

  • Si la page a été liée à partir d'une source externe, les robots continueront à traverser et à indexer la page.
  • Les robots illégitimes continueront d'explorer et d'indexer le contenu.

  • Utilisation de Robots.txt pour protéger le contenu privé

    Certains contenus privés tels que les PDF ou les pages de remerciements sont indexables, même si vous en éloignez les robots. L'une des meilleures méthodes pour accompagner la directive d'interdiction est de placer tout votre contenu privé derrière une connexion. Bien sûr, cela signifie que cela ajoute une étape supplémentaire pour vos visiteurs, mais votre contenu restera sécurisé.

    Utilisation de Robots.txt pour masquer le contenu dupliqué malveillant

    Le contenu en double est parfois un mal nécessaire - pensez aux pages imprimables, par exemple. Cependant, Google et les autres moteurs de recherche sont suffisamment intelligents pour savoir quand vous essayez de cacher quelque chose. En fait, cela peut en fait attirer plus d'attention, et c'est parce que Google reconnaît la différence entre une page imprimable et quelqu'un qui essaie de tirer la laine sur leurs yeux: il y a encore une chance qu'elle puisse être trouvée de toute façon.

    Voici trois façons de gérer ce type de contenu:

  • Réécrire le contenu - La création de contenu passionnant et utile encouragera les moteurs de recherche à voir votre site Web comme une source de confiance. Cette suggestion est particulièrement pertinente si le contenu est un travail de copier-coller.
  • 301 Rediriger - Les redirections 301 informent les moteurs de recherche qu'une page a été transférée vers un autre emplacement. Ajoutez un 301 à une page avec du contenu en double et redirigez les visiteurs vers le contenu d'origine sur le site.
  • Rel = "canonique - Il s'agit d'une balise qui informe Google de l'emplacement d'origine du contenu dupliqué; cela est particulièrement important pour un site Web de commerce électronique où le CMS génère souvent des versions en double de la même URL.
  • Le moment de vérité: tester votre fichier Robots.txt

    Il est maintenant temps de tester votre fichier pour vous assurer que tout fonctionne comme vous le souhaitez. Les outils pour les webmasters de Google comportent une section de test robots.txt, mais elle n'est actuellement disponible que dans l'ancienne version de Google Search Console. Vous ne pourrez plus accéder au testeur robot.txt en utilisant une version mise à jour de GSC (Google travaille dur pour ajouter de nouvelles fonctionnalités à GSC, donc peut-être qu'à l'avenir, nous pourrons voir le testeur Robots.txt dans le Navigation principale). Donc, tout d'abord, vous devrez visiter la page d'assistance Google, qui donne un aperçu de ce que le testeur Robots.txt peut faire. Vous y trouverez également l'outil de testeur robots.txt: choisissez la propriété sur laquelle vous allez travailler - par exemple, votre site Web professionnel dans la liste déroulante. Supprimez tout ce qui se trouve actuellement dans la boîte, remplacez-le par votre nouveau fichier robots tester: si le "Test" passe à "Autorisé", vous obtenez un robot.txt pleinement fonctionnel. Créer correctement votre fichier robots.txt signifie que vous améliorez votre référencement et l'expérience utilisateur de vos visiteurs. En permettant aux bots de passer leurs journées à explorer les bonnes choses, ils seront en mesure d'organiser et de montrer votre contenu de la manière que vous souhaitez qu'il soit vu dans les SERPs. Ressources pratiques pour les plates-formes CMS

    Array

    Tout ce que tu as besoin de savoir

    S’abonner
    Notifier de
    guest
    0 Commentaires
    Inline Feedbacks
    View all comments