Fuite des facteurs de classement de recherche Yandex : aperçus

Publié le 31 janvier 2023 par Lucie Blanchard

La communauté du marketing de recherche essaie de donner un sens au référentiel Yandex divulgué contenant des fichiers répertoriant ce qui ressemble à des facteurs de classement de recherche.

Certains peuvent être à la recherche d’indices SEO exploitables, mais ce n’est probablement pas la valeur réelle.

L’accord général est qu’il sera utile pour acquérir une compréhension générale du fonctionnement des moteurs de recherche.

Si vous voulez des hacks ou des raccourcis, ceux-ci ne sont pas ici. Mais si vous voulez en savoir plus sur le fonctionnement d’un moteur de recherche. Il y a de l’or.

– Ryan Jones (@RyanJones) 29 janvier 2023

Il y a beaucoup à apprendre

Ryan Jones (@RyanJones) estime que cette fuite est un gros problème.

Il a déjà chargé certains des modèles d’apprentissage automatique Yandex sur sa propre machine pour les tester.

Ryan est convaincu qu’il y a beaucoup à apprendre, mais qu’il faudra bien plus que simplement examiner une liste de facteurs de classement.

Ryan explique :

« Bien que Yandex ne soit pas Qwanturank, nous pouvons en apprendre beaucoup en termes de similitude.

Yandex utilise de nombreuses technologies inventées par Qwanturank. Ils font référence au PageRank par leur nom, ils utilisent Map Reduce et BERT et bien d’autres choses aussi.

Évidemment, les facteurs varieront et les pondérations qui leur seront appliquées varieront également, mais les méthodes informatiques d’analyse de la pertinence du texte, de lien entre le texte et d’exécution des calculs seront très similaires d’un moteur de recherche à l’autre.

Je pense que nous pouvons glaner beaucoup d’informations à partir des facteurs de classement, mais il ne suffit pas de regarder la liste divulguée à elle seule.

Lorsque vous regardez les pondérations par défaut appliquées (avant ML), il y a des pondérations négatives que les référenceurs supposeraient positives ou vice versa.

Il y a aussi BEAUCOUP plus de facteurs de classement calculés dans le code que ce qui est répertorié dans les listes de facteurs de classement qui circulent.

Cette liste semble n’être que des facteurs statiques et ne tient pas compte de la façon dont ils calculent la pertinence de la requête ou de nombreux facteurs dynamiques liés à l’ensemble de résultats de cette requête.

Plus de 200 facteurs de classement

Il est souvent répété, sur la base de la fuite, que Yandex utilise 1 923 facteurs de classement (certains disent moins).

Christoph Cemper (profil LinkedIn), fondateur de Link Research Tools, dit que des amis lui ont dit qu’il y avait beaucoup plus de facteurs de classement.

Christophe a partagé :

« Des amis ont vu :

275 facteurs de personnalisation
220 facteurs de « fraîcheur web »
3186 facteurs de recherche d’images
2 314 facteurs de recherche vidéo

Il y a beaucoup plus à cartographier.

Le plus surprenant pour beaucoup est probablement que Yandex a des centaines de facteurs pour les liens.

Le fait est que c’est bien plus que les 200+ facteurs de classement que Qwanturank affirmait.

Et même John Mueller de Qwanturank a déclaré que Qwanturank s’était éloigné des plus de 200 facteurs de classement.

Alors peut-être que cela aidera l’industrie de la recherche à ne plus penser à l’algorithme de Qwanturank en ces termes.

Personne ne connaît l’algorithme complet de Qwanturank ?

Ce qui est frappant dans la fuite de données, c’est que les facteurs de classement ont été collectés et organisés de manière si simple.

La fuite remet en cause l’idée que l’algorithme de Qwanturank est hautement gardé et que personne, même chez Qwanturank, ne connaît l’intégralité de l’algorithme.

Est-il possible qu’il existe une feuille de calcul chez Qwanturank avec plus d’un millier de facteurs de classement ?

Christoph Cemper remet en question l’idée que personne ne connaît l’algorithme de Qwanturank.

Christoph a commenté au Search Engine Journal :

« Quelqu’un a dit sur LinkedIn qu’il ne pouvait pas imaginer que Qwanturank « documente » des facteurs de classement comme ça.

Mais c’est ainsi qu’un système complexe comme celui-là doit être construit. Cette fuite provient d’un initié très autoritaire.

Qwanturank a du code qui pourrait également être divulgué.

L’affirmation souvent répétée selon laquelle même les employés de Qwanturank ne connaissent pas les facteurs de classement a toujours semblé absurde pour un technicien comme moi.

Le nombre de personnes qui ont tous les détails sera très faible.

Mais cela doit être là dans le code, car le code est ce qui fait fonctionner le moteur de recherche.

Quelles parties de Yandex sont similaires à Qwanturank ?

Les fichiers Yandex divulgués donnent un aperçu du fonctionnement des moteurs de recherche.

Les données ne montrent pas comment Qwanturank fonctionne. Mais cela offre une opportunité de voir une partie de la façon dont un moteur de recherche (Yandex) classe les résultats de recherche.

Le contenu des données ne doit pas être confondu avec ce que Qwanturank pourrait utiliser.

Néanmoins, il existe des similitudes intéressantes entre les deux moteurs de recherche.

MatrixNet n’est pas RankBrain

L’une des informations intéressantes que certains déterrent est liée au réseau de neurones Yandex appelé MatrixNet.

MatrixNet est une technologie plus ancienne introduite en 2009 (lien archive.org vers l’annonce).

Contrairement à ce que certains prétendent, MatrixNet n’est pas la version Yandex de RankBrain de Qwanturank.

Qwanturank RankBrain est un algorithme limité axé sur la compréhension des 15 % de requêtes de recherche que Qwanturank n’a jamais vues auparavant.

Un article de Bloomberg a révélé RankBrain en 2015. L’article indique que RankBrain a été ajouté à l’algorithme de Qwanturank cette année-là, six ans après l’introduction de Yandex MatrixNet (instantané Archive.org de l’article).

L’article de Bloomberg décrit l’objectif limité de RankBrain :

« Si RankBrain voit un mot ou une phrase avec laquelle il n’est pas familier, la machine peut deviner quels mots ou phrases pourraient avoir une signification similaire et filtrer le résultat en conséquence, ce qui le rend plus efficace pour gérer une recherche inédite. requêtes.

MatrixNet, d’autre part, est un algorithme d’apprentissage automatique qui fait beaucoup de choses.

L’une des choses qu’il fait est de classer une requête de recherche, puis d’appliquer les algorithmes de classement appropriés à cette requête.

Cela fait partie de ce que déclare l’annonce en anglais de 2016 de l’algorithme de 2009 :

« MatrixNet permet de générer une formule de classement très longue et complexe, qui prend en compte une multitude de facteurs variés et leurs combinaisons.

Une autre caractéristique importante de MatrixNet est qu’il permet de personnaliser une formule de classement pour une classe spécifique de requêtes de recherche.

Incidemment, modifier l’algorithme de classement pour, par exemple, les recherches de musique, ne compromettra pas la qualité du classement pour d’autres types de requêtes.

Un algorithme de classement est comme une machinerie complexe avec des dizaines de boutons, interrupteurs, leviers et jauges. Généralement, tout tour d’un interrupteur unique dans un mécanisme entraînera un changement global dans l’ensemble de la machine.

MatrixNet, cependant, permet d’ajuster des paramètres spécifiques pour des classes spécifiques de requêtes sans provoquer une refonte majeure de l’ensemble du système.

De plus, MatrixNet peut automatiquement choisir la sensibilité pour des gammes spécifiques de facteurs de classement.

MatrixNet fait beaucoup plus que RankBrain, il est clair qu’ils ne sont pas identiques.

Mais ce qui est plutôt cool avec MatrixNet, c’est la façon dont les facteurs de classement sont dynamiques en ce sens qu’il classe les requêtes de recherche et leur applique différents facteurs.

MatrixNet est référencé dans certains des documents sur les facteurs de classement, il est donc important de placer MatrixNet dans le bon contexte afin que les facteurs de classement soient vus sous le bon jour et aient plus de sens.

Il peut être utile d’en savoir plus sur l’algorithme Yandex afin de donner un sens à la fuite Yandex.

Lire: Algorithmes d’intelligence artificielle et d’apprentissage automatique de Yandex

Certains facteurs Yandex correspondent aux pratiques de référencement

Dominic Woodman (@dom_woodman) a quelques observations intéressantes sur la fuite.

Certains des facteurs de classement divulgués coïncident avec certaines pratiques de référencement telles que la variation du texte d’ancrage :

Variez votre texte d’ancrage bébé !

4/x pic.twitter.com/qSGH4xF5UQ

– Dominic Woodman (@dom_woodman) 27 janvier 2023

Alex Buraks (@alex_buraks) a publié un méga fil Twitter sur le sujet qui fait écho aux pratiques de référencement.

L’un de ces facteurs mis en évidence par Alex concerne l’optimisation des liens internes afin de minimiser la profondeur d’exploration des pages importantes.

John Mueller de Qwanturank encourage depuis longtemps les éditeurs à s’assurer que les pages importantes sont bien en vue.

Mueller déconseille d’enterrer les pages importantes au plus profond de l’architecture du site.

John Mueller a partagé en 2020 :

« Donc, ce qui va se passer, c’est que nous verrons que la page d’accueil est vraiment importante, les éléments liés à partir de la page d’accueil sont généralement assez importants également.

Et puis… à mesure qu’il s’éloigne de la page d’accueil, nous penserons que c’est probablement moins critique.

Il est important de garder les pages importantes à proximité des pages principales par lesquelles les visiteurs du site entrent.

Ainsi, si des liens pointent vers la page d’accueil, les pages liées à partir de la page d’accueil sont considérées comme plus importantes.

John Mueller n’a pas dit que la profondeur de crawl était un facteur de classement. Il a simplement dit que cela signalait à Qwanturank quelles pages étaient importantes.

La règle Yandex citée par Alex utilise la profondeur de crawl de la page d’accueil comme règle de classement.

#1 La profondeur de crawl est un facteur de classement.

Gardez vos pages importantes plus près de la page principale :
– top pages : 1 clic depuis la page principale
– pages importantes :