Archive for septembre, 2015

Mesure la force induite d’un lien : plus d’explications

Je vous ai parlé dans un précédent billet d’une nouvelle métrique pour estimer la force contextuelle d’un lien. Aujourd’hui je vais vous donner plus de détails, et un exemple pour illustrer l’apport de différents types de liens sur une même cible.

Pour commencer, voyons ce qui caractérise un lien puissant. Mais avant, une remarque très importante doit être fait : il faut différencier la puissance d’un lien de sa capacité à passer entre les gouttes de la team webspam. La métrique dont je vous parle aujourd’hui permet de donner une valeur à un lien, mais si vous voulez en plus éviter les balles, il faut faire des analyses supplémentaires (reverse engineering de penguin notamment).

Bref, voici donc les trois caractéristiques importantes d’un bon lien :

  1. Un bon lien vient d’une page qui transmet de la popularité. Dans les algos les plus important pour un moteur, il y a celui de calcul de la popularité (pour Google c’est le pagerank). Il faut donc prendre en compte la popularité qui fait le lien lorsque l’on mesure la valeur de ce lien.
  2. Un bon lien est thématisé. Il est donc indispensable de s’assurer que le lien provient d’une page dont les thématiques sont compatibles avec celles de la page cible.
  3. Un bon lien ne vient pas du dernier dépotoir à la mode, et notamment sa popularité et sa confiance doivent être corrélées. Si elles ne le sont pas, le lien perd de la valeur.

Aux ix-labs, nous avons mis au point une métrique, et comme on est pas des génies du marketing, on l’appelle pour l’instant la force SEO, ou la puissance SEO, ou la force SEO induite, ou… Bref, la force SEO est calculée par une formule qui ressemble de loin à ça :

Force (a\rightarrow b) = F(compatibilité, popularité, anticorrélation(confiance,popularité))

  • La compatibilité va être mesuré par un mécanisme similaire à un clustering dans l’espace des thématiques des pages web
  • La popularité reste un grand standard
  • La déviation confiance versus popularité est ce que son nom indique
  • La fonction F est une composition des trois éléments du dessus à l’aide de log, de multiplications, max, divisions, sommes, etc. Le tout pour avoir une mesure entre 0 et 100, avec un effet d’amplification (il est plus dur de passer de 50 à 51 que de 10 à 11, par exemple).

Comment utiliser cette métrique ? Il y a deux cas typiques :

  • Pour auditer les liens existants, notamment lorsque vous faites un audit d’un site client, ou que vous allez bientôt faire du désaveu de liens. Par exemple, imaginons que vous faisiez un désaveu post penguin. Il faut dans ce cas désavouer des liens à ancres exactes, mais vous pouvez en garder quelques-uns. La décision sera facilité par l’utilisation de la force SEO : vous ne garderez que les plus puissants.
  • On vous propose d’acheter un lien ? Hop, un coup de force SEO et vous pouvez voir si le prix est en phase avec le lien.

Bon, comme le mieux c’est toujours de prendre un exemple, je vais prendre le site de Clearly. Pourquoi ce site ? Parce que c’est mon pote Julien qui bosse pour le site, et que je me suis un peu moqué de lui dans un précédent post^^. Bref, imaginons que Julien donne du boulot à ses stagiaires : faire du lien vers la page du site qui parle de lunettes.

Panique à bord pour les stagiaires ! heureusement, il y en a une qui est plus dégourdie que ses comparses et qui va utiliser la force SEO. Et c’est parti pour quelques mesures avant de tenter de choper des liens.

 

1ere possibilité : http://sante-medecine.journaldesfemmes.com/forum

Force SEO vers la page spéciale lunettes : 37

Objectivement, un thread avec un lien vers la page serait une plutôt bonne opération, même si il y aura une déperdition de force en créant un thread. Ce n’est pas non plus le lien du siècle.

 

2eme possibilité : http://www.infolunettes.com/News/nws_38/votre-lunette-n-est-pas-un-objet-comme-les-autres.html

Force SEO vers la page spéciale lunettes : 1

Et oui, ce n’est pas parce que la thématique semble en adéquation que ça marche à tout les coups. Ce lien ne vaut rien du tout.

 

3eme possibilité : http://www.pointwc.com/fr

Force SEO vers la page spéciale lunettes : 14

Visiblement on ne doit pas parler des mêmes lunettes ! Un lien moyennement intéressant.

 

4eme possibilité : http://www.optical-center.fr/lunettes-de-vue et http://www.direct-optic.fr/lunettes-de-vue

Ces deux sites sont en première et deuxième position pour une requête du sujet.

Force SEO du premier : 44
Force SEO du deuxième : 32

Et si on regarde le troisième des SERPs, il vaut 38. Incroyable, si les concurrents faisaient des liens vers le site, ces liens seraient assez puissant^^

Combien vaut le lien que j’ai fait à Julien un peu plus haut ? A peine 20, mon pauvre Julien, j’en suis bien désolé^^

 

Voilà, vous pourrez bientôt faire la même chose, car nous espérons finaliser un outil disponible en ligne dans pas trop longtemps.

Mesurer la force d’un lien, selon le contexte

Voici un billet qui est un prélude à un autre plus complet, avec beaucoup plus d’explications techniques. Aujourd’hui je vais me contenter de vous parler d’un problème, d’une solution sur laquelle on bosse et qui va être bientôt disponible pour tous via un nouvel outil en ligne (en plus ce sera pas cher ;)).

Bref, le problème est le suivant : comment déterminer la valeur SEO d’un lien, qu’il soit déjà en place et qu’on se pose la question de le désavouer pour des raisons plus ou moins valables, ou qu’il ne soit pas en place et qu’on hésite à tenter une approche du webmaster du site pouvant émettre le lien.

On peut utiliser les métriques diverses existantes, mais elles ne sont pas satisfaisantes car elles donnent une valeur à la page, mais pas au lien qui irait de cette page vers UNE PAGE DONNEE, la votre. Il faut donc trouver une mesure qui différencie la valeur d’un lien selon la page cible (avez-vous déjà entendu parler de pagerank thématique ?).

On peut aussi utiliser des outils de quantification thématique des pages (http://1.fr/ et son score sémantique, visiblis et son affinité sémantique). Ces outils, très utiles par ailleurs, se basent sur le contenu des pages et sur les requêtes, mais ils ne sont pas des outils permettant de caractériser l’apport d’un netlinking spécifique.

C’est pour cela que dans le secret des ix-labs, nous travaillons (Guillaume et moi) sur une nouvelle métrique, que nous appellons pour l’instant la force SEO induite. Cette métrique permet de donner un score SEO complet à un lien potentiel, complet voulant dire « prenant en compte la popularité et la confiance de la page source, ainsi que la compatibilité thématique entre source et cible ».

Voici quelques exemples de scores, à vous de me dire dans les commentaires ce que vous en pensez :

  • Julien (le muscle) est toujours rapide à donner son avis sur les billets de blog qui parlent de SEO. Est-il raisonnable d’avoir une stratégie qui consiste à le taquiner, pour obtenir un lien depuis son blog ? Il semble que oui, car si on regarde bien, la force SEO induite donnée par cette page du muscle vers ce post parlant (mal) de SEO est de 23, Mettant le BL en première position pour ce post de ce blog. Le deuxième, c’est scoop.it, avec une force de 14 !
  • Chez les frères Peyronnet, on a aussi des liens, par exemple celui qui part de cette page et pousse l’agence de référencement de Julien Jimenez a un score de 30.
  • Ma page pro vers le site de iSWAG 2016 ? Force SEO induite de 44.
  • Passons chez les très grands du SEO. Un lien depuis la home de Abondance vers celle de WebRankInfo, c’est une valeur de 60. Dans l’autre sens, le lien vaudrait 58.
  • Pour finir, et pour illustrer la dépendance au contexte source/cible, un lien depuis Abondance vers ma page pro vaudrait 68, ce qui est différent des 60 entre Abondance et WRI 😉

Voilà donc quelques exemples pour vous mettre l’eau à la bouche. Nous sommes en plein tests, dès qu’on aura stabilisé les formules, je ferais un billet plus clair, et ensuite vous aurez accès à l’outil 😉

Comme d’habitude, direction les commentaires pour donner votre avis. Et les deux olivier, si vous passez par là, je prends les liens depuis vos home sans souci^^

 

Quelques mots sur Qwant News

Aujourd’hui je vais vous parler d’un sujet qui me tient à coeur : Qwant. Si vous me suivez ici ou ici, vous savez que je travaille avec le moteur Qwant depuis maintenant plusieurs mois. Cette collaboration porte, naturellement, sur les aspects algorithmiques du moteur, et j’essaie plus précisément d’apporter mon aide et mes idées sur certaines problématiques telles que la gestion du webspam, le ranking, etc.

Lorsque j’ai commencé à discuter avec les équipe du moteur, une des premières briques dont on m’a parlé est Qwant News (Qwant actualités en Français^^). Et je vais vous l’avouer, dès le début j’ai été impressionné par le travail qui a été fait par la petite équipe de développement de Qwant sur ce sujet, mais dire cela dès le début du billet, c’est mettre la charrue avant les boeufs. Je vais donc commencer par le début, ou pas.

Présentation rapide de Qwant News

C’est en août, au milieu de l’été, qu’a été déployé le système de présentation des actualités qui est disponible à l’URL https://www.qwant.com/news. Visuellement, cela a déjà été commenté dans les médias web : 4 blocs présentent les grosses actus, quelques autres actus sont présentés à droite ou en dessous de ces 4 blocs selon votre résolution. Pour voir plus d’actus, il faut utiliser la boite de recherche.

qnews1

Si vous cliquez sur une des actus, vous verrez apparaitre un résultat de recherche qui permet d’obtenir tous les articles de l’actualité concernant le sujet en question. C’est là très différent de ce que peut faire le compétiteur de la vue sur la montagne (!). En effet, alors même que se pose la question des choix éditoriaux opérés par les algorithmes, une partie du problème est résolu par ce mécanisme : une fois que vous choisissez un sujet qui vous intéresse, Qwant vous propose toutes les sources qui en parlent en une seule fois là où d’autres moteurs vous emmènent directement sur la source principale selon l’algorithme.

Ce mécanisme vous permet aussi de raffiner via la boite de recherche la requête utilisée pour essayer de trouver des articles plus précis concernant une partie de cette actualité, ou des actualités relatives.

Les news, une problématique algorithmique différente du search

La plupart des gens pensent qu’un moteur de news est plus simple à réaliser qu’un moteur de recherche standard, c’est à la fois vrai et faux. Voici quelques éléments pour mieux comprendre les enjeux :

  • Le volume de données est plus petit. Là où pour le search l’index va faire des milliards de pages, pour les news le volume est plus restreint et les pages ont une durée de vie assez courte par ailleurs.
  • Le timing est très important. Dans le search le moteur peut prendre son temps pour indexer et traiter une page web, dans les news il faut coller à l’actu. Si il faut 2 heures pour parler d’un sujet là où twitter est présent au bout de 10 minutes il n’y a pas de vrai service à l’utilisateur. La problématique du « temps réel » oblige à avoir une chaîne de traitement algorithmique très rapide.
  • La précision et l’exhaustivité. Dans un ensemble de sources fixées, il ne faut laisser personne sur le carreau pour des raisons de multiplicité des points de vue. Dans le search, si trois pages expliquent comment changer une roue, ce n’est pas grave d’en perdre une dans le traitement. Dans les news, c’est très différent : si le Figaro, le Monde et l’Humanité traitent le même sujet, on ne peut pas perdre un des articles sans biaiser l’accès à l’information, il faut donc faire les choses avec précision.

Au final, les algorithmes qu’on utilise pour fournir des news sont différents de ceux du search, même si ils sont similaires sur certains points (par exemple l’analyse de texte va se faire de la même manière). Un gros point fort d’un moteur de news doit par exemple être sa capacité à créer des clusters d’articles qui parlent du même sujet le plus vite possible, pour traiter l’information par blocs.

Comment ça marche chez Qwant News ?

Bon, d’abord je ne vais pas vous mentir : je ne vous donnerais aucun secret de fabrication sensible^^. L’équipe News de Qwant a utilisé en partie des algorithmes de recherche d’information dont les principes sont connus (quoi, vous n’avez pas lu l’excellent livre Recherche d’information – Applications, modèles et algorithmes. Fouille de données, décisionnel et big data ?) et des algos maisons particulièrement rapide pour filtrer rapidement l’index des news du moment.

Je dois dire que j’ai été bluffé par un certain nombre d’idées mises en place par l’équipe, et par la qualité de la réalisation associée. Ce qui est d’ailleurs bien agréable : je n’ai pas eu trop de boulot à faire sur ce sujet ! Sans rentrer dans les détails (sinon je serais fouetté sur la plage à Nice ^^), voici les principaux algorithmes et briques de traitement utilisés :

  • Une brique de crawl et récupération des données (là c’est surtout technique).
  • Un système de création de l’index des news qui s’appellent Mozart.
  • La chaîne de traitement algorithmique principale, du nom de Tweezer, concentre les principaux algos. Tweezer va extraire le contenu des pages, faire l’analyse du texte pour déterminer de quoi parle l’article, va extraire les médias (videos, images) et va regrouper les articles qui parle de la même chose. Tweezer va également repérer les entités nommées, qui sont une brique très importantes en matière de news.
  • Un processus qui va déterminer quels sont les sujets les plus importants (c’est ainsi que sont choisis les 4 blocs ainsi que les actus supplémentaires)

Voilà, vous avez maintenant une idée de ce qui se passe (vu de loin). Dans le futur il y aura sans doute encore plus de choses excitantes, comme vous pouvez sans doute le deviner à la lecture de cet article.

Comme d’habitude, si vous avez des question ou des remarques, direction les commentaires, dans la courtoisie et la bonne humeur.

Champ lexical et positionnement

Avec la rentrée, un grand nombre d’outils pour les SEOs pointent le bout de leur nez (et je vais également y aller de mon outil d’ici quelques semaines^^), et parmi ceux-là, il y a des bonnes surprises.

Depuis quelques mois, j’ai l’occasion de discuter avec un développeur-webmaster, que je vais appeler ici Monsieur X, sur de nombreuses problématiques algorithmiques. Et pendant l’été, Monsieur X m’a fait une démo de son nouvel outil (disponible en beta sur le site 1.fr). Mon objectif ici n’est pas de faire de la retape pour cet outil, qui est à mon avis un bel outil, mais de vous parler de ce que j’ai pu retirer des données que Monsieur X a bien voulu me donner.

 

D’abord, une présentation rapide de 1.fr

Une fois inscrit sur 1.fr, vous pouvez renseigner l’URL de votre site, et définir un niveau de profondeur de crawl et une quantité de pages à crawler. Une fois que c’est fait, l’outil va vous donner plusieurs types de mesures, qui vont vous permettre de qualifier votre contenu.

1.fr est essentiellement un outil qui manipule la notion de champ lexical. Visiblement, un énorme crawl du web francophone a été effectué et a permis de créer des tables de co-occurences et de proximité d’usage entre mots. Cela permet de calculer l’adéquation d’un contenu au champ lexical d’une expression. J’ai eu l’occasion de tester l’outil, voici par exemple ce qu’il donne sur une partie des pages de l’excellente rubrique cinéma du site krinein.

analyseAvec les indicateurs chiffrés, on peut facilement vérifier la proximité entre le contenu et le champ lexical, et quand le chiffre est un peu faible, en cliquant sur le « + », on a des informations utiles qui apparaissent.

On peut faire le même type d’analyse sur les liens, avec une information sur la connexion sémantique entre la page cible et la page source (allez essayer, c’est parfois assez bluffant de voir que les connexions peuvent être très tordues). Enfin, une dernière fonctionnalité est de faire des suggestions d’adéquation entre titre et contenu.

1.fr propose également un outil supplémentaire très intéressant : le calcul du score sémantique sur un texte qui est donné en entrée à l’outil. Cela permet de tester les textes pour savoir si le contenu est à la hauteur des espérances (vous achetez des textes ? essayez donc de les passer dans l’outil).

texteBref, un outil qui donne des infos importantes sur vos contenus. Mais ce qui vous intéresse le plus aujourd’hui, c’est la suite de ce billet 😉

 

Analyse de la correspondance entre champ lexical et positionnement

J’ai eu la chance de recevoir de la part de Monsieur X un gros blocs de données bien utiles. Voilà ma base de travail :

  • Les informations de score sémantique pour plus de 4,6 millions de pages, toutes thématiques, avec en plus les informations de positionnement (toutes ces pages sont sur la première page des SERPs Google) sur des requêtes spécifiques.
  • La même chose mais pour des blocs de pages correspondant à des requêtes avec un grand nombres d’annonceurs, avec un nombre moyen et un nombre faible.
  • La même chose mais pour les CPC au dessous de 0,1, pour les CPC entre 0,1 et 0,5, puis pour les CPC au dessus de 0,5.
  • Les infos de score sémantique sur presque 5 millions de pages, mises en regard avec le niveau de concurrence des requêtes. Cela permet d’avoir le score sémantique moyen pour une requête pour toutes les pages d’un même niveau de concurrence.
  • La même chose par volume de recherche annuel.
  • Toutes les infos pour deux ensembles de requêtes de deux thématiques différentes. Le premier bloc ne contient que des requêtes qui contiennent le mot « assurance », le deuxième des requêtes avec le mot « tarif ».

Pour travailler ces données, j’ai utilisé les grands classiques :

  • Corrélation de Pearson quand les valeurs avaient une importance et pour voir si il y a une corrélation affine.
  • Corrélation de Spearman quand je m’intéressais à corréler les rangs.
  • Estimateur de l’intervalle de confiance en fonction de la taille de l’échantillon (pour savoir si certaines conclusions sont réelles ou dues au hasard). La formule que j’utilise est le grand classique qui utilise la fonction de répartition de la loi normale centrée réduite. Ici pas besoin d’utiliser la borne de Chernoff, ce qui permet d’avoir des échantillons plus petits pour un intervalle de confiance raisonnable.

 

Les conclusions (un peu en vrac, mais bon)

  • Il y a de grandes variations selon les thématiques et les requêtes. Par exemple, sur mon groupe « tarif », la moyenne des scores thématiques est autour de 34,19 avec un minimum à 0,44 et un maximum à 93,95. Sur la thématique « assurance », on une moyenne a presque 35, un minimum à 0,52 et un max à 100. La différence sur la moyenne est significative, ainsi que celle sur le max (mais pas celle sur le min). Dans le cas présent, on peut dire que les contenus « assurance » de la première page des SERPs sont en moyenne plus optimisés que ceux de la thématique « tarif » (quelle surprise 😉 !).
  • Dans tous les cas, il y a une corrélation de Pearson négative qui va de moyenne à bonne entre score sémantique et positionnement : quand le score sémantique augmente, le positionnement descend (=il approche de la première position, le plus bas est le mieux, la position 1 est mieux que la position 10) et réciproquement (attention : corrélation, causalité, etc.).
  • Il y a une corrélation de Spearman très forte entre positionnement et rang de score sémantique : quand le rang en score sémantique augmente, c’est aussi le cas du positionnement, et réciproquement. Il semble donc qu’améliorer son score sémantique soit une bonne idée !
  • Pour les autres cas, je n’ai pas pu faire mieux que garantir le bon comportement statistique pour la première place. Le premier est meilleur, en moyenne, que les suivants, en matière de score sémantique.
  • Ca a l’air d’être une bonne idée, mais le résultat précédent est-il OK d’un point de vue statistiques ? Pour le global, pour les requêtes à petit nombre d’annonceurs, et pour celles à CPC faible, je peux garantir (avec les volumes étudiés) que les positions 1 et 2 sont clairement dessus en terme de score sémantique. Ce n’est pas un hasard que les deux premiers des SERPs soient plus en adéquation avec le champ lexical. Attention, on parle bien EN MOYENNE, chaque cas particulier peut être différent. Par ailleurs, cela ne veux pas dire que les autres positions soient indépendantes du contenu, on en peut juste pas garantir quoi que ce soit statistiquement avec les données étudiées.
  •  En terme de corrélation de Spearman, les cas nombre annonceurs faible ou moyen, et le cas CPC faible, sont moins corrélés au score sémantique. En regardant en détail les données, on s’aperçoit que c’est parce que les pages dans les dernières positions de la première page sont assez rarement classées par score sémantique. Mon hypothèse est que sur les requêtes finalement peu intéressantes pour les SEOs (qu’on repère via des indicateurs SEA faibles), seules les toutes premières pages ont été travaillé par des SEOs en terme de contenu. En revanche, dès que les indicateurs SEA montrent l’intérêt des webmasters, alors la corrélation est très proche de 1 (entre 0,95 et 0,98).
  • Volume de recherche et  niveau de concurrence ne sont pour ainsi dire pas corrélés au score sémantique. Ce n’est pas surprenant, la corrélation se retrouve au niveau des pages qui performent (les premières places des SERPs) mais pas ailleurs.

 

Voilà, vous savez tout, maintenant je vous laisse jouer avec l’outil, et si vous avez des questions concernant l’analyse des données (l’outil n’est pas le mien^^) les commentaires sont là pour ça.