Une Belle Etoile

29 novembre 2015

Aujourd’hui je vous propose un billet léger et pas très intéressant, pour vous divertir un petit peu.
A chaque fois qu’un visiteur arrive dans nos bureaux des ix-labs, il y a quelques commentaires incontournables. Le premier est généralement : « ils sont grands ces bureaux, et ils sont top », ce qui est vrai pour le premier point, et un plaisir à entendre pour le deuxième. Ensuite on a le droit à « wow, vous avez une sacré bibliothèque », et puis ensuite il y a un léger silence, remplacé par un « je suis sur que TON bureau c’est celui avec tout le bordel^^ » quand le visiteur me connait bien. Est-ce vrai ? On va dire oui et non, je vous laisse juge^^ :

Oui, je sais que la photo est floue, mais si je range vous ne voyez pas l’état du bureau, et si je ne range pas, il faut que je floute^^

Alors oui, le rangement n’est pas mon fort, mais tout ce qui est sur mon bureau est indispensable, et je vais vous en faire la liste incomplète, et aussi vous parler ainsi de certaines choses importantes pour bien bosser.

Un ordinateur. Quelle surprise, je suis dans l’informatique et j’ai un ordinateur… Mon choix s’est porté sur un mac, grand écran et assez puissant. Il y a toujours des discussions sans fin à ce sujet, mais c’est pour moi un bon compromis : il y a toutes les fonctionnalités d’une machine sous linux (ligne de commande, serveur X, emacs, etc.), une interface graphique ergonomique et tous les outils de développement modernes. Perso je fais principalement du R, du Python et du latex, donc tout est OK. Par ailleurs, la suite office fonctionne très bien sur le mac, ce qui me permet d’être compatible avec les rageux sous Windows.

Des cahiers, plein de cahiers. Au moment où j’écris ces lignes j’ai 12 cahiers différents sur mon bureau !
Mes cahiers préférés j’en parlerais dans un billet spécial un jour, mais j’utilise surtout des cahiers leuchtturm A5. C’est un peu comme des moleskine, mais en beaucoup mieux (si vous voulez en acheter pour Noël, passez donc par ma version en affiliation amazon).
J’aime aussi beaucoup les SOS Notes d’Oxford, si ils étaient en A5 plutôt qu’A4 ce serait encore mieux (l ien amazon).
Chaque cahier son utilité : un pour un gros projet, un pour plusieurs petits projets, un pour les idées, un pour les lectures, etc. Travailler sur un cahier plutôt qu’à l’écran est fondamental car cela libère la créativité. Si vous utilisez un outil textuel logiciel pour noter vos idées, vous ne ferez pas de schémas, vous aurez une pensée linéaire et pauvre, et oui j’exagère un peu pour faire passer mon idée.

Des stylos de toutes les couleurs. Si il y a des cahiers, il faut des stylos. J’ai des plumes jetables de toutes les couleurs, un roller Dupont offert par un client (ahah, si des clients passent par là, n’hésitez pas), un beau plume offert par ma douce, des feutres, des crayons, etc. J’utilise plein de couleurs pour mettre en évidence les choses importantes, et pour faire des schémas « temporels » (en noir ce qui reste stable, en rose l’évolution au temps 1, en vert au temps 2, en … etc.).

Des lunettes. Bon, de base je suis déjà myope et astigmate, donc j’ai des lunettes. Comme je suis coquet j’ai des belles lunettes pour sortir et tout, mais j’ai toujours eu en plus une paire supplémentaire au bureau. Cette paire avait jusqu’ici comme fonctionnalité d’être à ma vue et d’être plus légère que l’autre.
Mais après avoir discuté avec mon pote Julien qui fait du SEO pour Clearly, j’ai appris l’existence de lunettes avec un traitement anti-fatigue pour ceux qui travaillent devant un écran toute la journée.
J’ai honteusement soudoyé Julien et j’ai donc obtenu une paire (celle de la photo) et je dois bien dire que j’ai été surpris : ça change vraiment la vie de bosser avec ces lunettes. En revanche, je ne m’en sers pas en dehors du bureau car le traitement modifie légèrement les couleurs. Si vous êtes au Canada, jetez donc un coup d’oeil au site de lunettes de Clearly (peut-être qu’on peux acheter depuis la France aussi, je ne sais pas).

Un casque audio. Je ne suis pas tout seul dans le bureau, et pour une raison que j’ignore mes compagnons de bureau ne partage pas mes goûts pour l’eurodance et la makina. J’ai donc un casque. J’en ai testé (comprendre cassé) pas mal, comme le Parrot Zik qui a survécu 3 mois… Au final les casques anti-bruit sont rangés et je les sors pour prendre l’avion, et je suis parti sur du robuste pour le bureau.
Le casque qui me sert désormais est mon casque de running : le Trainer de chez Gibson (bluetooth uniquement, lien amazon). Il tient parfaitement (normal on peut courir avec), il est étanche (croyez moi sur mon bureau c’est un plus) et sans fil ce qui fait que quand je me lève je n’emmène pas avec moi l’ordinateur…

Des livres. Qu’est ce qui est mieux qu’un livre ? DEUX livres ! Bref, en ce moment sur mon bureau il y a « Python for finance », « Practical data science with R » (bouquin vraiment au top, lien sur amazon), « statistiques avec R » et « doing data science ».
Pourquoi des livres en vrai papier ? Parce que ça se lit partout, parce qu’on peut ECRIRE dessus. Un livre c’est fait pour vivre et donc on peut annoter ses livres, on peut les lire n’importe où, et on peut le laisser dans le bureau pour les petits camarades, alors que si le bouquin est sur la tablette, c’est plus compliqué.

Voilà, c’était mon billet plus léger du moment, n’hésitez pas à me dire comment sont vos bureaux dans les commentaires ^^

24 septembre 2015

8 Comments

Mesure la force induite d’un lien : plus d’explications

By Sylvain

Je vous ai parlé dans un précédent billet d’une nouvelle métrique pour estimer la force contextuelle d’un lien. Aujourd’hui je vais vous donner plus de détails, et un exemple pour illustrer l’apport de différents types de liens sur une même cible.

Pour commencer, voyons ce qui caractérise un lien puissant. Mais avant, une remarque très importante doit être fait : il faut différencier la puissance d’un lien de sa capacité à passer entre les gouttes de la team webspam. La métrique dont je vous parle aujourd’hui permet de donner une valeur à un lien, mais si vous voulez en plus éviter les balles, il faut faire des analyses supplémentaires (reverse engineering de penguin notamment).

Bref, voici donc les trois caractéristiques importantes d’un bon lien :

Un bon lien vient d’une page qui transmet de la popularité. Dans les algos les plus important pour un moteur, il y a celui de calcul de la popularité (pour Google c’est le pagerank). Il faut donc prendre en compte la popularité qui fait le lien lorsque l’on mesure la valeur de ce lien.
Un bon lien est thématisé. Il est donc indispensable de s’assurer que le lien provient d’une page dont les thématiques sont compatibles avec celles de la page cible.
Un bon lien ne vient pas du dernier dépotoir à la mode, et notamment sa popularité et sa confiance doivent être corrélées. Si elles ne le sont pas, le lien perd de la valeur.

Aux ix-labs, nous avons mis au point une métrique, et comme on est pas des génies du marketing, on l’appelle pour l’instant la force SEO, ou la puissance SEO, ou la force SEO induite, ou… Bref, la force SEO est calculée par une formule qui ressemble de loin à ça :

Force $(a\rightarrow b)$ = F(compatibilité, popularité, anticorrélation(confiance,popularité))

La compatibilité va être mesuré par un mécanisme similaire à un clustering dans l’espace des thématiques des pages web
La popularité reste un grand standard
La déviation confiance versus popularité est ce que son nom indique
La fonction F est une composition des trois éléments du dessus à l’aide de log, de multiplications, max, divisions, sommes, etc. Le tout pour avoir une mesure entre 0 et 100, avec un effet d’amplification (il est plus dur de passer de 50 à 51 que de 10 à 11, par exemple).

Comment utiliser cette métrique ? Il y a deux cas typiques :

Pour auditer les liens existants, notamment lorsque vous faites un audit d’un site client, ou que vous allez bientôt faire du désaveu de liens. Par exemple, imaginons que vous faisiez un désaveu post penguin. Il faut dans ce cas désavouer des liens à ancres exactes, mais vous pouvez en garder quelques-uns. La décision sera facilité par l’utilisation de la force SEO : vous ne garderez que les plus puissants.
On vous propose d’acheter un lien ? Hop, un coup de force SEO et vous pouvez voir si le prix est en phase avec le lien.

Bon, comme le mieux c’est toujours de prendre un exemple, je vais prendre le site de Clearly. Pourquoi ce site ? Parce que c’est mon pote Julien qui bosse pour le site, et que je me suis un peu moqué de lui dans un précédent post^^. Bref, imaginons que Julien donne du boulot à ses stagiaires : faire du lien vers la page du site qui parle de lunettes.

Panique à bord pour les stagiaires ! heureusement, il y en a une qui est plus dégourdie que ses comparses et qui va utiliser la force SEO. Et c’est parti pour quelques mesures avant de tenter de choper des liens.

1ere possibilité : http://sante-medecine.journaldesfemmes.com/forum

Force SEO vers la page spéciale lunettes : 37

Objectivement, un thread avec un lien vers la page serait une plutôt bonne opération, même si il y aura une déperdition de force en créant un thread. Ce n’est pas non plus le lien du siècle.

2eme possibilité : http://www.infolunettes.com/News/nws_38/votre-lunette-n-est-pas-un-objet-comme-les-autres.html

Force SEO vers la page spéciale lunettes : 1

Et oui, ce n’est pas parce que la thématique semble en adéquation que ça marche à tout les coups. Ce lien ne vaut rien du tout.

3eme possibilité : http://www.pointwc.com/fr

Force SEO vers la page spéciale lunettes : 14

Visiblement on ne doit pas parler des mêmes lunettes ! Un lien moyennement intéressant.

4eme possibilité : http://www.optical-center.fr/lunettes-de-vue et http://www.direct-optic.fr/lunettes-de-vue

Ces deux sites sont en première et deuxième position pour une requête du sujet.

Force SEO du premier : 44
Force SEO du deuxième : 32

Et si on regarde le troisième des SERPs, il vaut 38. Incroyable, si les concurrents faisaient des liens vers le site, ces liens seraient assez puissant^^

Combien vaut le lien que j’ai fait à Julien un peu plus haut ? A peine 20, mon pauvre Julien, j’en suis bien désolé^^

Voilà, vous pourrez bientôt faire la même chose, car nous espérons finaliser un outil disponible en ligne dans pas trop longtemps.

16 septembre 2015

10 Comments

Mesurer la force d’un lien, selon le contexte

By Sylvain

Voici un billet qui est un prélude à un autre plus complet, avec beaucoup plus d’explications techniques. Aujourd’hui je vais me contenter de vous parler d’un problème, d’une solution sur laquelle on bosse et qui va être bientôt disponible pour tous via un nouvel outil en ligne (en plus ce sera pas cher ;)).

Bref, le problème est le suivant : comment déterminer la valeur SEO d’un lien, qu’il soit déjà en place et qu’on se pose la question de le désavouer pour des raisons plus ou moins valables, ou qu’il ne soit pas en place et qu’on hésite à tenter une approche du webmaster du site pouvant émettre le lien.

On peut utiliser les métriques diverses existantes, mais elles ne sont pas satisfaisantes car elles donnent une valeur à la page, mais pas au lien qui irait de cette page vers UNE PAGE DONNEE, la votre. Il faut donc trouver une mesure qui différencie la valeur d’un lien selon la page cible (avez-vous déjà entendu parler de pagerank thématique ?).

On peut aussi utiliser des outils de quantification thématique des pages (http://1.fr/ et son score sémantique, visiblis et son affinité sémantique). Ces outils, très utiles par ailleurs, se basent sur le contenu des pages et sur les requêtes, mais ils ne sont pas des outils permettant de caractériser l’apport d’un netlinking spécifique.

C’est pour cela que dans le secret des ix-labs, nous travaillons (Guillaume et moi) sur une nouvelle métrique, que nous appellons pour l’instant la force SEO induite. Cette métrique permet de donner un score SEO complet à un lien potentiel, complet voulant dire « prenant en compte la popularité et la confiance de la page source, ainsi que la compatibilité thématique entre source et cible ».

Voici quelques exemples de scores, à vous de me dire dans les commentaires ce que vous en pensez :

Julien (le muscle) est toujours rapide à donner son avis sur les billets de blog qui parlent de SEO. Est-il raisonnable d’avoir une stratégie qui consiste à le taquiner, pour obtenir un lien depuis son blog ? Il semble que oui, car si on regarde bien, la force SEO induite donnée par cette page du muscle vers ce post parlant (mal) de SEO est de 23, Mettant le BL en première position pour ce post de ce blog. Le deuxième, c’est scoop.it, avec une force de 14 !
Chez les frères Peyronnet, on a aussi des liens, par exemple celui qui part de cette page et pousse l’agence de référencement de Julien Jimenez a un score de 30.
Ma page pro vers le site de iSWAG 2016 ? Force SEO induite de 44.
Passons chez les très grands du SEO. Un lien depuis la home de Abondance vers celle de WebRankInfo, c’est une valeur de 60. Dans l’autre sens, le lien vaudrait 58.
Pour finir, et pour illustrer la dépendance au contexte source/cible, un lien depuis Abondance vers ma page pro vaudrait 68, ce qui est différent des 60 entre Abondance et WRI 😉

Voilà donc quelques exemples pour vous mettre l’eau à la bouche. Nous sommes en plein tests, dès qu’on aura stabilisé les formules, je ferais un billet plus clair, et ensuite vous aurez accès à l’outil 😉

Comme d’habitude, direction les commentaires pour donner votre avis. Et les deux olivier, si vous passez par là, je prends les liens depuis vos home sans souci^^

4 septembre 2015

11 Comments

Quelques mots sur Qwant News

By Sylvain

Aujourd’hui je vais vous parler d’un sujet qui me tient à coeur : Qwant. Si vous me suivez ici ou ici, vous savez que je travaille avec le moteur Qwant depuis maintenant plusieurs mois. Cette collaboration porte, naturellement, sur les aspects algorithmiques du moteur, et j’essaie plus précisément d’apporter mon aide et mes idées sur certaines problématiques telles que la gestion du webspam, le ranking, etc.

Lorsque j’ai commencé à discuter avec les équipe du moteur, une des premières briques dont on m’a parlé est Qwant News (Qwant actualités en Français^^). Et je vais vous l’avouer, dès le début j’ai été impressionné par le travail qui a été fait par la petite équipe de développement de Qwant sur ce sujet, mais dire cela dès le début du billet, c’est mettre la charrue avant les boeufs. Je vais donc commencer par le début, ou pas.

Présentation rapide de Qwant News

C’est en août, au milieu de l’été, qu’a été déployé le système de présentation des actualités qui est disponible à l’URL https://www.qwant.com/news. Visuellement, cela a déjà été commenté dans les médias web : 4 blocs présentent les grosses actus, quelques autres actus sont présentés à droite ou en dessous de ces 4 blocs selon votre résolution. Pour voir plus d’actus, il faut utiliser la boite de recherche.

Si vous cliquez sur une des actus, vous verrez apparaitre un résultat de recherche qui permet d’obtenir tous les articles de l’actualité concernant le sujet en question. C’est là très différent de ce que peut faire le compétiteur de la vue sur la montagne (!). En effet, alors même que se pose la question des choix éditoriaux opérés par les algorithmes, une partie du problème est résolu par ce mécanisme : une fois que vous choisissez un sujet qui vous intéresse, Qwant vous propose toutes les sources qui en parlent en une seule fois là où d’autres moteurs vous emmènent directement sur la source principale selon l’algorithme.

Ce mécanisme vous permet aussi de raffiner via la boite de recherche la requête utilisée pour essayer de trouver des articles plus précis concernant une partie de cette actualité, ou des actualités relatives.

Les news, une problématique algorithmique différente du search

La plupart des gens pensent qu’un moteur de news est plus simple à réaliser qu’un moteur de recherche standard, c’est à la fois vrai et faux. Voici quelques éléments pour mieux comprendre les enjeux :

Le volume de données est plus petit. Là où pour le search l’index va faire des milliards de pages, pour les news le volume est plus restreint et les pages ont une durée de vie assez courte par ailleurs.
Le timing est très important. Dans le search le moteur peut prendre son temps pour indexer et traiter une page web, dans les news il faut coller à l’actu. Si il faut 2 heures pour parler d’un sujet là où twitter est présent au bout de 10 minutes il n’y a pas de vrai service à l’utilisateur. La problématique du « temps réel » oblige à avoir une chaîne de traitement algorithmique très rapide.
La précision et l’exhaustivité. Dans un ensemble de sources fixées, il ne faut laisser personne sur le carreau pour des raisons de multiplicité des points de vue. Dans le search, si trois pages expliquent comment changer une roue, ce n’est pas grave d’en perdre une dans le traitement. Dans les news, c’est très différent : si le Figaro, le Monde et l’Humanité traitent le même sujet, on ne peut pas perdre un des articles sans biaiser l’accès à l’information, il faut donc faire les choses avec précision.

Au final, les algorithmes qu’on utilise pour fournir des news sont différents de ceux du search, même si ils sont similaires sur certains points (par exemple l’analyse de texte va se faire de la même manière). Un gros point fort d’un moteur de news doit par exemple être sa capacité à créer des clusters d’articles qui parlent du même sujet le plus vite possible, pour traiter l’information par blocs.

Comment ça marche chez Qwant News ?

Bon, d’abord je ne vais pas vous mentir : je ne vous donnerais aucun secret de fabrication sensible^^. L’équipe News de Qwant a utilisé en partie des algorithmes de recherche d’information dont les principes sont connus (quoi, vous n’avez pas lu l’excellent livre Recherche d’information – Applications, modèles et algorithmes. Fouille de données, décisionnel et big data ?) et des algos maisons particulièrement rapide pour filtrer rapidement l’index des news du moment.

Je dois dire que j’ai été bluffé par un certain nombre d’idées mises en place par l’équipe, et par la qualité de la réalisation associée. Ce qui est d’ailleurs bien agréable : je n’ai pas eu trop de boulot à faire sur ce sujet ! Sans rentrer dans les détails (sinon je serais fouetté sur la plage à Nice ^^), voici les principaux algorithmes et briques de traitement utilisés :

Une brique de crawl et récupération des données (là c’est surtout technique).
Un système de création de l’index des news qui s’appellent Mozart.
La chaîne de traitement algorithmique principale, du nom de Tweezer, concentre les principaux algos. Tweezer va extraire le contenu des pages, faire l’analyse du texte pour déterminer de quoi parle l’article, va extraire les médias (videos, images) et va regrouper les articles qui parle de la même chose. Tweezer va également repérer les entités nommées, qui sont une brique très importantes en matière de news.
Un processus qui va déterminer quels sont les sujets les plus importants (c’est ainsi que sont choisis les 4 blocs ainsi que les actus supplémentaires)

Voilà, vous avez maintenant une idée de ce qui se passe (vu de loin). Dans le futur il y aura sans doute encore plus de choses excitantes, comme vous pouvez sans doute le deviner à la lecture de cet article.

Comme d’habitude, si vous avez des question ou des remarques, direction les commentaires, dans la courtoisie et la bonne humeur.

1 septembre 2015

28 Comments

Champ lexical et positionnement

By Sylvain

Avec la rentrée, un grand nombre d’outils pour les SEOs pointent le bout de leur nez (et je vais également y aller de mon outil d’ici quelques semaines^^), et parmi ceux-là, il y a des bonnes surprises.

Depuis quelques mois, j’ai l’occasion de discuter avec un développeur-webmaster, que je vais appeler ici Monsieur X, sur de nombreuses problématiques algorithmiques. Et pendant l’été, Monsieur X m’a fait une démo de son nouvel outil (disponible en beta sur le site 1.fr). Mon objectif ici n’est pas de faire de la retape pour cet outil, qui est à mon avis un bel outil, mais de vous parler de ce que j’ai pu retirer des données que Monsieur X a bien voulu me donner.

D’abord, une présentation rapide de 1.fr

Une fois inscrit sur 1.fr, vous pouvez renseigner l’URL de votre site, et définir un niveau de profondeur de crawl et une quantité de pages à crawler. Une fois que c’est fait, l’outil va vous donner plusieurs types de mesures, qui vont vous permettre de qualifier votre contenu.

1.fr est essentiellement un outil qui manipule la notion de champ lexical. Visiblement, un énorme crawl du web francophone a été effectué et a permis de créer des tables de co-occurences et de proximité d’usage entre mots. Cela permet de calculer l’adéquation d’un contenu au champ lexical d’une expression. J’ai eu l’occasion de tester l’outil, voici par exemple ce qu’il donne sur une partie des pages de l’excellente rubrique cinéma du site krinein.

Avec les indicateurs chiffrés, on peut facilement vérifier la proximité entre le contenu et le champ lexical, et quand le chiffre est un peu faible, en cliquant sur le « + », on a des informations utiles qui apparaissent.

On peut faire le même type d’analyse sur les liens, avec une information sur la connexion sémantique entre la page cible et la page source (allez essayer, c’est parfois assez bluffant de voir que les connexions peuvent être très tordues). Enfin, une dernière fonctionnalité est de faire des suggestions d’adéquation entre titre et contenu.

1.fr propose également un outil supplémentaire très intéressant : le calcul du score sémantique sur un texte qui est donné en entrée à l’outil. Cela permet de tester les textes pour savoir si le contenu est à la hauteur des espérances (vous achetez des textes ? essayez donc de les passer dans l’outil).

Bref, un outil qui donne des infos importantes sur vos contenus. Mais ce qui vous intéresse le plus aujourd’hui, c’est la suite de ce billet 😉

Analyse de la correspondance entre champ lexical et positionnement

J’ai eu la chance de recevoir de la part de Monsieur X un gros blocs de données bien utiles. Voilà ma base de travail :

Les informations de score sémantique pour plus de 4,6 millions de pages, toutes thématiques, avec en plus les informations de positionnement (toutes ces pages sont sur la première page des SERPs Google) sur des requêtes spécifiques.
La même chose mais pour des blocs de pages correspondant à des requêtes avec un grand nombres d’annonceurs, avec un nombre moyen et un nombre faible.
La même chose mais pour les CPC au dessous de 0,1, pour les CPC entre 0,1 et 0,5, puis pour les CPC au dessus de 0,5.
Les infos de score sémantique sur presque 5 millions de pages, mises en regard avec le niveau de concurrence des requêtes. Cela permet d’avoir le score sémantique moyen pour une requête pour toutes les pages d’un même niveau de concurrence.
La même chose par volume de recherche annuel.
Toutes les infos pour deux ensembles de requêtes de deux thématiques différentes. Le premier bloc ne contient que des requêtes qui contiennent le mot « assurance », le deuxième des requêtes avec le mot « tarif ».

Pour travailler ces données, j’ai utilisé les grands classiques :

Corrélation de Pearson quand les valeurs avaient une importance et pour voir si il y a une corrélation affine.
Corrélation de Spearman quand je m’intéressais à corréler les rangs.
Estimateur de l’intervalle de confiance en fonction de la taille de l’échantillon (pour savoir si certaines conclusions sont réelles ou dues au hasard). La formule que j’utilise est le grand classique qui utilise la fonction de répartition de la loi normale centrée réduite. Ici pas besoin d’utiliser la borne de Chernoff, ce qui permet d’avoir des échantillons plus petits pour un intervalle de confiance raisonnable.

Les conclusions (un peu en vrac, mais bon)

Il y a de grandes variations selon les thématiques et les requêtes. Par exemple, sur mon groupe « tarif », la moyenne des scores thématiques est autour de 34,19 avec un minimum à 0,44 et un maximum à 93,95. Sur la thématique « assurance », on une moyenne a presque 35, un minimum à 0,52 et un max à 100. La différence sur la moyenne est significative, ainsi que celle sur le max (mais pas celle sur le min). Dans le cas présent, on peut dire que les contenus « assurance » de la première page des SERPs sont en moyenne plus optimisés que ceux de la thématique « tarif » (quelle surprise 😉 !).

Dans tous les cas, il y a une corrélation de Pearson négative qui va de moyenne à bonne entre score sémantique et positionnement : quand le score sémantique augmente, le positionnement descend (=il approche de la première position, le plus bas est le mieux, la position 1 est mieux que la position 10) et réciproquement (attention : corrélation, causalité, etc.).

Il y a une corrélation de Spearman très forte entre positionnement et rang de score sémantique : quand le rang en score sémantique augmente, c’est aussi le cas du positionnement, et réciproquement. Il semble donc qu’améliorer son score sémantique soit une bonne idée !

Pour les autres cas, je n’ai pas pu faire mieux que garantir le bon comportement statistique pour la première place. Le premier est meilleur, en moyenne, que les suivants, en matière de score sémantique.
Ca a l’air d’être une bonne idée, mais le résultat précédent est-il OK d’un point de vue statistiques ? Pour le global, pour les requêtes à petit nombre d’annonceurs, et pour celles à CPC faible, je peux garantir (avec les volumes étudiés) que les positions 1 et 2 sont clairement dessus en terme de score sémantique. Ce n’est pas un hasard que les deux premiers des SERPs soient plus en adéquation avec le champ lexical. Attention, on parle bien EN MOYENNE, chaque cas particulier peut être différent. Par ailleurs, cela ne veux pas dire que les autres positions soient indépendantes du contenu, on en peut juste pas garantir quoi que ce soit statistiquement avec les données étudiées.
En terme de corrélation de Spearman, les cas nombre annonceurs faible ou moyen, et le cas CPC faible, sont moins corrélés au score sémantique. En regardant en détail les données, on s’aperçoit que c’est parce que les pages dans les dernières positions de la première page sont assez rarement classées par score sémantique. Mon hypothèse est que sur les requêtes finalement peu intéressantes pour les SEOs (qu’on repère via des indicateurs SEA faibles), seules les toutes premières pages ont été travaillé par des SEOs en terme de contenu. En revanche, dès que les indicateurs SEA montrent l’intérêt des webmasters, alors la corrélation est très proche de 1 (entre 0,95 et 0,98).

Volume de recherche et niveau de concurrence ne sont pour ainsi dire pas corrélés au score sémantique. Ce n’est pas surprenant, la corrélation se retrouve au niveau des pages qui performent (les premières places des SERPs) mais pas ailleurs.

Voilà, vous savez tout, maintenant je vous laisse jouer avec l’outil, et si vous avez des questions concernant l’analyse des données (l’outil n’est pas le mien^^) les commentaires sont là pour ça.

4 août 2015

32 Comments

Presque un an, on fait le bilan

By Sylvain

Il y a maintenant presque un an, j’ouvrais ce blog et j’y annonçais que je prenais une disponibilité de mon poste de Professeur d’Université pour tenter totalement l’aventure de l’entreprise, avec une activité largement centrée autour de la R&D en algorithmique, sous le nom des ix-labs. C’était il y a un an, et il est donc temps de faire un point, pour voir ce que cela a donné.

Je dois dire que cela a été pour moi une très bonne année sur le plan professionnel, et je ne parle pas que de l’aspect financier, qui a été meilleur que mes prévisions (les curieux sur ce point devront attendre que mon bilan soit publié), mais surtout du reste.

La recherche privée est peut-être l’avenir de la recherche

C’est peut-être un cas particulier à l’Informatique, mais j’ai beaucoup plus de temps maintenant pour travailler sur mes propres projets que lorsque j’étais enseignant-chercheur à l’Université. Les aspects administratifs me prennent très peu de temps, d’autant plus que je suis largement assisté pour cela, et la partie commerciale est faite en mode communication/conférence et il y a donc peu de RDV de vente (mais il y en a quand même ;)).

Si je devais découper ma semaine, je dirais que 70% du temps je fais des tâches de R&D, 20% du temps je me consacre à des projets annexes (formations, audit, conférences,livres, lives, etc.) et 10% du temps je fais la partie admin/gestion/commerce.

L’autre avantage, c’est que la R&D pour les clients est en grande intersection avec mes projets de recherche plus personnels, ce qui me permet d’être plus efficace et plus content 😉 Si on compare avec la situation des années précédentes, j’ai probablement désormais 3 fois plus de temps de R&D dans mon planning !

La différence principale est sur la partie « dissémination » (voir le post précédent sur le blog) : parce que mes activités ont un impact économique pour mes clients, tout ne peut pas être publié, sinon j’aurais facilement fait 5 ou 6 articles en plus cette année. En revanche, ce qui n’est pas publié est vraiment utilisé, et ça c’est une vraie source de satisfaction.

Dernier point, cette année m’a permis de voir qu’une petite équipe est souvent plus performante qu’une cohorte de personnes. Tout ce qui est sorti des ix-labs cette année est le fruit du travail (à temps complet pour moi, partiel voire très partiel pour les autres) de 4/5 personnes différentes. L’avantage d’une structure comme les ix-labs, c’est que chaque personne intervient sur son domaine de compétences, pas plus et pas moins, ce qui donne une efficacité redoutable.

La formation a remplacé les cours

J’ai toujours enseigné, et j’aime ça. Mon activité actuelle me permet de continuer cette transmission, de manière différente. Les formations des frères Peyronnet se sont élargies cette année avec l’habituelle formation moteurs+SEO qui a été étendue, et l’apparition de deux formations : l’une sur les outils statistiques pour le e-commerce principalement, et l’autre sur la performance des sites web. Je pense que ces deux nouvelles formations ont été des succès, auprès d’un public qui n’était pas forcément le notre jusqu’ici.

Autre vecteur de transmission de la connaissance : les lives des ix-labs. Comme toujours sur nos projets, on est à la bourre (pour l’instant 4 lives sur 12 ont eu lieu), mais nous avons eu de beaux sujets avec de beaux intervenants, et les prochains seront tout aussi qualitatifs : le webspam, les bandits manchots, comment bien utiliser analytics, la segmentation clientèle, etc.
Mon seul regret sur les lives est que l’audience est encore peu nombreuse, il y a largement de la place pour une vingtaine d’abonnés supplémentaires, ce qui augmenterait l’interaction sans dégrader le service. Le service est très peu cher, et on donne replays, code et slides sur un forum privé, il ne faut donc pas avoir peur de s’inscrire.

Plein de conférences : celles des autres et les miennes

Cette année je me suis déplacé à la plupart des conférences, souvent avec un exposé. Mon planning m’empêchera probablement d’en faire autant en tant qu’orateur l’année prochaine, mais j’essaierais d’être présent au maximum, car dans ces conférences, on fait de belle rencontre (et soyons honnête, on y fait aussi des affaires, ce qui est plus sympa que de faire du mailing ou du phoning pour vendre des prestas).

D’autre part, cette année nous avons organisé deux conférences : queduweb et iSWAG. En 2016 nous remettons le couvert : queduweb aura lieu du 8 au 10 juin 2016 à Deauville, et hébergera iSWAG, qui aura lieu les 9 et 10 juin. En 2015 les deux conférences ont bien fonctionné, et en 2016 on triple la mise en mettant queduweb sur trois jours, avec plusieurs tracks : SEA, e-commerce, SEO, BH, e-tourisme, presse, algos, etc. Un premier planning et programme sera dévoilé à la rentrée, pour éviter l’effet « t’as deux semaines pour t’inscrire » 😉

Des belles rencontres, des clients au top, du travail qu’on fait avec plaisir et des sous

C’est un résumé un peu grossier, mais c’est vraiment pour moi la phrase qui qualifie le mieux cet exercice 2015-2016. Je n’avais pas évoqué les clients jusqu’ici, mais objectivement je trouve que j’ai vraiment beaucoup de chances, je bosse avec des gens motivés et investis dans leurs demandes. Je n’ai le droit explicite que de nommer Qwant (pour qui je fais le chief scientist) et le Crédit Agricole pour qui on (avec Guillaume) a fait une mission d’audit SEO algorithmique complexe, mais ils ne sont pas les seuls, et même je n’ai eu aucun « mauvais » client, top non^^

Les prochains mois

La R&D, les lives, Queduweb, iSWAG, mais aussi les formations et les audits avec Guillaume, tout cela continue. Mais si j’étais vous, je resterais attentif, car en septembre/octobre nous allons dévoiler deux projets sur lesquels nous sommes depuis longtemps, et qui ont le potentiel pour être des game-changer pour toutes les personnes qui gèrent des sites web (pas que pour les SEOs). Alors stay tuned pour nos prochaines aventures !

Des questions, des remarques -> direction les commentaires, dans la joie, la bonne humeur et la courtoisie^^

3 août 2015

5 Comments

La production du chercheur, qu’en faire ?

By Sylvain

Inspiré par un échange de tweets que j’ai eu récemment avec Miss K., qui se reconnaitra, je vous fais part de mon point de vue sur ce qu’il faut faire en terme de communication scientifique « professionnelle » (= à destination des pairs et des « utilisateurs » de la science).

L’idée d’origine évoquée était celle de mettre en ligne les idées le plus vite possible, en faisant des petits papiers courts sur arxiv. Cette idée, j’y adhère globalement, mais je pense qu’il faut réfléchir plus à ce que l’on souhaite, car finalement en tant que chercheurs nous sommes les premiers consommateurs de résultats scientifiques, en plus d’en être les producteurs.

La « mission » du chercheur

Le premier point délicat est d’abord de voir quelle est la mission du chercheur vis à vis de la société. C’est d’ailleurs très amusant, les chercheurs sont définis par les grands organismes via leurs livrables, ces derniers impliquant à leur tour des compétences administratives, logistiques et techniques, mais pas du tout par une définition réelle et simple de ce qu’est la recherche scientifique.

Ici, je partirais du principe que l’objectif du chercheur est de produire de la connaissance nouvelle. Une fois ce principe fixé, quid de la dissémination de cette connaissance?

Communiquer, une nécessité pour être évalué ?

Il est nécessaire d’aborder le « problème » de l’évaluation, car c’est cette dernière qui est le driver des livrables de dissémination.
Nous sommes à une époque où il faut être productif, c’est le leitmotiv des tutelles publiques ou privées. Mais ce mot ne veut rien dire en l’absence d’une vision claire de ce que l’on attend du producteur. Le phénomène est connu, l’évaluation étant réalisé principalement par des incompétents, ce qui ce met en place est une logique de comptage du livrable le plus simple à comprendre : l’article scientifique.

Posons-nous sincèrement la question : si il n’y avais pas tout le cinéma du comptage des publications par divers comités incompétents (parce qu’ils sont nuls, parce que les gens qui les composent n’ont pas le temps, parce que etc.), est-ce que nous ferions autant de publications, est-ce tout notre effort de communication serait tourné vers produire du papier à tout prix ?

Disséminer est INDISPENSABLE

La recherche est devenu une activité de moins en moins solitaire, et il est nécessaire de s’entourer de toutes les compétences possibles pour résoudre des problèmes de « grande largeur ». Un problème de grande largeur est pour moi justement un problème qui nécessite une force de travail et des connaissances/compétences qui dépassent celles d’une personne, indépendamment du temps disponible.

Il faut donc communiquer ses résultats pour créer un vrai réseau de recherche efficace, mais comment ?

Ma propre expérience (bah oui, vous êtes sur mon blog)

Pour expliquer ma propre expérience, il me faut raconter un minimum ma vie professionnelle, que vous pouvez mettre en regard avec mon entrée DBLP. Après ma thèse j’ai fait une année un peu flottante avec une expérience d’entreprise, puis je suis devenu enseignant-chercheur dans le privé (à l’EPITA) avec pour mission de bien enseigner et de publier. Puis, on m’a proposé de faire une année à l’X en postdoc, ce que j’ai fais pour repartir dans le circuit public. L’année en question est l’année 2006-2007, et je suis devenu MCF en septembre 2007. En 2010 je passe l’HDR, pour devenir prof en 2012, et depuis septembre 2014 je suis en dispo et je m’occupe du mini labo que j’ai co-fondé, mais je fais de la recherche (pas plus appliquée qu’avant, mais mise en place par des clients ou par nous).

Quand on confronte cette « bio » avec DBLP, on voit des pics de publications dans toutes les années consacrées à la carrière, et c’est là le paradoxe, dans les moments où on a le moins de temps à consacrer à la recherche, c’est là qu’on va produire le plus. Pour que cela soit possible, il y a plusieurs possibilités :

Une nette augmentation du temps de travail, au détriment du reste.
Des pratiques douteuses : cabales de publication, recherche incrémentale.
Canalisation de tout l’effort de recherche sur les papiers, et pas sur la production de nouvelles connaissances.
Etre un chercheur hors du commun.

Comme le quatrième point est, comme son nom l’indique, peu probable, il reste des comportements non souhaitables au niveau institutionnel, alors que chacun pense faire exactement ce qui lui est demandé.

Par ailleurs, une large partie de la dissipation en terme de production de publications est due au processus de publication lui-même. Il faut écrire le papier, il faut qu’il soit reviewé (et donc si on soumet on se retrouve à reviewer à un moment ou un autre au moins 2 à 3 fois plus de papiers que ce que l’on a écrit), vu que le taux d’acceptation moyen est sans doute autour de 25%, on va refaire le processus 3 à 4 fois avant acceptation, puis il faudra aller à la conférence, ce qui va demander des sous et du temps (au moins 3 ou 4 jours de voyage). Bref, un surcoût important pour la communauté, et de la fatigue pour les personnes.

Comment je vois les choses

Ce n’est que mon point de vue, et il est sans doute très centré sur les pratiques en informatique (au sens du computer science anglo-saxon), mais je le partage.

Il faut faire circuler les bonnes idées : si vous avez une idée que vous n’allez pas exploiter aussitôt (parce qu’elle peut amener un gros résultats, parce qu’il s’agit d’un algo qui peut rapporter financièrement), il est intéressant de les mettre en ligne rapidement. Pour cela, l’idée avancée par miss K. est parfaite : un petit papier de 4 pages double-colonnes maximum dans arxiv avec l’idée et quelques explications, c’est parfait pour permettre à d’autres de bosser, et parfait aussi pour vous donner la paternité si c’est ce qui vous intéresse.
Il faut signaler les mauvaises idées : si quelque chose ne fonctionne pas, il faut le dire d’une manière ou d’une autre pour éviter que d’autres perdent leur temps. Pour cela, un blog technique est parfait.
Coder n’est pas une fin en soi : si vous avez écrit du code pour prototyper vos algos, et si ce code n’est pas vendu à un tiers, faites le circuler. Même si c’est mal écrit, ça peut toujours être utile. Si vous avez peur qu’on vous vole votre code (?), alors donnez des binaires.
Partagez vos datasets et résultats d’expérimentations. La reproductibilité des résultats devrait être une priorité, et elle n’est possible que si vous partagez les sorties, mais aussi les entrées, de votre processus d’expérimentation.

Voilà, si vous faites tout cela, alors d’un pur point de vue scientifique, il n’y a pas besoin des publications, sauf pour la carrière…

Et comme d’habitude les commentaires sont là, pour commenter dans la joie, la bonne humeur et la courtoisie.

28 juillet 2015

6 Comments

[good books] Quelques livres utiles (1/X)

By Sylvain

C’est l’été, une période propice à la remise à niveau et à la découverte de nouveaux outils, de nouveaux langages.

C’est pour cela que je vous présente aujourd’hui quelques livres qui sont des basiques : avec eux vous pourrez apprendre à programmer, vous pourrez apprendre des nouveaux outils, mais si vous êtes déjà un expert, ce n’est pas forcément les livres que vous auriez choisi. A chaque fois, le titre du paragraphe est votre objectif, et je vous propose un livre adapté pour remplir cet objectif.

Je ne le cache pas : les liens vers Amazon sont des liens d’affiliation.

Vous voulez apprendre à programmer, dans un langage moderne
Si vous n’avez jamais fait de programmation un peu complexe (c’est-à-dire avec des traitements algorithmiques) et que vous voulez apprendre, python est sans doute le langage le plus adapté à votre objectif.
Python est en effet un langage doté d’une syntaxe simple, que l’on peut utiliser pour programmer de manière impérative, orientée objet ou fonctionnelle. Par ailleurs, en python pas besoin de se préoccuper de la gestion de la mémoire, des primitives de bas niveau et du typage, tout est réalisé automatiquement de ce point de vue. C’est un désavantage si vous visez les grosses performances en terme de calcul, mais pour apprendre ou pour beaucoup de tâches, c’est idéal.

Le livre que je vous conseille est « Apprendre à programmer avec Python 3 » de Gérard Swinnen.

<br />

Il ne faut pas s’y tromper : si vous savez déjà programmer en java, C ou autre, ce n’est pas le livre qu’il vous faut car celui ci part de la base de la base et va vous guider conjointement sur l’apprentissage de la programmation, et de python. C’est typiquement le livre que je conseille aux lycéens qui veulent apprendre à coder, et c’est aussi celui que je proposais à mes étudiants de première année d’info à la fac. Vous y apprendre les structures et fonctions de base, comment écrire des petits programmes, comment réaliser une interface graphique avec Tkinter, etc.

Le livre contient énormément d’exercices, ce qui vous permet de ne pas trop vous déprimer sur la route de l’apprentissage, qui est parfois laborieuse en matière de programmation.

Vous voulez manipuler vos données, les analyser et les visualiser
L’analyse de données c’est très mode, et d’ailleurs c’est une grande part de mon boulot, principalement « parce que ça marche« . Si vous êtes webmaster, e-commerçant, etc. vous avez probablement des quantités astronomiques de données (on parle de big data ;)) dont vous aimeriez bien faire quelque chose. Vous utilisez peut-être excel pour faire un peu de stats, voire même de la corrélation ou de la visualisation.

Il existe un outil totalement gratuit qui est conçu pour analyser et visualiser les données, il s’agit de R. Le livre « Statistiques avec R » par Pierre-André Cornillon, François Husson, Nicolas Jégou, Eric Matzner-Lober, Julie Josse, Arnaud Guyader, Laurent Rouvière et Maela Kloareg, est un livre d’introduction à R.

<br />

En matière de démarrage avec R, c’est mon livre favori. Tout d’abord parce qu’il est orienté pratique, et écrit par des praticiens (mais écrit de manière un peu abrupte, il faut bien le dire), mais aussi et surtout parce qu’il est bien construit. une première partie permet de se familiariser gentiment avec R tandis que la seconde partie est un manuel pratique : 20 fiches pour donner les clés de la résolution de 20 problème statistiques différents (savoir quelle est la correspondance entre outils statistiques et problèmes de la vrai vie n’est pas vraiment dans le scope de ce livre).

Rien que la première partie justifie l’achat du livre puisque vous y verrez : comment installer R, quels sont les types d’objets de base, qu’est ce qu’un package, comment faire de superbes représentations graphiques et enfin comment programmer dans R.

La deuxième est indispensable pour résoudre des problèmes standards (classification, segmentation, etc.).

Bref, un livre que j’affectionne particulièrement, mais pas forcément facile d’accès pour un public web standard.

Vous voulez comprendre réellement un concept de base du e-commerce moderne
Le dernier livre que je vous conseille est facile à lire et pas cher du tout, il s’agit de « La Longue Traîne : Quand vendre moins, c’est vendre plus » par Chris Anderson. Bien sûr vous allez tous me dire que vous savez parfaitement ce qu’est la longue traîne, et peut-être que c’est le cas, mais avez vous lu ce livre qui est à l’origine du concept ? Il est fort probable que non, surtout si vous êtes parmi les jeunes SEO/webmarketeurs, vu qu’il date de 2006.

<br />

Chris Anderson explique donc à quel point Internet à changer la donne en matière de commerce. Il élabore en détails son concept de longue traîne, avec une longue discussion qui tourne autour du marché de la musique (2006, 2006…). Le livre est agréable à lire, mais il est rédigé à « l’américaine » : les mêmes idées sont répétées à l’envie, alors que le bouquin aurait pu être 2 fois moins long, voire 3.

Voilà, vous avez maintenant de quoi vous occupez pour finir l’été, et si vous le souhaitez, les commentaires sont ouverts pour donner votre avis sur l’un ou l’autre de ses livres.

16 juillet 2015

15 Comments

Augmenter sa productivité, mieux gérer son temps et son stress

By Sylvain

C’est la période estivale, qui est bien plus calme que le reste de l’année pour le boulot, et qui me permet de réfléchir aux derniers mois (je ferais très prochainement un post de bilan de mon premier exercice, qui fini fin août) et à mes process de travail.

Comme mon petit blog n’est pas un blog qui a pour but de vous fourguer des ebooks sur la productivité et la gestion de son temps et de son argent, je vais me contenter d’un seul billet court sur ce sujet.

Voici donc mes basiques, forgés sur une expérience mixte : milieu académique et privé, grouillot de base puis mon propre patron, etc. Bien évidemment j’ai parfois grossi le trait pour me faire parfaitement comprendre.

L’importance de la routine

Une chose qui me parait très importante, c’est d’avoir une routine de travail. Il y a divers degrés de « routinisation », avec les vrais warriors qui vont avoir des horaires très stricts, tandis que d’autres comme moi n’aurons que des guides « comportementaux » assez lâches.

Pour continuer sur mon propre exemple, mes routines sont simples :

Pas plus d’une grosse tâche par jour. Je fais plein de listes, mais sur ces listes, jamais plus d’une tâche longue et pénible par jour. Pourquoi ? Parce qu’une fois qu’elle est finie je suis en mode « pas envie de bosser » et donc je peux faire du tout venant (factures, administratifs, mails) mais pas plus.
C’est également pour cela que cette tâche longue et pénible est l’une des dernières de la journée. Ce dernier point est controversé : Brian Tracy (référence plus bas) donne exactement le conseil inverse, car cela permettrait de se bourrer le mou grâce au sentiment d’accomplissement à l’issue de la tâche. Si vous ne pouvez travailler que grâce à ce genre d’incitative, il est temps de changer de métier.
Pour les autres tâches, le tout est de les faire au moment le plus adapté selon son rythme personnel. Je commence toujours ma journée par filtrer mes mails en buvant mon café. Puis ensuite je réponds et assure le travail administratif.
une fois que c’est fini, je fais mon travail de R&D : lecture de la littérature, réflexion, écriture des articles, etc. Sur la fin de la journée, je fais le travail pénible. Pour moi il s’agit généralement d’écrire les rapports et divers livrables (j’avoue, ce n’est pas ce que je préfère).
Je n’ai aucun horaires, ils sont pour moi une contrainte, j’ai choisi de m’en affranchir. En contrepartie, je n’ai pas d’horaires, et donc si il faut travailler jusqu’à 3h du matin pour finir un rapport et se lever à 6h pour partir le présenter, et bien c’est ainsi (j’ai une relieuse dans mes bureaux ^^).

Segmenter son travail

Sur ce point les avis diffèrent. Guillaume préfère je crois le monotasking alors que je suis plutôt pour le multitasking.

Si comme moi vous êtes pour le multitasking, je vous conseille de segmenter votre temps de travail, en accord avec votre capacité de concentration. Personnellement, pour du travail nécessitant de la réflexion je fais des séquences de 45 minutes, pour du travail plus simple je fais des séquences d’1h15 environ. Entre deux séquences je fais une pause de 5 à 15 minutes, je ne compte pas vraiment.

Se mettre des deadlines

Une pratique directement issue du milieu académique : la deadline qui tue vraiment. Chaque tâche doit avoir une deadline, et je vais vous dire un secret : je ne commence aucune tâche qui n’a pas de deadline associée (si vous êtes un de mes clients, vous avez forcément reçu un « et quelle est la deadline ? » 30 secondes après l’envoi de votre demande).

Quand la deadline est atteinte, on arrête de bosser et on livre, sauf cas de force majeure. Oui, on livre donc des choses moins abouties qu’espéré, mais c’est la vie.

Bien sûr, si votre client a un budget illimité et un temps infini, vous pouvez peut-être procéder autrement, ou pas.

Suffisamment bien versus parfait

voici l’exemple typique de discours à l’américaine, qu’on retrouve par exemple chez Steve Pavlina. Sur ce point particulier je suis 100% en phase avec lui. Au delà d’un certain stade il n’est pas intéressant de rajouter du temps de travail pour finaliser une tâche, car le delta de qualité obtenue n’est pas intéressant.

Il y a une explication à cela, c’est la théorie des rendements décroissants, mais vu qu’on est pas là pour faire un cours d’économie, je n’en dirais pas plus.

Retenez simplement qu’il faut se limiter sur les finitions, car ce n’est plus productif au delà d’un certain stade. Si vous appliquez la règle de la deadline, elle s’appliquera généralement avant d’arriver à celle-ci.

Se décider vite

Autre conseil de Steve Pavlina : il faut prendre rapidement les décisions. Il conseille même de ne pas consacrer plus de 60 secondes à la prise d’une décision.

Sur le timing on atteint le nawak, mais l’idée est là : l’incertitude est une source de stress très importante (pour moi c’est la pire) et on s’en libère en prenant les décisions, cqfd. Mon mantra est « la bonne décision, c’est celle qu’on prend », que je double, tel le sphinx, d’un « la peur n’évite pas le danger ».

Le seuil d’indifférence

Je ne sais plus où j’avais lu ce conseil que j’avais trouvé débile de prime abord, et que j’applique désormais : chacun a un seuil d’indifférence financier, qu’il faut utiliser.

Je m’explique : à un certain niveau de vie, il y a des sommes qui finissent par devenir indifférentes. Vous allez au bistrot, le café est à 1 euros, ou 1,1 euros ou 1,5 euros. Est-ce que votre comportement d’achat change ? probablement pas, ces trois sommes vous sont indifférentes, tout comme le seuil de 1,5 euros.

Pour éviter du stress inutile, trouvez votre seuil d’indifférence financier, et à chaque fois que vous aurez une dépense sous ce seuil, ne discutez pas, ne réfléchissez pas, car de toute façon, même si le prix baisse, vous n’en tirerez aucune joie, et donc votre seule alternative est entre « je m’en fous » et « je suis énervé », personnellement je préfère la première.

Le seuil n’est pas nécessairement le même selon qu’on parle des finances de votre entreprise ou des vôtres, mais dans tous les cas il existe (mais il est peut être très près de zéro)

Voilà, je vous ai donné mes supers conseils de productivité, maintenant vous pouvez troller autant que vous voulez dans les commentaires !

Références (oui, de l’affiliation amazon…)

Avalez le crapaud par Brian Tracy.
Steve Pavlina: The Unauthorized Biography par Thomas Baker.

9 juillet 2015

15 Comments

[good book] Recherche d’information : applications, modèles et algorithmes

By Sylvain

Les algorithmes utilisés par les moteurs de recherche sont pour moi, vous le savez déjà sans doute, à la fois une passion, un sujet de recherche et mon gagne-pain (par nos formations et parce que je bosse en partenariat avec le moteur Qwant).

Certaines des personnes qui me suivent veulent parfois en savoir plus, et pendant longtemps j’avais du mal à leur donner un conseil raisonnable, car la littérature accessible à un non spécialiste était rare voire inexistante. Mais depuis, j’ai trouvé par hasard un livre que je conseille à toutes et tous, même si bien sûr il est principalement accessible à des personnes familières de l’algorithmique.

Ce livre est le suivant (oui, il s’agit d’un lien d’affiliation amazon, oui je suis un vendu, oui si vous l’achetez via ce lien cela soutient mon blog) :

<br />

Le livre a été écrit par Massih-Reza Amini et Eric Gaussier, tous les deux sont professeurs à Grenoble 1, et effectuent leurs recherches dans le domaine de la recherche d’information. Il constitue pour moi un formidable support de cours pour des étudiants en dernière année de licence d’informatique, ou en première année de master.

On trouve dans ce livre toutes les bases permettant de réaliser un moteur de recherche ! On commence par les prétraitements, le modèle vectoriel avec la fameuse tf-idf, la notion d’index inversé, les index dynamiques, etc. On continue avec des choses plus complexes, comme les modèles probabilistes (BM25 par exemple) puis les modèles de langues. On apprend également comment qualifier les résultats d’un système de recherche d’information, ce qui est utile si on décide d’en coder un !

A partir du chapitre 4, le livre passe la seconde, avec le cas particulier de la recherche sur le web et des problématiques (de taille) associées. Il se poursuit avec un chapitre très intéressant sur la catégorisation des documents, qui vaut à lui seul le détour, avec un panorama qui va des méthodes simples (seuillage par exemple, ou information mutuelle/chi2) aux plus compliqués (SVM, perceptron, etc.).

Les chapitres 6 et 7 sont respectivement consacrés au clustering de documents, et à la recherche de thèmes latents. Ils sont intéressants, mais à mon sens un peu elliptiques, sur des sujets qui nécessitent un background algorithmique plus complexe. Le lecteur non familier devra donc travailler plus dur sur ces thématiques « avancées » et chercher des informations ailleurs.

Enfin, un très très court chapitre 8 donne quelques pistes vers des outils logiciels disponibles en ligne.

Globalement, il s’agit d’un livre indispensable si vous êtes intéressé par le développement des moteurs de recherche, que vous avez un background suffisant en algorithmique, et que vous êtes motivé.

N’hésitez pas à donner votre avis en commentaires, et bonne lecture/bon courage si vous vous lancez.

"You come at the king, you best not miss" – Omar Little (The Wire)

Sur mon bureau…

By Sylvain

Mesure la force induite d’un lien : plus d’explications

By Sylvain

Mesurer la force d’un lien, selon le contexte

By Sylvain

Quelques mots sur Qwant News

By Sylvain

Présentation rapide de Qwant News

Les news, une problématique algorithmique différente du search

Comment ça marche chez Qwant News ?

Champ lexical et positionnement

By Sylvain

Presque un an, on fait le bilan

By Sylvain

La production du chercheur, qu’en faire ?

By Sylvain

[good books] Quelques livres utiles (1/X)

By Sylvain

Augmenter sa productivité, mieux gérer son temps et son stress

By Sylvain

[good book] Recherche d’information : applications, modèles et algorithmes

By Sylvain

Articles récents

Commentaires récents

Archives

Chez les copains