Presque un an, on fait le bilan

Il y a maintenant presque un an, j’ouvrais ce blog et j’y annonçais que je prenais une disponibilité de mon poste de Professeur d’Université pour tenter totalement l’aventure de l’entreprise, avec une activité largement centrée autour de la R&D en algorithmique, sous le nom des ix-labs. C’était il y a un an, et il est donc temps de faire un point, pour voir ce que cela a donné.

Je dois dire que cela a été pour moi une très bonne année sur le plan professionnel, et je ne parle pas que de l’aspect financier, qui a été meilleur que mes prévisions (les curieux sur ce point devront attendre que mon bilan soit publié), mais surtout du reste.

La recherche privée est peut-être l’avenir de la recherche

C’est peut-être un cas particulier à l’Informatique, mais j’ai beaucoup plus de temps maintenant pour travailler sur mes propres projets que lorsque j’étais enseignant-chercheur à l’Université. Les aspects administratifs me prennent très peu de temps, d’autant plus que je suis largement assisté pour cela, et la partie commerciale est faite en mode communication/conférence et il y a donc peu de RDV de vente (mais il y en a quand même ;)).

Si je devais découper ma semaine, je dirais que 70% du temps je fais des tâches de R&D, 20% du temps je me consacre à des projets annexes (formations, audit,  conférences,livres, lives, etc.) et 10% du temps je fais la partie admin/gestion/commerce.

L’autre avantage, c’est que la R&D pour les clients est en grande intersection avec mes projets de recherche plus personnels, ce qui me permet d’être plus efficace et plus content 😉 Si on compare avec la situation des années précédentes, j’ai probablement désormais 3 fois plus de temps de R&D dans mon planning !

La différence principale est sur la partie « dissémination » (voir le post précédent sur le blog) : parce que mes activités ont un impact économique pour mes clients, tout ne peut pas être publié, sinon j’aurais facilement fait 5 ou 6 articles en plus cette année. En revanche, ce qui n’est pas publié est vraiment utilisé, et ça c’est une vraie source de satisfaction.

Dernier point, cette année m’a permis de voir qu’une petite équipe est souvent plus performante qu’une cohorte de personnes. Tout ce qui est sorti des ix-labs cette année est le fruit du travail (à temps complet pour moi, partiel voire très partiel pour les autres) de 4/5 personnes différentes. L’avantage d’une structure comme les ix-labs, c’est que chaque personne intervient sur son domaine de compétences, pas plus et pas moins, ce qui donne une efficacité redoutable.

La formation a remplacé les cours

J’ai toujours enseigné, et j’aime ça. Mon activité actuelle me permet de continuer cette transmission, de manière différente. Les formations des frères Peyronnet se sont élargies cette année avec l’habituelle formation moteurs+SEO qui a été étendue, et l’apparition de deux formations : l’une sur les outils statistiques pour le e-commerce principalement, et l’autre sur la performance des sites web. Je pense que ces deux nouvelles formations ont été des succès, auprès d’un public qui n’était pas forcément le notre jusqu’ici.

Autre vecteur de transmission de la connaissance : les lives des ix-labs. Comme toujours sur nos projets, on est à la bourre (pour l’instant 4 lives sur 12 ont eu lieu), mais nous avons eu de beaux sujets avec de beaux intervenants, et les prochains seront tout aussi qualitatifs : le webspam, les bandits manchots, comment bien utiliser analytics, la segmentation clientèle, etc.
Mon seul regret sur les lives est que l’audience est encore peu nombreuse, il y a largement de la place pour une vingtaine d’abonnés supplémentaires, ce qui augmenterait l’interaction sans dégrader le service. Le service est très peu cher, et on donne replays, code et slides sur un forum privé, il ne faut donc pas avoir peur de s’inscrire.

Plein de conférences : celles des autres et les miennes

Cette année je me suis déplacé à la plupart des conférences, souvent avec un exposé. Mon planning m’empêchera probablement d’en faire autant en tant qu’orateur l’année prochaine, mais j’essaierais d’être présent au maximum, car dans ces conférences, on fait de belle rencontre (et soyons honnête, on y fait aussi des affaires, ce qui est plus sympa que de faire du mailing ou du phoning pour vendre des prestas).

D’autre part, cette année nous avons organisé deux conférences : queduweb et iSWAG.  En 2016 nous remettons le couvert : queduweb aura lieu du 8 au 10 juin 2016 à Deauville, et hébergera iSWAG, qui aura lieu les 9 et 10 juin. En 2015 les deux conférences ont bien fonctionné, et en 2016 on triple la mise en mettant queduweb sur trois jours, avec plusieurs tracks : SEA, e-commerce, SEO, BH, e-tourisme, presse, algos, etc. Un premier planning et programme sera dévoilé à la rentrée, pour éviter l’effet « t’as deux semaines pour t’inscrire » 😉

Des belles rencontres, des clients au top, du travail qu’on fait avec plaisir et des sous

C’est un résumé un peu grossier, mais c’est vraiment pour moi la phrase qui qualifie le mieux cet exercice 2015-2016. Je n’avais pas évoqué les clients jusqu’ici, mais objectivement je trouve que j’ai vraiment beaucoup de chances, je bosse avec des gens motivés et investis dans leurs demandes. Je n’ai le droit explicite que de nommer Qwant (pour qui je fais le chief scientist) et le Crédit Agricole pour qui on (avec Guillaume) a fait une mission d’audit SEO algorithmique complexe, mais ils ne sont pas les seuls, et même je n’ai eu aucun « mauvais » client, top non^^

Les prochains mois

La R&D, les lives, Queduweb, iSWAG, mais aussi les formations et les audits avec Guillaume, tout cela continue. Mais si j’étais vous, je resterais attentif, car en septembre/octobre nous allons dévoiler deux projets sur lesquels nous sommes depuis longtemps, et qui ont le potentiel pour être des game-changer pour toutes les personnes qui gèrent des sites web (pas que pour les SEOs). Alors stay tuned pour nos prochaines aventures !

Des questions, des remarques -> direction les commentaires, dans la joie, la bonne humeur et la courtoisie^^

La production du chercheur, qu’en faire ?

Inspiré par un échange de tweets que j’ai eu récemment avec Miss K., qui se reconnaitra, je vous fais part de mon point de vue sur ce qu’il faut faire en terme de communication scientifique « professionnelle » (= à destination des pairs et des « utilisateurs » de la science).

L’idée d’origine évoquée était celle de mettre en ligne les idées le plus vite possible, en faisant des petits papiers courts sur arxiv. Cette idée, j’y adhère globalement, mais je pense qu’il faut réfléchir plus à ce que l’on souhaite, car finalement en tant que chercheurs nous sommes les premiers consommateurs de résultats scientifiques, en plus d’en être les producteurs.

La « mission » du chercheur

Le premier point délicat est d’abord de voir quelle est la mission du chercheur vis à vis de la société. C’est d’ailleurs très amusant, les chercheurs sont définis par les grands organismes via leurs livrables, ces derniers impliquant à leur tour des compétences administratives, logistiques et techniques, mais pas du tout par une définition réelle et simple de ce qu’est la recherche scientifique.

Ici, je partirais du principe que l’objectif du chercheur est de produire de la connaissance nouvelle. Une fois ce principe fixé, quid de la dissémination de cette connaissance?

Communiquer, une nécessité pour être évalué ?

Il est nécessaire d’aborder le « problème » de l’évaluation, car c’est cette dernière qui est le driver des livrables de dissémination.
Nous sommes à une époque où il faut être productif, c’est le leitmotiv des tutelles publiques ou privées. Mais ce mot ne veut rien dire en l’absence d’une vision claire de ce que l’on attend du producteur. Le phénomène est connu, l’évaluation étant réalisé principalement par des incompétents, ce qui ce met en place est une logique de comptage du livrable le plus simple à comprendre : l’article scientifique.

Posons-nous sincèrement la question : si il n’y avais pas tout le cinéma du comptage des publications par divers comités incompétents (parce qu’ils sont nuls, parce que les gens qui les composent n’ont pas le temps, parce que etc.), est-ce que nous ferions autant de publications, est-ce tout notre effort de communication serait tourné vers produire du papier à tout prix ?

Disséminer est INDISPENSABLE

La recherche est devenu une activité de moins en moins solitaire, et il est nécessaire de s’entourer de toutes les compétences possibles pour résoudre des problèmes de « grande largeur ». Un problème de grande largeur est pour moi justement un problème qui nécessite une force de travail et des connaissances/compétences qui dépassent celles d’une personne, indépendamment du temps disponible.

Il faut donc communiquer ses résultats pour créer un vrai réseau de recherche efficace, mais comment ?

Ma propre expérience (bah oui, vous êtes sur mon blog)

Pour expliquer ma propre expérience, il me faut raconter un minimum ma vie professionnelle, que vous pouvez mettre en regard avec mon entrée DBLP. Après ma thèse j’ai fait une année un peu flottante avec une expérience d’entreprise, puis je suis devenu enseignant-chercheur dans le privé (à l’EPITA) avec pour mission de bien enseigner et de publier. Puis, on m’a proposé de faire une année à l’X en postdoc, ce que j’ai fais pour repartir dans le circuit public. L’année en question est l’année 2006-2007, et je suis devenu MCF en septembre 2007. En 2010 je passe l’HDR, pour devenir prof en 2012, et depuis septembre 2014 je suis en dispo et je m’occupe du mini labo que j’ai co-fondé, mais je fais de la recherche (pas plus appliquée qu’avant, mais mise en place par des clients ou par nous).

Quand on confronte cette « bio » avec DBLP, on voit des pics de publications dans toutes les années consacrées à la carrière, et c’est là le paradoxe, dans les moments où on a le moins de temps à consacrer à la recherche, c’est là qu’on va produire le plus. Pour que cela soit possible, il y a plusieurs possibilités :

  • Une nette augmentation du temps de travail, au détriment du reste.
  • Des pratiques douteuses : cabales de publication, recherche incrémentale.
  • Canalisation de tout l’effort de recherche sur les papiers, et pas sur la production de nouvelles connaissances.
  • Etre un chercheur hors du commun.

Comme le quatrième point est, comme son nom l’indique, peu probable, il reste des comportements non souhaitables au niveau institutionnel, alors que chacun pense faire exactement ce qui lui est demandé.

Par ailleurs, une large partie de la dissipation en terme de production de publications est due au processus de publication lui-même. Il faut écrire le papier, il faut qu’il soit reviewé (et donc si on soumet on se retrouve à reviewer à un moment ou un autre au moins 2 à 3 fois plus de papiers que ce que l’on a écrit), vu que le taux d’acceptation moyen est sans doute autour de 25%, on va refaire le processus 3 à 4 fois avant acceptation, puis il faudra aller à la conférence, ce qui va demander des sous et du temps (au moins 3 ou 4 jours de voyage). Bref, un surcoût important pour la communauté, et de la fatigue pour les personnes.

Comment je vois les choses

Ce n’est que mon point de vue, et il est sans doute très centré sur les pratiques en informatique (au sens du computer science anglo-saxon), mais je le partage.

  • Il faut faire circuler les bonnes idées : si vous avez une idée que vous n’allez pas exploiter aussitôt (parce qu’elle peut amener un gros résultats, parce qu’il s’agit d’un algo qui peut rapporter financièrement), il est intéressant de les mettre en ligne rapidement. Pour cela, l’idée avancée par miss K. est parfaite : un petit papier de 4 pages double-colonnes maximum dans arxiv avec l’idée et quelques explications, c’est parfait pour permettre à d’autres de bosser, et parfait aussi pour vous donner la paternité si c’est ce qui vous intéresse.
  • Il faut signaler les mauvaises idées : si quelque chose ne fonctionne pas, il faut le dire d’une manière ou d’une autre pour éviter que d’autres perdent leur temps. Pour cela, un blog technique est parfait.
  • Coder n’est pas une fin en soi : si vous avez écrit du code pour prototyper vos algos, et si ce code n’est pas vendu à un tiers, faites le circuler. Même si c’est mal écrit, ça peut toujours être utile. Si vous avez peur qu’on vous vole votre code (?), alors donnez des binaires.
  • Partagez vos datasets et résultats d’expérimentations. La reproductibilité des résultats devrait être une priorité, et elle n’est possible que si vous partagez les sorties, mais aussi les entrées, de votre processus d’expérimentation.

Voilà, si vous faites tout cela, alors d’un pur point de vue scientifique, il n’y a pas besoin des publications, sauf pour la carrière…

Et comme d’habitude les commentaires sont là, pour commenter dans la joie, la bonne humeur et la courtoisie.

 

[good books] Quelques livres utiles (1/X)

C’est l’été, une période propice à la remise à niveau et à la découverte de nouveaux outils, de nouveaux langages.

C’est pour cela que je vous présente aujourd’hui quelques livres qui sont des basiques : avec eux vous pourrez apprendre à programmer, vous pourrez apprendre des nouveaux outils, mais si vous êtes déjà un expert, ce n’est pas forcément les livres que vous auriez choisi. A chaque fois, le titre du paragraphe est votre objectif, et je vous propose un livre adapté pour remplir cet objectif.

Je ne le cache pas : les liens vers Amazon sont des liens d’affiliation.

Vous voulez apprendre à programmer, dans un langage moderne
Si vous n’avez jamais fait de programmation un peu complexe (c’est-à-dire avec des traitements algorithmiques) et que vous voulez apprendre, python est sans doute le langage le plus adapté à votre objectif.
Python est en effet un langage doté d’une syntaxe simple, que l’on peut utiliser pour programmer de manière impérative, orientée objet ou fonctionnelle. Par ailleurs, en python pas besoin de se préoccuper de la gestion de la mémoire, des primitives de bas niveau et du typage, tout est réalisé automatiquement de ce point de vue. C’est un désavantage si vous visez les grosses performances en terme de calcul, mais pour apprendre ou pour beaucoup de tâches, c’est idéal.

Le livre que je vous conseille est « Apprendre à programmer avec Python 3 » de Gérard Swinnen.

Il ne faut pas s’y tromper : si vous savez déjà programmer en java, C ou autre, ce n’est pas le livre qu’il vous faut car celui ci part de la base de la base et va vous guider conjointement sur l’apprentissage de la programmation, et de python. C’est typiquement le livre que je conseille aux lycéens qui veulent apprendre à coder, et c’est aussi celui que je proposais à mes étudiants de première année d’info à la fac. Vous y apprendre les structures et fonctions de base, comment écrire des petits programmes, comment réaliser une interface graphique avec Tkinter, etc.

Le livre contient énormément d’exercices, ce qui vous permet de ne pas trop vous déprimer sur la route de l’apprentissage, qui est parfois laborieuse en matière de programmation.

Vous voulez manipuler vos données, les analyser et les visualiser
L’analyse de données c’est très mode, et d’ailleurs c’est une grande part de mon boulot, principalement « parce que ça marche« . Si vous êtes webmaster, e-commerçant, etc. vous avez probablement des quantités astronomiques de données (on parle de big data ;)) dont vous aimeriez bien faire quelque chose. Vous utilisez peut-être excel pour faire un peu de stats, voire même de la corrélation ou de la visualisation.

Il existe un outil totalement gratuit qui est conçu pour analyser et visualiser les données, il s’agit de R. Le livre « Statistiques avec R » par Pierre-André Cornillon, François Husson, Nicolas Jégou, Eric Matzner-Lober, Julie Josse, Arnaud Guyader, Laurent Rouvière et Maela Kloareg, est un livre d’introduction à R.

En matière de démarrage avec R, c’est mon livre favori. Tout d’abord parce qu’il est orienté pratique, et écrit par des praticiens (mais écrit de manière un peu abrupte, il faut bien le dire), mais aussi et surtout parce qu’il est bien construit. une première partie permet de se familiariser gentiment avec R tandis que la seconde partie est un manuel pratique : 20 fiches pour donner les clés de la résolution de 20 problème statistiques différents (savoir quelle est la correspondance entre outils statistiques et problèmes de la vrai vie n’est pas vraiment dans le scope de ce livre).

Rien que la première partie justifie l’achat du livre puisque vous y verrez : comment installer R, quels sont les types d’objets de base, qu’est ce qu’un package, comment faire de superbes représentations graphiques et enfin comment programmer dans R.

La deuxième est indispensable pour résoudre des problèmes standards (classification, segmentation, etc.).

Bref, un livre que j’affectionne particulièrement, mais pas forcément facile d’accès pour un public web standard.

Vous voulez comprendre réellement un concept de base du e-commerce moderne
Le dernier livre que je vous conseille est facile à lire et pas cher du tout, il s’agit de « La Longue Traîne : Quand vendre moins, c’est vendre plus » par Chris Anderson. Bien sûr vous allez tous me dire que vous savez parfaitement ce qu’est la longue traîne, et peut-être que c’est le cas, mais avez vous lu ce livre qui est à l’origine du concept ? Il est fort probable que non, surtout si vous êtes parmi les jeunes SEO/webmarketeurs, vu qu’il date de 2006.

Chris Anderson explique donc à quel point Internet à changer la donne en matière de commerce. Il élabore en détails son concept de longue traîne, avec une longue discussion qui tourne autour du marché de la musique (2006, 2006…). Le livre est agréable à lire, mais il est rédigé à « l’américaine » : les mêmes idées sont répétées à l’envie, alors que le bouquin aurait pu être 2 fois moins long, voire 3.

Voilà, vous avez maintenant de quoi vous occupez pour finir l’été, et si vous le souhaitez, les commentaires sont ouverts pour donner votre avis sur l’un ou l’autre de ses livres.

Augmenter sa productivité, mieux gérer son temps et son stress

C’est la période estivale, qui est bien plus calme que le reste de l’année pour le boulot, et qui me permet de réfléchir aux derniers mois (je ferais très prochainement un post de bilan de mon premier exercice, qui fini fin août) et à mes process de travail.

Comme mon petit blog n’est pas un blog qui a pour but de vous fourguer des ebooks sur la productivité et la gestion de son temps et de son argent, je vais me contenter d’un seul billet court sur ce sujet.

Voici donc mes basiques, forgés sur une expérience mixte : milieu académique et privé, grouillot de base puis mon propre patron, etc. Bien évidemment j’ai parfois grossi le trait pour me faire parfaitement comprendre.

 

L’importance de la routine

Une chose qui me parait très importante, c’est d’avoir une routine de travail. Il y a divers degrés de « routinisation », avec les vrais warriors qui vont avoir des horaires très stricts, tandis que d’autres comme moi n’aurons que des guides « comportementaux » assez lâches.

Pour continuer sur mon propre exemple, mes routines sont simples :

  • Pas plus d’une grosse tâche par jour. Je fais plein de listes, mais sur ces listes, jamais plus d’une tâche longue et pénible par jour. Pourquoi ? Parce qu’une fois qu’elle est finie je suis en mode « pas envie de bosser » et donc je peux faire du tout venant (factures, administratifs, mails) mais pas plus.
    C’est également pour cela que cette tâche longue et pénible est l’une des dernières de la journée. Ce dernier point est controversé : Brian Tracy (référence plus bas) donne exactement le conseil inverse, car cela permettrait de se bourrer le mou grâce au sentiment d’accomplissement à l’issue de la tâche. Si vous ne pouvez travailler que grâce à ce genre d’incitative, il est temps de changer de métier.
  • Pour les autres tâches, le tout est de les faire au moment le plus adapté selon son rythme personnel. Je commence toujours ma journée par filtrer mes mails en buvant mon café. Puis ensuite je réponds et assure le travail administratif.
    une fois que c’est fini, je fais mon travail de R&D : lecture de la littérature, réflexion, écriture des articles, etc. Sur la fin de la journée, je fais le travail pénible. Pour moi il s’agit généralement d’écrire les rapports et divers livrables (j’avoue, ce n’est pas ce que je préfère).
  • Je n’ai aucun horaires, ils sont pour moi une contrainte, j’ai choisi de m’en affranchir. En contrepartie, je n’ai pas d’horaires, et donc si il faut travailler jusqu’à 3h du matin pour finir un rapport et se lever à 6h pour partir le présenter, et bien c’est ainsi (j’ai une relieuse dans mes bureaux ^^).

 

Segmenter son travail

Sur ce point les avis diffèrent. Guillaume préfère je crois le monotasking alors que je suis plutôt pour le multitasking.

Si comme moi vous êtes pour le multitasking, je vous conseille de segmenter votre temps de travail, en accord avec votre capacité de concentration. Personnellement, pour du travail nécessitant de la réflexion je fais des séquences de 45 minutes, pour du travail plus simple je fais des séquences d’1h15 environ. Entre deux séquences je fais une pause de 5 à 15 minutes, je ne compte pas vraiment.

 

Se mettre des deadlines

Une pratique directement issue du milieu académique : la deadline qui tue vraiment. Chaque tâche doit avoir une deadline, et je vais vous dire un secret : je ne commence aucune tâche qui n’a pas de deadline associée (si vous êtes un de mes clients, vous avez forcément reçu un « et quelle est la deadline ? » 30 secondes après l’envoi de votre demande).

Quand la deadline est atteinte, on arrête de bosser et on livre, sauf cas de force majeure. Oui, on livre donc des choses moins abouties qu’espéré, mais c’est la vie.

Bien sûr, si votre client a un budget illimité et un temps infini, vous pouvez peut-être procéder autrement, ou pas.

 

Suffisamment bien versus parfait

voici l’exemple typique de discours à l’américaine, qu’on retrouve par exemple chez Steve Pavlina. Sur ce point particulier je suis 100% en phase avec lui. Au delà d’un certain stade il n’est pas intéressant de rajouter du temps de travail pour finaliser une tâche, car le delta de qualité obtenue n’est pas intéressant.

Il y a une explication à cela, c’est la théorie des rendements décroissants, mais vu qu’on est pas là pour faire un cours d’économie, je n’en dirais pas plus.

Retenez simplement qu’il faut se limiter sur les finitions, car ce n’est plus productif au delà d’un certain stade. Si vous appliquez la règle de la deadline, elle s’appliquera généralement avant d’arriver à celle-ci.

 

Se décider vite

Autre conseil de Steve Pavlina : il faut prendre rapidement les décisions. Il conseille même de ne pas consacrer plus de 60 secondes à la prise d’une décision.

Sur le timing on atteint le nawak, mais l’idée est là : l’incertitude est une source de stress très importante (pour moi c’est la pire) et on s’en libère en prenant les décisions, cqfd. Mon mantra est « la bonne décision, c’est celle qu’on prend », que je double, tel le sphinx, d’un « la peur n’évite pas le danger ».

 

Le seuil d’indifférence

Je ne sais plus où j’avais lu ce conseil que j’avais trouvé débile de prime abord, et que j’applique désormais : chacun a un seuil d’indifférence financier, qu’il faut utiliser.

Je m’explique : à un certain niveau de vie, il y a des sommes qui finissent par devenir indifférentes. Vous allez au bistrot, le café est à 1 euros, ou 1,1 euros ou 1,5 euros. Est-ce que votre comportement d’achat change ? probablement pas, ces trois sommes vous sont indifférentes, tout comme le seuil de 1,5 euros.

Pour éviter du stress inutile, trouvez votre seuil d’indifférence financier, et à chaque fois que vous aurez une dépense sous ce seuil, ne discutez pas, ne réfléchissez pas, car de toute façon, même si le prix baisse, vous n’en tirerez aucune joie, et donc votre seule alternative est entre « je m’en fous » et « je suis énervé », personnellement je préfère la première.

Le seuil n’est pas nécessairement le même selon qu’on parle des finances de votre entreprise ou des vôtres, mais dans tous les cas il existe (mais il est peut être très près de zéro)

 

Voilà, je vous ai donné mes supers conseils de productivité, maintenant vous pouvez troller autant que vous voulez dans les commentaires !

 

Références (oui, de l’affiliation amazon…)

Avalez le crapaud par Brian Tracy.
Steve Pavlina: The Unauthorized Biography par Thomas Baker.

[good book] Recherche d’information : applications, modèles et algorithmes

Les algorithmes utilisés par les moteurs de recherche sont pour moi, vous le savez déjà sans doute, à la fois une passion, un sujet de recherche et mon gagne-pain (par nos formations et parce que je bosse en partenariat avec le moteur Qwant).

Certaines des personnes qui me suivent veulent parfois en savoir plus, et pendant longtemps j’avais du mal à leur donner un conseil raisonnable, car la littérature accessible à un non spécialiste était rare voire inexistante. Mais depuis, j’ai trouvé par hasard un livre que je conseille à toutes et tous, même si bien sûr il est principalement accessible à des personnes familières de l’algorithmique.

Ce livre est le suivant (oui, il s’agit d’un lien d’affiliation amazon, oui je suis un vendu, oui si vous l’achetez via ce lien cela soutient mon blog) :

Le livre a été écrit par Massih-Reza Amini et Eric Gaussier, tous les deux sont professeurs à Grenoble 1, et effectuent leurs recherches dans le domaine de la recherche d’information. Il constitue pour moi un formidable support de cours pour des étudiants en dernière année de licence d’informatique, ou en première année de master.

On trouve dans ce livre toutes les bases permettant de réaliser un moteur de recherche ! On commence par les prétraitements, le modèle vectoriel avec la fameuse tf-idf, la notion d’index inversé, les index dynamiques, etc. On continue avec des choses plus complexes, comme les modèles probabilistes (BM25 par exemple) puis les modèles de langues. On apprend également comment qualifier les résultats d’un système de recherche d’information, ce qui est utile si on décide d’en coder un !

A partir du chapitre 4, le livre passe la seconde, avec le cas particulier de la recherche sur le web et des problématiques (de taille) associées. Il se poursuit avec un chapitre très intéressant sur la catégorisation des documents, qui vaut à lui seul le détour, avec un panorama qui va des méthodes simples (seuillage par exemple, ou information mutuelle/chi2) aux plus compliqués (SVM, perceptron, etc.).

Les chapitres 6 et 7 sont respectivement consacrés au clustering de documents, et à la recherche de thèmes latents. Ils sont intéressants, mais à mon sens un peu elliptiques, sur des sujets qui nécessitent un background algorithmique plus complexe. Le lecteur non familier devra donc travailler plus dur sur ces thématiques « avancées » et chercher des informations ailleurs.

Enfin, un très très court chapitre 8 donne quelques pistes vers des outils logiciels disponibles en ligne.

Globalement, il s’agit d’un livre indispensable si vous êtes intéressé par le développement des moteurs de recherche, que vous avez un background suffisant en algorithmique, et que vous êtes motivé.

N’hésitez pas à donner votre avis en commentaires, et bonne lecture/bon courage si vous vous lancez.

La conférence QueDuWeb

Si vous êtes sur Twitter, vous avez sans doute déjà vu passer l’annonce pour la conférence QueDuWeb 2015. Dans ce billet, je vous vous expliquer ce qu’est cette conférence, je vais vous parler du programme, et aussi de nos sympathiques sponsors. Pour suivre les actualités de la conférence, il y a un compte twitter : @QueDuWeb. A la fin de ce billet, vous découvrirez le « cadeau bonux » de l’inscription.

Où, quand et pourquoi ?

Tout d’abord, je vais vous parler du lieu : le centre international de Deauville. Et oui, avec Guillaume on souhaitait organiser un évènement qui ne soit pas en région parisienne tout en étant dans un endroit prestigieux et sympathique, de préférence en Normandie, la région où j’habite et où se déroule trop peu de choses.

Ensuite, la date : le 4 juin. La date n’a pas été choisi par hasard puisqu’au même endroit mais les deux jours précédent, avec d’autres collègues chercheurs, nous organisons une conférence scientifique internationale : iSWAG 2015.

Dernière question, pourquoi ? Il y a déjà plusieurs conférences, que ce soit sur le SEO ou sur les activités du web plus globalement. Notre souhait est de créer un évènement qui perdurera, et qui a terme serait un point de rencontre pour plusieurs communautés du monde des « travailleurs du web ». On part du SEO, le domaine qu’on connait le mieux, et pour l’instant on avance doucement, avec en plus du SEO : un peu de marketing, un peu de moteurs de recherche, un peu de stratégie globale (dans le cas particulier du tourisme), et même des retours d’expérience méthodologiques de grands comptes.

Le programme et les intervenants

Je suis très content du programme qu’on a pu proposer 3 mois avant la tenue de l’évènement. Je ne vais pas élaborer trop sur chaque exposé long, qui sont mentionnés sur le site web et on déjà été commentés ailleurs. Voici cependant une liste courte :

  •  Daniel Jarjoura nous parlera du growth hacking.
  • Grégory Castel nous parlera du triptyque vertueux composé de la lisibilité, de la visibilité et de l’hospitalité.
  • Eric Leandri sera présent pour nous parler de Qwant, le moteur de recherche Européen dont il est co-fondateur.
  • Lydia Arzour fera un exposé sur la place du SEO dans une stratégie e-marketing.
  • Olivier Andrieu parlera du SEO, et de son histoire.
  • Aurélien Delefosse nous expliquera la différence entre un bon audit et un mauvais audit 😉
  • Jean-Benoît Moingt fera un retour d’expérience sur la mise en place d’une équipe SEO dans un grand groupe.
  • Thomas Largillier dévoilera les premiers résultats de l’étude Webspam.

En plus de ces exposés, nous avons rajouté des exposés flash de 10 minutes pour que les inscrits à la conférence puisse faire part d’une idée, de leur expérience. Pour l’instant certains ont déjà été choisis, et vous pourrez ainsi entendre un exposé sur l’utilisation des méthodes de clustering pour le webmarketing, un sur le continuous testing et un autre sur ce qu’il faut faire lorsque des pages dupliquées font plus de trafic que les pages originales.

Les sponsors

Sans sponsors, un tel évènement n’est pas possible, je tiens donc à remercier à les remercier ici : Qwant, Cogniteev, Yooda, Korleon’Biz, ix-labs, frères Peyronnet, Site pénalisé, Rocket Links, Ranks, VLC 2015, VIP Agence.

S’inscrire

Pour vous inscrire, direction le site web http://queduweb.fr. En plus, toutes les personnes inscrites avant le 1er mai auront le droit à un wébinaire gratuit, à choisir entre plusieurs dates et sujets (il aura lieu au plus tard en septembre).

Si vous arrivez la veille, n’hésitez pas à nous le dire, vous pourrez venir à l’après-midi du deuxième jour de la conférence iSWAG, et au cocktail du soir 😉

Ils en parlent aussi

Chez Julien alias le musclé du référencement
Chez Alexandra la miss du SEO
Chez VIP Agence
Chez Nicolas Augé
Sur Be actu

Plein d’algos pour le web à la conférence iSWAG 2015

Aujourd’hui j’ai envie de vous parler de la conférence scientifique que nous organisons en juin 2015 à Deauville : iSWAG 2015. Si vous voulez vraiment des détails spécifiques, il y a un site web : http://iswag-symposium.org/, mais ce que je veux faire avec ce billet c’est plutôt expliquer à mes copains et collègues du web (startupeurs, dev et seo en particulier) de quoi il s’agit.

Bref, quand un chercheur (universitaire ou industriel) à des résultats intéressants, il va souvent chercher à les communiquer. Pourquoi ? cela va dépendre de son profil : pour l’universitaire c’est le moyen de se faire connaitre, c’est un moyen de faire en sorte que tout le monde puisse bâtir de nouvelles recherches sur ses résultats, et puis aussi, c’est bon pour son CV. Pour un industriel, il peut y avoir une foule de raisons, mais souvent c’est le marketing qui se cache derrière la communication scientifique : cela montre aux (futurs) clients que ce qui est fait est sérieux et donc que cela vaut le coup d’acheter, cela montre aux (futurs) actionnaires que ce qui est fait est sérieux et que donc cela vaut le coup d’investir, etc. Si on regarde les grands du web que sont Google, Yahoo!, Amazon, Bing et Facebook, tous ont des équipes de recherche qui communiquent énormément.

Pour communiquer, il y a plusieurs canaux, certains sont nouveaux (blogs, archives d’articles type arxiv), d’autres sont très anciens, il s’agit des journaux et des conférences scientifiques.

iSWAG 2015, kezako ?

iSWAG 2015 est une conférence scientifique internationale, son but est donc de rassembler des chercheurs du monde entier, qui présenteront (à l’oral en session plénière ou devant des posters pendant un cocktail) leurs derniers résultats en matière d’algorithmique du web (au sens large). Tout scientifique peut présenter ces résultats, ils suffit de soumettre des articles pour présentation et publications.

La deadline pour les papiers longs est passée, mais il est encore possible de proposer des articles courts et des posters. Nous sommes particulièrement à la recherche d’articles présentant des outils industriels et des datasets disponibles pour la communauté. Ces deux types d’articles sont très adaptés pour les industriels.

Nous sommes aussi à la recherche de résultats sur des recherches en court, par des jeunes chercheurs (doctorants par exemple). C’est par les jeunes chercheurs que les nouvelles idées arrivent, et on ne veut pas les rater !

Des keynotes et des tutoriels

En plus des articles de recherche, des grands noms du domaine vont présenter, chacun pendant presque une heure, leurs réflexions sur certains problèmes et résultats importants. Ainsi, Henri Verdier, le chief data officer du gouvernement Français, nous parlera des données et de ce que l’on peut en faire. Jure Leskovec, de l’Université de Stanford, nous parlera des réseaux sociaux et des algorithmes de détection de communautés. En enfin Mounia Lalmas (Yahoo!) parlera d’engagement utilisateur.

Nous aurons aussi plusieurs tutoriels, dont les sujets ne sont pas encore tous fixés. je peux cependant dire que l’un sera sur l’application de la recherche d’information et du traitement du langage naturel à des problématiques de l’industrie du tourisme (très présente en Normandie).

Des sponsors…

Une conférence scientifique, surtout à Deauville, ça coute un peu d’argent 😉 Et le but n’est pas de prendre des sous aux chercheurs, ce qui serait de toute façon difficile en ce moment (il n’y a plus d’argent dans les universités). Nous avons donc fait appel à des sponsors, plusieurs nous aident et je vais donc en parler ici (j’updaterais pour les nouveaux venus).

Qwant et Cogniteev sont deux sponsors majeurs, ce qui me fait plaisir car je connais personnellement une partie du staff des deux sociétés, qui sont parfaitement dans le thème en plus. Faut-il présenter Qwant ? Il s’agit sans nul doute du seul outsider sérieux aux mastodontes américains du search. Quand à Cogniteev, il s’agit d’un éditeur de solutions Big Data en mode SaaS, avec une expertise impressionnante en NLP.

Autre société dans le thème de la conférence, Exensa, startup spécialisée dans les systèmes de recommandation, nous fait le plaisir de nous soutenir.

L’université de Caen et les ix-labs sont sponsors, ce qui est naturel pour une conférence qui se tient à Deauville, et dont les organisateurs sont dans l’une ou l’autre des structures 😉

Nous avons enfin deux sponsors qui peuvent plus vous étonner. Le premier est bien connu du milieu du SEO, il s’agit de Korleon’Biz, la société montée par Julien Jimenez, un consultant SEO. Julien utilise déjà quelques briques algorithmiques pour son travail, et soutient la recherche dans le domaine en nous sponsorisant, je dis bravo ! Enfin, le dernier sponsor que je vais mentionner est Clairefontaine, le fabricant de cahiers. Clairefontaine ne fait pas d’algo pour le web, mais a une politique de soutien forte aux opérations éducatives, et nous fournit très gentiment les cahiers pour l’auditoire.

Vous pouvez le voir, nous avons des sponsors, mais bien sûr pas assez, alors si vous voulez être sponsor, il ne faut surtout pas hésiter, d’autant que le ticket d’entrée est tout à fait accessible !

 Faut-il venir ?

La question est tricky. Si vous êtes chercheur dans le domaine, si vous êtes ingénieur R&D dans une startup ou entreprise qui fait de l’algo sur le web ou du traitement de données, je dirais qu’il est indispensable de venir (et même de tenter l’envoi d’un article). Si vous voulez embaucher des chercheurs, contracter avec des équipes universitaires, là aussi il faut venir (et être sponsor ;)).

Maintenant, si vous êtes SEO, curieux, journaliste, je ne vous cache pas que la plupart des présentations seront très difficiles à suivre pour vous, sauf sans doute les keynotes et les tutoriels. Dans ce cas, à vous de voir, mais vous êtes prévenus !

2014 c’est le bilan, 2015 c’est le futur

Je n’écris pas beaucoup sur le blog depuis que je l’ai mis en ligne, mais quand j’écris, c’est toujours pour des choses importantes (ou pas !). Bref, aujourd’hui c’est le dernier jour de 2014, et avant de commencer à trop manger et trop boire, je tenais à vous faire part de mon bilan pour 2014 et de comment je vois le futur (oui, je vois le futur, pas vous ?).

En effet, 2014 a été une année de grand changement pour moi. Pour éviter tout de suite l’effet people, je précise qu’il s’agit de changement professionnel 😉 Et cela méritait bien un billet sur ce blog pour clôturer une année riche en péripéties.

Il y a avant le premier septembre

Avant le premier septembre, j’étais encore en poste à l’Université. Plus précisément, au début de l’année 2014 j’étais encore responsable d’une équipe de recherche en algorithmique à l’Université de Caen et je faisais mon boulot d’enseignant et de chercheur as usual. Mais dès le début 2014, j’ai commencé une réflexion sur mon travail, sur le milieu académique, sur la contribution que j’apportais à la société qui m’a finalement amené à avancer les projets que je faisais pour un futur lointain. Certains (ouh, les mauvaises langues) diront que c’est l’approche de la quarantaine qui fait ça, mais je dis non, d’abord car j’en suis encore loin (ou presque) et puis parce que ceux qui me connaissent vraiment savent que mon âge dans l’esprit est bien loin de mon âge réel 😉

Bref, j’ai signifié à l’Université mon envie de partir en congés via un détachement ou une disponibilité dès le mois d’avril, et il a été convenu que je partirais en disponibilité dès le premier septembre, pour monter une entreprise. J’avais déjà des accointances avec le milieu privé (via les formations avec Guillaume, via des ménages pour les SEO ou autres), mais là il s’agissait de ne plus rien avoir à faire avec mon ancien poste, ce qui est quand même quelque chose de complétement différent.

La fin de l’année universitaire a été de fait assez compliqué, le fait que je parte provoquant pas mal de changements pour tout le monde au boulot, ce qu’il a fallu gérer au mieux (et ce qui a été le cas d’ailleurs, au final tout s’est plutôt bien passé).

Il y a après le premier septembre

A partir du premier septembre, et après deux mois et demi de travaux qui sont décrits ici, je suis donc devenu le boss d’une (petite) structure de R&D privée : les ix-labs.

Quelles sont mes activités ? Il y a toujours de la recherche sur mes sujets perso (j’en parle un peu plus loin), et des activités en rapport avec le milieu académique, comme par exemple l’organisation de la conférence iSWAG 2015 (vous voulez soumettre un papier court, c’est encore possible, vous voulez être sponsor, pareil c’est possible). Il y a toujours les activités avec mon frère Guillaume, mais il y a aussi pas mal de choses nouvelles. Voici un petit descriptif de mes activités depuis le 1er septembre :

  • Les formations, dites des « frères Peyronnet », ont été musclées. Nous avons maintenant quatre formations différentes (moteurs+SEO, moteurs+SEO étendue, stats+WEb et perf+WEB), avec pas mal de déplacement pour faire ça partout en France. Pour en savoir plus c’est là.
  • Les audits algorithmiques. Nous faisons des audits pour les sites web de grands comptes, où nous simulons les algorithmes utilisés par les moteurs de recherche pour voir si les sites sont OK. Parmi nos clients sur ce sujet, des e-commerçants, une grande banque, etc.
  • Analyse et fourniture de données. Vous voulez des corpus pour vos rédacteurs ? vous avez besoin d’une analyse de données (segmentation de votre clientèle, scoring des clients, prédictions d’achats, etc.) ? on peut faire.
  • R&D. Nous faisons de la mise au point d’algorithmes pour nos clients. Par exemple, nous travaillons avec le moteur de recherche Qwant sur plusieurs problèmes très intéressants, ainsi qu’avec d’autres que je ne peux pas nommer.

Au delà de tout ça, il y a nos propres recherches, qui portent sur les algorithmes pour le web et les réseaux sociaux (nous faisons beaucoup de recherche sur les mécanismes, c’est-à-dire les algorithmes qui sont en interface avec l’homme et qui utilisent ou modifient son comportement sur le web), mais aussi sur la vérification de programmes et sur certains problèmes liés aux sciences économiques.

Bref, on a de quoi s’occuper aux ix-labs 😉 Mais si vous voulez bosser avec nous, où qu’on bosse pour vous, c’est possible, il suffit de me contacter (demandez moi la connexion sur linkedin).

Et il y a le futur !

Dans le futur, il y aura toujours les activités mentionnées ci-dessus, mais aussi des nouveautés, comme par exemple les conférences en ligne qui commencerons fin janvier (déjà quelques inscrits, et le site web est à venir) sur des sujets divers et variés comme par exemple les algos des réseaux sociaux, une étude de cas de l’utilisation des bandits manchots pour un site de e-commerce, etc. J’ai aussi plusieurs projets de livres, mais soyons raisonnable, si déjà j’arrivais à finir un seul de ces projets, ce serait le miracle de 2015…

En revanche, 2015 sera l’année de la mise en place d’un très très gros projet (avec deux comparses) qui a un potentiel d’impact extrêmement fort pour tous les webmasters  (et j’ai bien écrit webmasters, pas juste SEOs, ou marketeurs, mais bien tous les webmasters). Le suspense est insoutenable, je le vois bien, mais il faudra être patient.

Enfin, 2015 sera aussi l’année des résultats de l’étude webspam, plutôt en début d’année qu’en fin d’année d’ailleurs. Vous n’y croyiez plus ? Et bien si, cela arrive…

Conclusion provisoire

Provisoire car ce n’est que le début, mais je dois bien dire que cette année a été fertile en évènements, et que je ne regrette aucun des choix que j’ai pu faire depuis le début de 2014.

Je vais aussi conclure sur un point qui va surprendre ceux qui ne connaissent pas le monde académique, mais je n’ai jamais eu autant de temps pour moi, et pour faire ce que je veux en recherche ou même ce que je veux tout court, que depuis que j’ai pris cette disponibilité et que je suis chef d’entreprise. Je croise les doigts pour que cela continue, et je vous souhaite à tous le meilleur pour l’année à venir.

 

Pour bien bosser c’est bien d’avoir des beaux bureaux

Voici un deuxième article sur ce blog, toujours sur un ton léger pour l’instant 😉 Comme je vous l’avais dit précédemment, nous avons littéralement construit le labo. Si vous voulez savoir toute l’histoire (oui, je suis sur que vous voulez tout savoir), quand nous avons eu l’idée du labo, nous avons tout de suite vu l’intérêt d’un local particulier, qui était déjà occupé par un cabinet d’avocats. Il avait en effet plein d’avantages : dans le même immeuble que mon logement (pratique donc), spacieux (presque 100 m2), bien placé dans la ville (pas loin du métro). Les seuls désavantages étaient qu’il y avait pas mal de boulot à faire : créer une cuisine, créer des pièces plus adaptées à notre activité, tout câbler en matière de réseau et refaire l’électricité, bref, du taf.

En fait, nous avions commencer à chercher ailleurs, car les avocates n’avaient pas nécessairement envie de partir, jusqu’au jour ou par hasard j’ai appris que c’était le cas. Après quelques mois, c’était une affaire réglée et nous avons pu commencer les travaux, qui ont pris 2 mois et 2 semaines, le tout en mode DIY total : nous avons tout fait nous même, en équipe. ce qui m’amène à remercier ici tous les participants de cette belle aventure : Laurent, Caro, Jérôme, Yohann, Guillaume, Thomas, Gautier, Michel, Noëlle, Fabienne, Lucie, Adèle, Sybille, Mélanie, Brico Dépot, Leroy Merlin, IKEA et la déchetterie de Rouen.

Voici maintenant quelques photos, d’abord pendant les travaux :  IMG_9348 DSCN3474 - copie

Une réunion de boulot au téléphone (le business d’abord) :

20140901_181119 - copie

Et quelques pièces finies :

IMG_9501 IMG_9499 IMG_9497 IMG_9496

Si vous voulez en voir plus, il faut passer nous voir, en venant à une des formations par exemple (la prochaine est une formation moteurs+SEO).

Voilà, vous savez tout maintenant. Le prochain post sera plus technique, ou polémique 😉

A new hope, un nouveau blog

Encore un nouveau blog ? Effectivement, mais ce n’est pas sans raison.

A partir de demain, mon activité s’exercera dans le cadre des ix-labs. J’en profite donc pour ouvrir ce blog, qui me permettra de vous raconter cette belle aventure, et aussi de parler des sujets techniques connexes à mes activités de recherche, de conseil et de formation. Pour vous expliquer tout ça, je joue le jeu des questions réponses avec moi même 😉

Es-tu encore prof à la fac ?

Oui et non. Je suis en disponibilité de mon poste de professeur des universités à la fac de Caen. Il s’agit d’un congé sabbatique, sans solde : je ne suis pas payé, je n’ai plus aucune responsabilité ni travail à la fac, et dans quelques temps, je devrais décider si je reprends mon poste ou si je pars définitivement.

Les ix-labs ?

J’en parlerais pas mal dans les prochains posts, mais il s’agit d’un laboratoire de R&D privé. Nous sommes plusieurs co-fondateurs et nous croyons qu’une structure privée peut faire de la rechercher efficace, utile, et rentable. On fera dans les ix-labs de la recherche en informatique (théorique et appliquée), mais aussi de la formation et du conseil en algorithmique, SI, etc. Si vous pensez avoir des besoins qu’on peut remplir, il ne faut pas hésiter. Je peux vous aider en big data, analyse de données, mise au point d’algo spécifique, etc. Plus largement (je ne suis pas tout seul), on peut aussi voir pour des problèmes en traitement d’image, programmation avancée, etc.

Et les frères Peyronnet ? Et le SEO ?

Ce que l’on fait avec Guillaume dans le cadre des frères Peyronnet continue, il ne faut pas s’inquiéter. Les masterclass, les audits algorithmiques, le dev web, tout ça ne s’arrête surtout pas 😉 Le SEO continue aussi, toujours avec Guillaume. Il y a une légère zone de recoupement, à l’endroit où le SEO et l’algorithmique interagissent, et ça tombe bien, car Guillaume bosse avec nous sur certains algos pour le web.

Il y aura quoi sur ce blog ?

Pas mal de choses. Je vous parlerais de nos recherches et vous décrirais nos algos, nos résultats. Je m’épancherais sur les sujets en rapport avec mes thématiques. Et enfin, vous pourrez y lire l’aventure des ix-labs, avec au début le récit de l’installation (nous avons – littéralement – construit le labo).

Voilà voilà, et si vous avez des questions, direction les commentaires !