Quelques mots sur Qwant News

Aujourd’hui je vais vous parler d’un sujet qui me tient à coeur : Qwant. Si vous me suivez ici ou ici, vous savez que je travaille avec le moteur Qwant depuis maintenant plusieurs mois. Cette collaboration porte, naturellement, sur les aspects algorithmiques du moteur, et j’essaie plus précisément d’apporter mon aide et mes idées sur certaines problématiques telles que la gestion du webspam, le ranking, etc.

Lorsque j’ai commencé à discuter avec les équipe du moteur, une des premières briques dont on m’a parlé est Qwant News (Qwant actualités en Français^^). Et je vais vous l’avouer, dès le début j’ai été impressionné par le travail qui a été fait par la petite équipe de développement de Qwant sur ce sujet, mais dire cela dès le début du billet, c’est mettre la charrue avant les boeufs. Je vais donc commencer par le début, ou pas.

Présentation rapide de Qwant News

C’est en août, au milieu de l’été, qu’a été déployé le système de présentation des actualités qui est disponible à l’URL https://www.qwant.com/news. Visuellement, cela a déjà été commenté dans les médias web : 4 blocs présentent les grosses actus, quelques autres actus sont présentés à droite ou en dessous de ces 4 blocs selon votre résolution. Pour voir plus d’actus, il faut utiliser la boite de recherche.

qnews1

Si vous cliquez sur une des actus, vous verrez apparaitre un résultat de recherche qui permet d’obtenir tous les articles de l’actualité concernant le sujet en question. C’est là très différent de ce que peut faire le compétiteur de la vue sur la montagne (!). En effet, alors même que se pose la question des choix éditoriaux opérés par les algorithmes, une partie du problème est résolu par ce mécanisme : une fois que vous choisissez un sujet qui vous intéresse, Qwant vous propose toutes les sources qui en parlent en une seule fois là où d’autres moteurs vous emmènent directement sur la source principale selon l’algorithme.

Ce mécanisme vous permet aussi de raffiner via la boite de recherche la requête utilisée pour essayer de trouver des articles plus précis concernant une partie de cette actualité, ou des actualités relatives.

Les news, une problématique algorithmique différente du search

La plupart des gens pensent qu’un moteur de news est plus simple à réaliser qu’un moteur de recherche standard, c’est à la fois vrai et faux. Voici quelques éléments pour mieux comprendre les enjeux :

  • Le volume de données est plus petit. Là où pour le search l’index va faire des milliards de pages, pour les news le volume est plus restreint et les pages ont une durée de vie assez courte par ailleurs.
  • Le timing est très important. Dans le search le moteur peut prendre son temps pour indexer et traiter une page web, dans les news il faut coller à l’actu. Si il faut 2 heures pour parler d’un sujet là où twitter est présent au bout de 10 minutes il n’y a pas de vrai service à l’utilisateur. La problématique du « temps réel » oblige à avoir une chaîne de traitement algorithmique très rapide.
  • La précision et l’exhaustivité. Dans un ensemble de sources fixées, il ne faut laisser personne sur le carreau pour des raisons de multiplicité des points de vue. Dans le search, si trois pages expliquent comment changer une roue, ce n’est pas grave d’en perdre une dans le traitement. Dans les news, c’est très différent : si le Figaro, le Monde et l’Humanité traitent le même sujet, on ne peut pas perdre un des articles sans biaiser l’accès à l’information, il faut donc faire les choses avec précision.

Au final, les algorithmes qu’on utilise pour fournir des news sont différents de ceux du search, même si ils sont similaires sur certains points (par exemple l’analyse de texte va se faire de la même manière). Un gros point fort d’un moteur de news doit par exemple être sa capacité à créer des clusters d’articles qui parlent du même sujet le plus vite possible, pour traiter l’information par blocs.

Comment ça marche chez Qwant News ?

Bon, d’abord je ne vais pas vous mentir : je ne vous donnerais aucun secret de fabrication sensible^^. L’équipe News de Qwant a utilisé en partie des algorithmes de recherche d’information dont les principes sont connus (quoi, vous n’avez pas lu l’excellent livre Recherche d’information – Applications, modèles et algorithmes. Fouille de données, décisionnel et big data ?) et des algos maisons particulièrement rapide pour filtrer rapidement l’index des news du moment.

Je dois dire que j’ai été bluffé par un certain nombre d’idées mises en place par l’équipe, et par la qualité de la réalisation associée. Ce qui est d’ailleurs bien agréable : je n’ai pas eu trop de boulot à faire sur ce sujet ! Sans rentrer dans les détails (sinon je serais fouetté sur la plage à Nice ^^), voici les principaux algorithmes et briques de traitement utilisés :

  • Une brique de crawl et récupération des données (là c’est surtout technique).
  • Un système de création de l’index des news qui s’appellent Mozart.
  • La chaîne de traitement algorithmique principale, du nom de Tweezer, concentre les principaux algos. Tweezer va extraire le contenu des pages, faire l’analyse du texte pour déterminer de quoi parle l’article, va extraire les médias (videos, images) et va regrouper les articles qui parle de la même chose. Tweezer va également repérer les entités nommées, qui sont une brique très importantes en matière de news.
  • Un processus qui va déterminer quels sont les sujets les plus importants (c’est ainsi que sont choisis les 4 blocs ainsi que les actus supplémentaires)

Voilà, vous avez maintenant une idée de ce qui se passe (vu de loin). Dans le futur il y aura sans doute encore plus de choses excitantes, comme vous pouvez sans doute le deviner à la lecture de cet article.

Comme d’habitude, si vous avez des question ou des remarques, direction les commentaires, dans la courtoisie et la bonne humeur.


Commentaires

7 réponses à “Quelques mots sur Qwant News”

  1. Bonjour

    Dommage que tel Google, on obtienne aucune réponse même en attendant des semaines… lorsque l’on est éditeur et que l’on contacte Qwant par la voie normale. Qwant ne serait-il lui aussi tourné que vers les gros ?

    1. bonjour pourriez vous me dire de quelle site il est question ?

      merci d avance

      eric

      ceo qwant

  2. Merci beaucoup pour ce superbe article qui soulève un peu le capot.
    j’espère que tu pourras nous en faire d’autres du même type.

  3. Quid des similarités avec les algos de sites tels que Trendsboard ou Spike ? Est-ce basé plus ou moins sur des principes similaires ?

    1. Je ne peux pas te dire car je ne sais pas comment fonctionne exactement ces deux plateformes. Ceci étant, connaissant un peu les travaux de Jean Veronis (qui nous a quitté vraiment trop tôt…) il s’agit sans doute pour trendsboard d’un algo de reconnaissance de signaux faibles, ce qui est standard pour repérer les news importantes avant qu’elles n’émergent très clairement.

      1. Merci Sylvain. Du coup j’ai de la lecture à présent 🙂

  4. Merci Sylvain !
    Y a-t-il des critères techniques spécifiques à News qui seraient obligatoires pour y figurer ? (De la même manière que pour la version de « La vue sur la montagne »).
    En tout cas, comme Aurélien j’espère que tu pourras partager d’autres articles de ce type, c’est très intéressant !