La mécanique d’Orange

Gardiens à l’entrée du parking, double barrière, panneaux indiquant “accès réservé”. Pour entrer dans le laboratoire d’Orange, situé au milieu de la zone industrielle de Lannion, en Bretagne, il faut montrer patte blanche.

Sur place, on dirait une petite Silicon Valley sur… 33 hectares. Bâtiments à la devanture bleu vif, enfilade de couloirs transparents, jardin et terrasse attenants… Il n’y pas de piscine comme au siège de Google, en Californie, mais c’est (presque) tout comme. A l’Orange Labs de Lannion, l’un des centres de recherche et développement de l’opérateur, travaillent plus de 1.050 personnes, dont 900 ingénieurs. Ils cherchent, cogitent, trouvent, conçoivent dans tous les sens et à toute vitesse. «Lannion, c’est l’histoire et surtout l’avenir», a dit leur patron, Stéphane Richard, au début de l’été. De fait, c’est ici que la fibre optique a fait ses débuts, en 1971, et qu’a été imaginé le mur de téléprésence, en 2002.

Crédit : DR

Discussions au débotté

A la cantine ou par messagerie instantanée, les salariés lannionais parlent de «métadonnées», de «clustering», d’«espace vectoriel», et de «divergence humain/machine». Des termes un peu abstraits qui donnent cependant lieu à des outils très concrets. Ici, un résumeur de texte, capable en un clic de faire la synthèse d’un projet de loi de 120 pages comme d’un article de 3 pages, sans faute d’orthographe ni de syntaxe; là, une télé connectée au Net avec un flux de vidéos d’actu près de la machine à café; plus loin, un outil – issu des travaux menés par des collègues de Rennes- qui permet de séquencer des vidéos ou des sons en plusieurs parties.

«La vidéo est très difficile à analyser, raconte Laurent Frisch, directeur des contenus médias et entertainment chez Orange. Au début, dans les JT, on ne parvenait qu’à différencier les génériques de début et de fin du corps de la vidéo. Maintenant, on sait reconnaître – et chapitrer en conséquence – les changements de décors, de présentateurs, les reportages à l’extérieur, les interviews en plateau.» Plus fort encore, dans une émission de radio, les technologies développées à Lannion permettent de repérer quand cela change de voix, quand il s’agit d’une question, ou bien d’une réponse, et de visualiser toutes les occurrences d’un mot dans le fichier son.

Séquencer, découper, recouper

Cela n’a l’air de rien, mais pour les journalistes qui passent beaucoup de temps à traquer les petites phrases de personnalités, politiques ou autres, dans des vidéos ou des sons, c’est potentiellement beaucoup. Si de tels outils se démocratisaient dans les rédactions, ce serait 40% de temps gagné dans la journée d’un journaliste de desk. «La question revient sans cesse entre nous: doit-on ouvrir nos applications à nos partenaires, et plus loin, aux utilisateurs? La réponse n’est pas tranchée», sourit l’équipe.

Lannion, c’est aussi le seul endroit où, à ma connaissance, on peut croiser des spécialistes de la sémantique qui ne sont pas professeurs en faculté de Lettres, ou des psychologues ergonomes (cela ne s’invente pas). Certains ont fait Polytechnique, certains des écoles d’ingénieurs des télécoms, d’autres les deux. Tous cherchent à «découper automatiquement» l’actu, qu’elle soit sous la forme de texte, de vidéo, ou de son. Objectif affiché: «fluidifier la propagation des contenus pour les journalistes, blogueurs, et tous ceux qui diffusent l’info», reprend Laurent Eskenazi, responsable marketing pour le pôle médias/entertainment. Et créer des technologies qui fassent le travail.

Au fond, ils se posent la même question que les journalistes: «Comment repérer un sujet d’actu cohérent?», résume Tanguy Urvoy, ingénieur. S’il veut répondre à cette question, ce n’est pas pour produire de l’info. Mais pour en tirer le meilleur algorithme possible afin d’indexer en «sujets d’actu cohérents» une grande quantité d’infos, issues de plusieurs médias. C’est le principe de fonctionnement de l’agrégateur d’Orange, 2424actu.fr, comme celui de Google News.

Algorithme mon ami

En coulisses, ce serait presque simple, à écouter les explications. «Cet algorithme, c’est juste une grosse calculette», renseigne Tanguy Urvoy. En gros, il passe à la moulinette des articles, retire de ceux-ci la ponctuation, les pluriels des noms, les majuscules. Ce qui donne un «sac de mots». Puis «pondère» le résultat pour savoir quels mots sont importants dans ce «sac», eu égard à la place de ce mot à la fois dans l’article analysé (le mot est-il répété? Est-il présent dans le titre?) et dans le corpus créé par toutes les infos scannées à un instant T. «Plus un mot est rare, plus il remonte, reprend Tanguy Urvoy. Cela explique que l’algorithme soit très bon (comprendre: ne fait pas d’erreur, ndlr) sur les faits divers (dans lesquels vont apparaître un nom de ville ou de victime inédit, ndlr) et moins sur les débats, les rebondissements ou les événements plus diffus.»

Exemple pour mieux comprendre: le contenu intitulé au départ «Le père Arthur invite Sarkozy à Lille pour voir les roms» va créer un sac de mots dans lequel on trouvera les termes «arthur», «president», «republique», «commande», «roms», etc. Après pondération et projection de l’article dans un espace vectoriel, l’algorithme détermine qu’il va aller dans l’ensemble «roms». Et hop, le voici indexé dans un «sujet d’actualité».

«L’algorithme ne peut être parfait, veulent rassurer les ingénieurs, s’adressant à des journalistes, il y a encore quelques imperfections. Dans l’idéal, on voudrait tout automatiser à 80% et on garderait une main humaine pour effectuer les choix réellement importants et corriger les erreurs.»

A venir: un W.I.P. sur les algorithmes, nos confrères journalistes…

La collaboration avec les algorithmes vous fait-elle peur? Si oui, si non, dites moi pourquoi dans les commentaires ci-dessous…

Alice Antheaume

5 commentaires pour “La mécanique d’Orange”

  1. […] Ce billet était mentionné sur Twitter par Alice Antheaume et fdegouzon, JeanSébastien Zanchi. JeanSébastien Zanchi a dit: RT @alicanth: De l'actu à la découpe en direct de l'Orange Labs à Lannion… Les coulisses sur W.I.P http://bit.ly/cHaPld […]

  2. Article interessant, merci du partage :)

  3. Billet très intéressant et assez rassurant sur le fond: en France, on travaille aussi sur le web sémantique et les algorithmes (leur utilisation va devenir indispensable dans le travail quotidien des journalistes). Il est dommage que ces progrès ne se diffusent pas assez rapidement dans les sites de presse.

  4. Bon article. Intéressant. Je vais recommander l’article. Je vous remercie pour ça!

  5. J’ai des doutes… les inventions d’Orange Labs, on les cherche encore…pouvez vous identifier dans l’offre de services d’Orange des différences probantes avec celles d’autres opérateurs?
    Les exemples donnés ci dessus ne sont pas vraiment convaincants; des extractions de mots clés et des associations sémantiques, on connait déjà depuis longtemps, et Google pratique ça à grande échelle.
    Enfin il faut peut être se poser la question de ce que devient le métier d’opérateur Télécom: pour moi un distributeur de produits technologiques conçus et fabriqués par de grands groupes mondiaux, et de services préformatés, le tout avec des organismes régulateurs nationaux interdisant toute véritable innovation dés qu’elle recèle un caractère d’exclusivité, ce qui est en pratique toujours le cas, et emmène donc à une totale équivalence des offres, et une concurrence dure sur les prix .
    L’avenir d’un opérateur de Télécom ressemble plus à mon avis au business de Carrefour qu’à ce qu’est actuellement FT. Et faites le ratio nombre d’employés de FT sur CA, et vous comprendrez que leur avenir n’est pas rose.
    Quant au centre de recherche de Carrefour…on le cherche!
    Par contre FT se paye encore un coûteux centre de recherche, Orange-labs, avec 2 ou 3000 personnes, et des antennes (j’allais dire des danseuses) aux US, en Chine, au Japon, etc…Mais Orange, depuis l’avènement du nouveau PDG et la soi-disant crise des suicides est devenu un monde de bisounours…Gentils chercheurs, cherchez…
    Et à l’appui de ma thèse, regardez le niveau de l’action FT…

« »