Gardiens à l’entrée du parking, double barrière, panneaux indiquant “accès réservé”. Pour entrer dans le laboratoire d’Orange, situé au milieu de la zone industrielle de Lannion, en Bretagne, il faut montrer patte blanche.
Sur place, on dirait une petite Silicon Valley sur… 33 hectares. Bâtiments à la devanture bleu vif, enfilade de couloirs transparents, jardin et terrasse attenants… Il n’y pas de piscine comme au siège de Google, en Californie, mais c’est (presque) tout comme. A l’Orange Labs de Lannion, l’un des centres de recherche et développement de l’opérateur, travaillent plus de 1.050 personnes, dont 900 ingénieurs. Ils cherchent, cogitent, trouvent, conçoivent dans tous les sens et à toute vitesse. «Lannion, c’est l’histoire et surtout l’avenir», a dit leur patron, Stéphane Richard, au début de l’été. De fait, c’est ici que la fibre optique a fait ses débuts, en 1971, et qu’a été imaginé le mur de téléprésence, en 2002.
Discussions au débotté
A la cantine ou par messagerie instantanée, les salariés lannionais parlent de «métadonnées», de «clustering», d’«espace vectoriel», et de «divergence humain/machine». Des termes un peu abstraits qui donnent cependant lieu à des outils très concrets. Ici, un résumeur de texte, capable en un clic de faire la synthèse d’un projet de loi de 120 pages comme d’un article de 3 pages, sans faute d’orthographe ni de syntaxe; là, une télé connectée au Net avec un flux de vidéos d’actu près de la machine à café; plus loin, un outil – issu des travaux menés par des collègues de Rennes- qui permet de séquencer des vidéos ou des sons en plusieurs parties.
«La vidéo est très difficile à analyser, raconte Laurent Frisch, directeur des contenus médias et entertainment chez Orange. Au début, dans les JT, on ne parvenait qu’à différencier les génériques de début et de fin du corps de la vidéo. Maintenant, on sait reconnaître – et chapitrer en conséquence – les changements de décors, de présentateurs, les reportages à l’extérieur, les interviews en plateau.» Plus fort encore, dans une émission de radio, les technologies développées à Lannion permettent de repérer quand cela change de voix, quand il s’agit d’une question, ou bien d’une réponse, et de visualiser toutes les occurrences d’un mot dans le fichier son.
Séquencer, découper, recouper
Cela n’a l’air de rien, mais pour les journalistes qui passent beaucoup de temps à traquer les petites phrases de personnalités, politiques ou autres, dans des vidéos ou des sons, c’est potentiellement beaucoup. Si de tels outils se démocratisaient dans les rédactions, ce serait 40% de temps gagné dans la journée d’un journaliste de desk. «La question revient sans cesse entre nous: doit-on ouvrir nos applications à nos partenaires, et plus loin, aux utilisateurs? La réponse n’est pas tranchée», sourit l’équipe.
Lannion, c’est aussi le seul endroit où, à ma connaissance, on peut croiser des spécialistes de la sémantique qui ne sont pas professeurs en faculté de Lettres, ou des psychologues ergonomes (cela ne s’invente pas). Certains ont fait Polytechnique, certains des écoles d’ingénieurs des télécoms, d’autres les deux. Tous cherchent à «découper automatiquement» l’actu, qu’elle soit sous la forme de texte, de vidéo, ou de son. Objectif affiché: «fluidifier la propagation des contenus pour les journalistes, blogueurs, et tous ceux qui diffusent l’info», reprend Laurent Eskenazi, responsable marketing pour le pôle médias/entertainment. Et créer des technologies qui fassent le travail.
Au fond, ils se posent la même question que les journalistes: «Comment repérer un sujet d’actu cohérent?», résume Tanguy Urvoy, ingénieur. S’il veut répondre à cette question, ce n’est pas pour produire de l’info. Mais pour en tirer le meilleur algorithme possible afin d’indexer en «sujets d’actu cohérents» une grande quantité d’infos, issues de plusieurs médias. C’est le principe de fonctionnement de l’agrégateur d’Orange, 2424actu.fr, comme celui de Google News.
Algorithme mon ami
En coulisses, ce serait presque simple, à écouter les explications. «Cet algorithme, c’est juste une grosse calculette», renseigne Tanguy Urvoy. En gros, il passe à la moulinette des articles, retire de ceux-ci la ponctuation, les pluriels des noms, les majuscules. Ce qui donne un «sac de mots». Puis «pondère» le résultat pour savoir quels mots sont importants dans ce «sac», eu égard à la place de ce mot à la fois dans l’article analysé (le mot est-il répété? Est-il présent dans le titre?) et dans le corpus créé par toutes les infos scannées à un instant T. «Plus un mot est rare, plus il remonte, reprend Tanguy Urvoy. Cela explique que l’algorithme soit très bon (comprendre: ne fait pas d’erreur, ndlr) sur les faits divers (dans lesquels vont apparaître un nom de ville ou de victime inédit, ndlr) et moins sur les débats, les rebondissements ou les événements plus diffus.»
Exemple pour mieux comprendre: le contenu intitulé au départ «Le père Arthur invite Sarkozy à Lille pour voir les roms» va créer un sac de mots dans lequel on trouvera les termes «arthur», «president», «republique», «commande», «roms», etc. Après pondération et projection de l’article dans un espace vectoriel, l’algorithme détermine qu’il va aller dans l’ensemble «roms». Et hop, le voici indexé dans un «sujet d’actualité».
«L’algorithme ne peut être parfait, veulent rassurer les ingénieurs, s’adressant à des journalistes, il y a encore quelques imperfections. Dans l’idéal, on voudrait tout automatiser à 80% et on garderait une main humaine pour effectuer les choix réellement importants et corriger les erreurs.»
A venir: un W.I.P. sur les algorithmes, nos confrères journalistes…
La collaboration avec les algorithmes vous fait-elle peur? Si oui, si non, dites moi pourquoi dans les commentaires ci-dessous…
Alice Antheaume
lire le billet