Journalistes au pays des robots

Crédit: Flickr/CC/Brett Jordan

>> Lire cet article en Anglais >>

Les algorithmes, ces robots intelligents qui trient des tonnes d’informations pour les classer selon la demande des utilisateurs, sont – déjà – les collègues des journalistes. La cohabitation automatique/manuel a déjà lieu lorsque les journalistes tentent de rendre un contenu “facebookable” (visible sur le fil d’actualités de Facebook) ou “Google friendly” (visible sur Google) en utilisant les paramètres des algorithmes. Ou lorsque les éditeurs sous-traitent une partie de la page d’accueil de leurs sites d’infos – de fait, les boîtes avec les articles les plus envoyés, les plus commentés, les plus populaires sont gérées par des robots, non par la main humaine.

Quelle est la prochaine étape? Ces robots vont-ils pouvoir produire du contenu de façon autonome, façon forçats de l’information en ligne? Telle est la question posée par cet article, “les ordinateurs sont les nouveaux journalistes pas chers?“, publié sur The Week. Derrière ces interrogations, un logiciel inventé par Narrative Science, une start-up basée à Chicago, aux Etats-Unis, capable de rédiger des articles en faisant des phrases… compréhensibles.

Comment ça marche? L’algorithme compile des données pour les transformer en articles. Jusqu’à présent, cette technologie n’était opérante que pour le sport. Désormais, Narrative Science assure que le travail peut être fait pour l’économie (en scannant des comptes financiers d’entreprises) et la politique (à l’aide des résultats de sondages, et d’élections). Tremblez, journalistes, “d’ici 5 ans, un programme informatique gagnera le prix Pultizer”, croit Kris Hammond, chercheur en intelligence artificielle, cité par le New York Times.

“Pour certaines informations très brèves, très simples, une rédaction robotisée peut fonctionner”, estime Frédéric Filloux, auteur de la Monday Note et professeur à l’Ecole de journalisme de Sciences Po. “Mais pour le reste? C’est la théorie du saut en hauteur. Sauter 1,80 m, tout le monde peut y arriver (à condition de s’entraîner, ndlr). Mais 2,30 m, qui peut le faire? Voilà toute la différence entre du très bon et de l’excellent.”

Pas d’humain, pas d’âme journalistique

Même avis du côté d’Alexandre Malsch, 26 ans, ingénieur et directeur général de Melty Network. “Un robot ne saura jamais faire un jeu de mots, à moins peut-être de renseigner tous les jeux de mots de la Terre dans une base de données… Dans tous les cas, un robot ne saura pas écrire un article en y mettant une âme”.

Pourtant, les robots, Alexandre Malsch connaît. Une trentaine d’algorithmes scannent en permanence son site aux 4 millions de visiteurs uniques, destiné aux ados (Alexandre Malsch préfère le terme “jeunes”), Melty.fr. Objectif: “aider” les rédacteurs à produire du contenu au bon format, sur le bon sujet, au bon moment – en clair, pas la peine de mettre en ligne un contenu sur Lady Gaga si le public cible de la chanteuse est à l’école au moment où l’article est publié.

Vers le tout automatique?

Afin, donc, d’être le plus visible possible sur les moteurs de recherche, le jeune développeur a imaginé, dès 2008, un outil de publication (CMS, content management system) qui offre du “presque tout automatique” pour les journalistes. Quelle longueur doit faire le titre de l’article pour arriver en premier dans les résultats de Google? “Aucun rédacteur ne peut en calculer la longueur optimale”, reprend Alexandre Malsch, “seul un robot en est capable”. En effet, dans le CMS, le robot met le titre que tape le rédacteur en “vert” quand il fait la bonne longueur, et en rouge quand il est trop long ou trop court. Idem pour les mots-clés utilisés dans un titre. Le rédacteur peut en proposer trois différents pour chaque contenu produit, le robot donne pour chacun un pourcentage de réussite, le rédacteur n’ayant plus qu’à opter pour le titre ayant obtenu 90% ou 95%.

Autre paramètre sous-traité aux robots dans le CMS de Melty: le nombre de liens que doit contenir tel ou tel article. Et, plus poussé encore, l’heure de la mise en ligne de l’article. A quel moment l’article sera-t-il le plus visible sur Google? Le robot peut le savoir, en analysant de multiples données en un instant, pas le journaliste.

Cette machine à booster le référencement est un exemple de robotisation du système de publication. Le texte, pas touche – à part les liens qu’il contient et le titre. “C’est juste un nouveau Word, un outil pour aider les journalistes, mais cela ne remplace en rien leur travail, leurs interviews, leurs analyses.”

Remettre de l’humain dans les machines

Impressionnant? Aucun doute. Inquiétant? Peut-être. Mais le tout automatique n’est pas encore au programme. “Quand on voit la difficulté qu’ont les outils de traduction à donner des résultats pertinents en temps réel, on comprend que ce n’est pas tout à fait pour demain”, dit encore Frédéric Filloux. D’autant que, rappelle-t-il, avant d’écrire un article, un journaliste doit recueillir une matière première beaucoup plus importante que ce dont il se sert au final… Il faut un volume initial au moins 5 à 10 fois supérieur à la publication.”

Résultat – et c’est paradoxal: Alexandre Malsch et ses développeurs remettent du manuel dans leur machine, par exemple dans l’édition et la sélection des contenus, et dans le fait de pouvoir “forcer” la publication d’un contenu en temps réel, plutôt que d’attendre que le robot le pousse. “Plus le monde avance, plus la sélection humaine a l’importance”, conclut-il. “Le fait à la main redevient une valeur.”

NB: Cet article a été écrit par une humaine.

>> Lire cet article en Anglais >>

Alice Antheaume

lire le billet

Quel impact a le SEO sur l’écriture journalistique?

Entendu dans une rédaction Web:

«Ton titre sur les retraites, il n’est pas très Google friendly»

«Tu n’as qu’à y ajouter “Sarkozy”, “Domenech”, “météo” et “Facebook” et tu l’auras, ton titre Google friendly!»

Ce dialogue n’est pas fictif. Il désigne l’impact de la titraille, comme on dit dans le jargon, sur le référencement d’un contenu journalistique dans Google – et l’agacement que, parfois, le phénomène suscite chez certains rédacteurs pour qui l’art de trouver un bon titre se situait plus du côté du jeu de mot intellectuel que de l’indexation robotique de contenus via mots-clés. Ce phénomène, en bon anglais, s’appelle le SEO, «search engine optimization». Lequel ne concerne pas que les titres, mais aussi le contenu des articles, la façon dont ils sont écrits, et comment ils sont édités.

Crédit: Flickr/CC/BrunoDelzant

Crédit: Flickr/CC/BrunoDelzant

Si les mots «Sarkozy», «Facebook», «Domenech» et «météo» sont cités comme des appâts, c’est parce que ces termes font partie des recherches les plus fréquentes en France, sur Google, depuis le début de 2010. Et que, donc, les articles qui mentionnent ces mots ont plus de chances d’être remontés lorsqu’un internaute les cherche sur un moteur de recherche.

Comprendre, d’abord, et s’adapter, ensuite

Dans certaines rédactions est apparu petit à petit un nouveau métier: le spécialiste du référencement. Il n’est pas journaliste mais «sait parler aux moteurs» et peut faire en sorte que le site pour lequel il travaille soit bien – ou mieux – repéré par les Google, Yahoo! et Bing. Comprendre: que les articles «remontent» plus haut parmi les milliards de pages Web scannées chaque jour. Et si possible dans les premiers résultats de recherche.

«Je sais peut-être parler aux moteurs, mais je ne les commande pas», reprend Olivier Lecompte, responsable de l’architecture et du référencement d’un groupe de presse. Car la façon dont Google indexe les pages, c’est le secret le mieux gardé au monde. Même si Google a documenté dans un guide pour débutants les «meilleures pratiques» en la matière. «Si quelqu’un vous dit qu’il connaît le fonctionnement des algorithmes de Google, cette personne vous ment, annonce à ses étudiants Sandeep Junnarkar, professeur de journalisme interactif à l’Ecole de journalisme de CUNY, à New York. D’autant que ceux-ci changent sans cesse».

Reste à expérimenter, à comprendre, et à savoir s’adapter. Exemple avec un article dans lequel le titre fait mention de «l’Hexagone». «Cela ne va pas, car Google ne peut pas savoir si “l’Hexagone” désigne la France ou bien une forme géométrique», commente Olivier Lecompte, qui parle de Google comme d’une personne. «Google part du principe que chaque titre détermine ce qu’il y aura dans la page. Donc il faut que celui-ci soit signifiant sinon les rédacteurs se tirent une balle dans le pied.» Ce qui est le cas avec ce titre, «Scandale à l’école», mal pensé pour le SEO. «Quel scandale?, demande Olivier Lecompte. De quelle école? D’où? De quoi? Google ne sait pas, donc il ne saura pas quel article il y aura derrière.»

En avant les contenus!

Alors oui, le SEO change la façon d’écrire en ligne, mais sur certains champs seulement: le titre d’un contenu s’avère primordial pour le référencement et le thème de l’article doit être répété plusieurs fois dans la page. Par exemple, si l’article porte comme ici sur le SEO, ce terme doit figurer à plusieurs endroits du texte, tout comme le champ lexical qui y est associé – à moi, donc, de saupoudrer les mots référencement, indexation, mots-clés, contenu au fil du texte (et hop, c’est fait). En revanche, la chute de l’article, qui donne souvent du fil à retordre aux journalistes, n’importe guère.

Les photos ont intérêt à être bien taguées, avec des mots-clés adéquats, car «la recherche de photos sur les moteurs de recherche est au moins aussi importante que celle de textes», insiste Masha Rigin, du Daily Beast.

Quant aux liens hypertextes disposés dans l’article, ils doivent, en plus d’apporter une plus-value journalistique, être placés au bon endroit. «Mettre un lien sur “dit-elle” ou “lire la suite” ou “plus d’infos à venir” ne sert à rien, reprend la SEO du Daily Beast. Il faut que l’internaute comprenne, rien qu’en lisant la portion de mots sur laquelle porte le lien, sur quelle page il va aboutir s’il clique». Et Olivier Lecompte confirme: «si un rédacteur évoque un rapport sur la discrimination au travail, et qu’il met un lien sur le mot “rapport” sans englober les termes “sur la discrimination au travail”, c’est inefficace, car il y a des milliers de rapports sur la toile.»

Enfin, sans entrer trop dans les détails, les adresses URL doivent également être travaillées. Et pas que par les développeurs et les spécialistes du SEO. Dans certains outils de publication, les rédacteurs peuvent éditer, en plus du titre, des url. Au même titre que des légendes de photos ou des chapeaux. «Vos visiteurs peuvent être intimidés par une longue adresse URL dont le sens est crypté (par exemple une url contenant «content/view/959/130/», ndlr)», détaille Google dans son guide SEO. On préfèrera donc des URL avec des mots compréhensibles par tous, comme celle qui contient «societe/article/2010/10/16/liliane-bettencourt-va-porter-plainte-contre-sa-fille».

Prendre des gants

D’aucuns s’émeuvent de ce que l’écriture puisse avoir de l’impact sur le référencement. Pourtant, pour la plupart des sites d’information, le trafic se fait entre 50 à 70% en provenance des moteurs. «Par réflexe corporatiste, on a du mal à voir débouler (les référenceurs, ndlr) avec leur volonté de nous expliquer comment il faut écrire et de chambouler nos priorités éditoriales, ce qui est le cœur de notre métier, explique Christophe Carron, de Prisma, interviewé par le site Café Référencement. A l’expression «content is king, SEO is emperor», qui «sonne un peu comme une provocation, une déclaration de guerre», le journaliste préfère ajouter «content is king, SEO is emperor, reader is God».

«Ce sont aux journalistes de choisir, tranche Michael Shapiro, professeur de journalisme à l’école de la Columbia. Veulent-ils être lus par 10 personnes? Ou 5.000 personnes? Il ne suffit pas de mettre les papiers sur Facebook et sur Twitter. Pour mieux comprendre l’audience qui les lit, d’où elle vient, ce sur quoi elle clique, combien de temps elle reste sur une page, il existe des outils comme Google Analytics. Ils doivent s’en servir.»

Répondre aux questions des internautes

«Avant d’écrire, tous les journalistes devraient se demander ce que cherchent les internautes sur le Net, arguent nombre de rédacteurs en chef. Cela les aiderait à produire des sujets qui répondent aux questions de leurs lecteurs.» Ceci explique en partie le succès des titres commençant par «comment», «pourquoi»… Dans un précédent W.I.P., j’avais déjà tenté de répondre à cette question: et si les journalistes n’écrivaient que ce que les lecteurs lisent?

Jeremy Peters, du New York Times, ne veut pas que l’audience lui impose ses choix éditoriaux. Sur le site de France 24, du Washington Post, sur 20minutes.fr, sur Gawker, les données sur les visites et les clics des internautes sont affichées aux yeux de toute la rédaction. Pas au New York Times. «On ne laisse pas les chiffres nous dicter notre mission journalistique, répond Bill Keller, le rédacteur en chef. Nos lecteurs viennent pour lire nos points de vue, pas ceux de la foule. Nous ne sommes pas American Idol

Une position obsolète? Sans doute, car le SEO n’est pas contraire aux valeurs du journalisme. La meilleure enquête du monde ne sert à rien si personne ne la trouve. Et ne peut la lire. Inversement, peu importe que le SEO soit bon si le contenu ne l’est pas, dit en substance le Nieman Lab. Il est insupportable de faire une requête sur Google et de trouver, parmi les résultats, des pages qui ne répondent pas à la recherche.

Un scoop? Comment Google peut-il le savoir?

Dans la cohabitation entre contenus et SEO, il y a un point qui risque d’énerver encore longtemps les journalistes: publier une information exclusive et que celle-ci ne remonte pas dans Google News en premier. A priori, aucune raison que cela change. «Le journaliste est dégouté, mais Google ne réfléchit pas comme cela, dit encore Olivier Lecompte. Comment peut-il savoir qui a sorti l’information en premier? Il voit une suite de mots, il ne lit pas entre les lignes.»

La seule solution, c’est que les sites qui reprennent cette info citent correctement la source originelle, en faisant un lien vers elle. «Google va analyser la source des infos, et s’il voit que beaucoup de monde, à l’extérieur de ton site, parle de toi, il va considérer que tu es important et te faire remonter, reprend Olivier Lecompte. Mais Google ne va pas taper sur les doigts de ceux qui ont oublié de te citer comme source». Faire valoir ses infos, y compris face à la concurrence, cela reste à la charge des journalistes.

Prenez-vous en compte les techniques SEO pour écrire des contenus en ligne? Qu’avez-vous expérimenté? Partagez vos trouvailles dans les commentaires ci-dessous…

Alice Antheaume

lire le billet

Mon terrain journalistique? Quelques pixels seulement…

«Home page producer», «front page editor», chef d’édition Web… Ces noms un peu barbares désignent l’un des métiers du journalisme sur le Web , celui que fait Ariane Bernard, au Nytimes.com. Celle-ci est venue à l’école de journalisme de Sciences Po donner une master class ce jeudi. Son travail? Organiser le «mix» des informations sur la page d’accueil du site du New York Times et faire tourner articles, reportages, diaporamas, vidéos, informations de dernière minute selon un rythme ad hoc.

  • Un Tétris d’informations

«Le home page producer doit veiller à mettre davantage en scène les contenus qui concernent l’actualité et les grandes enquêtes du New York Times, commence Ariane Bernard, tout en jonglant avec des dépêches qui viennent des agences de presse et des informations signées par les bureaux du New York Times à l’étranger», en l’occurrence des bureaux de Paris et Hong-Kong. Durée de vie d’une information sur la «une» du nytimes.com? Environ 6 heures, mais pas à la même place. En tout, il y a plusieurs espaces possibles sur une «zone de pixels assez limitée» (la surface de la page d’accueil) où placer un contenu. La place de celui-ci dépend de «la force» de l’information qu’il contient. C’est là toute l’ambiguïté. Qu’est-ce qu’une information forte selon vous?, demande une journaliste dans la salle. Réponse d’Ariane Bernard: une information qui va évoluer. Par exemple, une enquête sur la Maison Blanche qui va susciter des réactions du gouvernement américain, un attentat dont le nombre de morts évolue, etc.

Crédit: DR

  • En rythme

Contrairement à la plupart des sites d’informations français, qui multiplient les «urgents» et autres «breaking news», le Nytimes.com s’excite plus rarement. Car la philosophie, tacite au New York Times, c’est de produire des informations pour l’histoire plutôt que pour servir les exaltés du temps réel. Sur le Web, pourtant, cela va forcément plus vite: «Je dois servir de l’actualité sur la home, insiste Ariane Bernard, même si cela n’arrange pas toujours le journal qui préférerait sortir tout cela le lendemain, le jour de parution du quotidien».

A y regarder de plus près, le nytimes.com fait l’inverse de ce que font les sites d’infos français. Quand, sur 20minutes.fr, lemonde.fr, leparisien.fr, lefigaro.fr, les informations de dernière minute sont mises en tête de page d’accueil, parfois agrémentées de flèches clignotantes et de couleur rouge, le nytimes.com les met d’abord dans la partie inférieure de sa «home». «Je ne peux pas mettre un contenu qui fait un seul paragraphe en position numéro 1, explique Ariane Bernard. L’histoire débute donc assez bas sur la “une”, et plus on a d’éléments sur l’histoire, plus elle remonte sur la “home”.» Et de montrer l’évolution de la «une» du nytimes.com quand a eu lieu le tremblement de terre en Chine. Au début, c’était un petit article, mis dans la section «Asie», puis, au fur et à mesure que le nombre de morts augmentait, l’article a été étoffé et mis en position numéro 2 sur la home, puis il y a eu suffisamment de photos pour faire une galerie d’images («on ne peut pas faire de galerie flash si l’on a seulement trois pauvres photos», dit Ariane Bernard), publiée en première position.

  • Le «jet lag»

Les horaires d’Ariane Bernard? 4 h du matin/midi. En plein pendant le pic de lecture du nytimes.com, entre 6h30 et 10h du matin, heure de New York, les jours de semaine. C’est-à-dire «quand une partie des Américains arrivent au bureau». Sauf qu’il faut aussi assurer la production d’informations pour des lecteurs, domiciliés aux quatre coins du monde, avec des fuseaux horaires différents. Il y a des donc des «home producers» qui s’occupent de la home l’après-midi, le soir et la nuit. 24h/24.

  • L’art de la titraille

«Il faut “titrer actif” sur la home», reprend Ariane Bernard. Comprendre: faire des titres qui incitent les lecteurs à cliquer tout en permettant aux lecteurs de savoir, rien qu’avec le titre, «ce que le New York Times pense de cette information». Autre contrainte: le nombre de lignes sur lequel doit tenir le titre. «Parfois, on voit arriver des articles dont le titre fait sept lignes. Moi, je dois le faire tenir en trois lignes maximum.» Un vrai défi, qui se joue parfois à une lettre ou un signe de ponctuation près. «Les internautes ne lisent pas les titres fleuves, indique Ariane Bernard. Donc c’est inutile de raconter toute la Bible dans le titre. Le titre mène à l’article, et c’est l’article seulement qui racontera toute l’histoire.»

  • L’oeil sur la concurrence

«Je surveille huit sites rivaux, dont CNN et le Wall Street Journal», les deux médias qui sortent le plus d’informations susceptibles d’intéresser le New York Times, reprend Ariane Bernard. De la même façon, le présentateur du JT de TF1 a un écran branché sur le JT de France 2, de même que les journalistes de LCI gardent un oeil sur iTélé et BFM-TV. Pour Ariane Bernard, ce regard sur la concurrence est fondamental: «La hiérarchisation choisie par d’autres sites me conforte parfois dans l’idée que j’ai bien fait de donner de l’importance à telle ou telle information, mais cela peut aussi me faire douter.»

  • Du «people» sur le site du New York Times?

Oui, il arrive que le nytimes.com publie des informations «people». Mais c’est rare. La mise en ligne, le 4 juin 2007, d’un article sur Paris Hilton se rendant en prison, est restée dans tous les esprits. «Au New York Times, les journalistes en parlent encore», sourit Ariane Bernard. «Paris Hilton ne fait pas partie de nos clients habituels, mais au moment où elle s’est rendue au prison, et à ce moment-là seulement, c’était une information dont tout le monde parlait.» D’où sa publication sur le site. En revanche, dans le quotidien le lendemain, aucune trace de Paris Hilton. «Le New York Times pense ses “unes”  imprimées pour qu’elles restent dans l’Histoire. Sous cet angle, Paris Hilton n’a pas été retenue comme événement dont l’Histoire devait se souvenir.»

AA

lire le billet

Liens du jour #23

Les articles qui ont des chiffres dans leur titre sont plus partagés sur Facebook que ceux qui n’ont pas de chiffre dans leur titre (DanZarrella)

Gros médias ou gros squatteurs de référencement dans les moteurs de recherche? (Gigaom)

Le journalisme de données les doigts dans le nez (Media Trend)

lire le billet