Que retenir de la journée spéciale dédiée aux nouvelles pratiques du journalisme, organisée par l’Ecole de journalisme de Sciences Po et la Graduate school of Journalism de Columbia, le 10 décembre?
Voici les points clés de chaque intervention, d’Ariane Bernard, du nytimes.com, à Antoine Nazaret, de Dailymotion, en passant par Masha Rigin, du Dailybeast.com, Sarah Hinman Ryan, de Times Union, Nicolas Enault, du Monde.fr, Nicolas Kayser-Brill, d’Owni.fr, Michael Shapiro et David Klatell, de la Columbia, et Jean-François Fogel et Bruno Patino, de l’Ecole de journalisme de Sciences Po…
Cliquez ici pour la lire synthèse de la journée en français
Cliquez ici pour lire la synthèse de la journée en anglais
[Merci à tous les éditeurs de l’Ecole de journalisme de Sciences Po qui ont produit vidéos, photos, textes, live stream et tweets pendant cette journée marathon. Cet article a été rédigé d’après leurs notes et le “live”]
Ariane Bernard, home page producer, nytimes.com
Crédit photo: DR/Hugo Passarello Luna
Masha Rigin, spécialiste du référencement (SEO), thedailybeast.com
Crédit photo: DR/Hugo Passarello Luna
Nicolas Enault, coordinateur de l’audience, lemonde.fr
Michael Shapiro, professeur de journalisme, cours de «city newsroom», Graduate School of journalism, Columbia
Crédit vidéo: Daphnée Denis
David Klatell, professeur de journalisme, responsable de l’international, Graduate School of journalism, Columbia
Crédit photo: DR/Hugo Passarello Luna
Sarah J. Hinman Ryan, directrice du pôle investigations et recherche d’informations, Times Union
Madhav Chinnappa, directeur stratégique des partenariats, Google News, ex BBC News
Nicolas Kayser Brill, journaliste de données, statisticien, Owni.fr
Crédit photo: DR/Hannah Olivennes
Crédit vidéo: Diane Jeantet
Antoine Nazaret, éditeur des contenus vidéos «news», Dailymotion
Jean-François Fogel, professeur associé à l’Ecole de journalisme de Sciences Po
Bruno Patino, directeur de l’Ecole de journalisme de Sciences Po
AA
lire le billetEntendu dans une rédaction Web:
«Ton titre sur les retraites, il n’est pas très Google friendly»
«Tu n’as qu’à y ajouter “Sarkozy”, “Domenech”, “météo” et “Facebook” et tu l’auras, ton titre Google friendly!»
Ce dialogue n’est pas fictif. Il désigne l’impact de la titraille, comme on dit dans le jargon, sur le référencement d’un contenu journalistique dans Google – et l’agacement que, parfois, le phénomène suscite chez certains rédacteurs pour qui l’art de trouver un bon titre se situait plus du côté du jeu de mot intellectuel que de l’indexation robotique de contenus via mots-clés. Ce phénomène, en bon anglais, s’appelle le SEO, «search engine optimization». Lequel ne concerne pas que les titres, mais aussi le contenu des articles, la façon dont ils sont écrits, et comment ils sont édités.
Crédit: Flickr/CC/BrunoDelzant
Si les mots «Sarkozy», «Facebook», «Domenech» et «météo» sont cités comme des appâts, c’est parce que ces termes font partie des recherches les plus fréquentes en France, sur Google, depuis le début de 2010. Et que, donc, les articles qui mentionnent ces mots ont plus de chances d’être remontés lorsqu’un internaute les cherche sur un moteur de recherche.
Comprendre, d’abord, et s’adapter, ensuite
Dans certaines rédactions est apparu petit à petit un nouveau métier: le spécialiste du référencement. Il n’est pas journaliste mais «sait parler aux moteurs» et peut faire en sorte que le site pour lequel il travaille soit bien – ou mieux – repéré par les Google, Yahoo! et Bing. Comprendre: que les articles «remontent» plus haut parmi les milliards de pages Web scannées chaque jour. Et si possible dans les premiers résultats de recherche.
«Je sais peut-être parler aux moteurs, mais je ne les commande pas», reprend Olivier Lecompte, responsable de l’architecture et du référencement d’un groupe de presse. Car la façon dont Google indexe les pages, c’est le secret le mieux gardé au monde. Même si Google a documenté dans un guide pour débutants les «meilleures pratiques» en la matière. «Si quelqu’un vous dit qu’il connaît le fonctionnement des algorithmes de Google, cette personne vous ment, annonce à ses étudiants Sandeep Junnarkar, professeur de journalisme interactif à l’Ecole de journalisme de CUNY, à New York. D’autant que ceux-ci changent sans cesse».
Reste à expérimenter, à comprendre, et à savoir s’adapter. Exemple avec un article dans lequel le titre fait mention de «l’Hexagone». «Cela ne va pas, car Google ne peut pas savoir si “l’Hexagone” désigne la France ou bien une forme géométrique», commente Olivier Lecompte, qui parle de Google comme d’une personne. «Google part du principe que chaque titre détermine ce qu’il y aura dans la page. Donc il faut que celui-ci soit signifiant sinon les rédacteurs se tirent une balle dans le pied.» Ce qui est le cas avec ce titre, «Scandale à l’école», mal pensé pour le SEO. «Quel scandale?, demande Olivier Lecompte. De quelle école? D’où? De quoi? Google ne sait pas, donc il ne saura pas quel article il y aura derrière.»
En avant les contenus!
Alors oui, le SEO change la façon d’écrire en ligne, mais sur certains champs seulement: le titre d’un contenu s’avère primordial pour le référencement et le thème de l’article doit être répété plusieurs fois dans la page. Par exemple, si l’article porte comme ici sur le SEO, ce terme doit figurer à plusieurs endroits du texte, tout comme le champ lexical qui y est associé – à moi, donc, de saupoudrer les mots référencement, indexation, mots-clés, contenu au fil du texte (et hop, c’est fait). En revanche, la chute de l’article, qui donne souvent du fil à retordre aux journalistes, n’importe guère.
Les photos ont intérêt à être bien taguées, avec des mots-clés adéquats, car «la recherche de photos sur les moteurs de recherche est au moins aussi importante que celle de textes», insiste Masha Rigin, du Daily Beast.
Quant aux liens hypertextes disposés dans l’article, ils doivent, en plus d’apporter une plus-value journalistique, être placés au bon endroit. «Mettre un lien sur “dit-elle” ou “lire la suite” ou “plus d’infos à venir” ne sert à rien, reprend la SEO du Daily Beast. Il faut que l’internaute comprenne, rien qu’en lisant la portion de mots sur laquelle porte le lien, sur quelle page il va aboutir s’il clique». Et Olivier Lecompte confirme: «si un rédacteur évoque un rapport sur la discrimination au travail, et qu’il met un lien sur le mot “rapport” sans englober les termes “sur la discrimination au travail”, c’est inefficace, car il y a des milliers de rapports sur la toile.»
Enfin, sans entrer trop dans les détails, les adresses URL doivent également être travaillées. Et pas que par les développeurs et les spécialistes du SEO. Dans certains outils de publication, les rédacteurs peuvent éditer, en plus du titre, des url. Au même titre que des légendes de photos ou des chapeaux. «Vos visiteurs peuvent être intimidés par une longue adresse URL dont le sens est crypté (par exemple une url contenant «content/view/959/130/», ndlr)», détaille Google dans son guide SEO. On préfèrera donc des URL avec des mots compréhensibles par tous, comme celle qui contient «societe/article/2010/10/16/liliane-bettencourt-va-porter-plainte-contre-sa-fille».
Prendre des gants
D’aucuns s’émeuvent de ce que l’écriture puisse avoir de l’impact sur le référencement. Pourtant, pour la plupart des sites d’information, le trafic se fait entre 50 à 70% en provenance des moteurs. «Par réflexe corporatiste, on a du mal à voir débouler (les référenceurs, ndlr) avec leur volonté de nous expliquer comment il faut écrire et de chambouler nos priorités éditoriales, ce qui est le cœur de notre métier, explique Christophe Carron, de Prisma, interviewé par le site Café Référencement. A l’expression «content is king, SEO is emperor», qui «sonne un peu comme une provocation, une déclaration de guerre», le journaliste préfère ajouter «content is king, SEO is emperor, reader is God».
«Ce sont aux journalistes de choisir, tranche Michael Shapiro, professeur de journalisme à l’école de la Columbia. Veulent-ils être lus par 10 personnes? Ou 5.000 personnes? Il ne suffit pas de mettre les papiers sur Facebook et sur Twitter. Pour mieux comprendre l’audience qui les lit, d’où elle vient, ce sur quoi elle clique, combien de temps elle reste sur une page, il existe des outils comme Google Analytics. Ils doivent s’en servir.»
Répondre aux questions des internautes
«Avant d’écrire, tous les journalistes devraient se demander ce que cherchent les internautes sur le Net, arguent nombre de rédacteurs en chef. Cela les aiderait à produire des sujets qui répondent aux questions de leurs lecteurs.» Ceci explique en partie le succès des titres commençant par «comment», «pourquoi»… Dans un précédent W.I.P., j’avais déjà tenté de répondre à cette question: et si les journalistes n’écrivaient que ce que les lecteurs lisent?
Jeremy Peters, du New York Times, ne veut pas que l’audience lui impose ses choix éditoriaux. Sur le site de France 24, du Washington Post, sur 20minutes.fr, sur Gawker, les données sur les visites et les clics des internautes sont affichées aux yeux de toute la rédaction. Pas au New York Times. «On ne laisse pas les chiffres nous dicter notre mission journalistique, répond Bill Keller, le rédacteur en chef. Nos lecteurs viennent pour lire nos points de vue, pas ceux de la foule. Nous ne sommes pas American Idol.»
Une position obsolète? Sans doute, car le SEO n’est pas contraire aux valeurs du journalisme. La meilleure enquête du monde ne sert à rien si personne ne la trouve. Et ne peut la lire. Inversement, peu importe que le SEO soit bon si le contenu ne l’est pas, dit en substance le Nieman Lab. Il est insupportable de faire une requête sur Google et de trouver, parmi les résultats, des pages qui ne répondent pas à la recherche.
Un scoop? Comment Google peut-il le savoir?
Dans la cohabitation entre contenus et SEO, il y a un point qui risque d’énerver encore longtemps les journalistes: publier une information exclusive et que celle-ci ne remonte pas dans Google News en premier. A priori, aucune raison que cela change. «Le journaliste est dégouté, mais Google ne réfléchit pas comme cela, dit encore Olivier Lecompte. Comment peut-il savoir qui a sorti l’information en premier? Il voit une suite de mots, il ne lit pas entre les lignes.»
La seule solution, c’est que les sites qui reprennent cette info citent correctement la source originelle, en faisant un lien vers elle. «Google va analyser la source des infos, et s’il voit que beaucoup de monde, à l’extérieur de ton site, parle de toi, il va considérer que tu es important et te faire remonter, reprend Olivier Lecompte. Mais Google ne va pas taper sur les doigts de ceux qui ont oublié de te citer comme source». Faire valoir ses infos, y compris face à la concurrence, cela reste à la charge des journalistes.
Prenez-vous en compte les techniques SEO pour écrire des contenus en ligne? Qu’avez-vous expérimenté? Partagez vos trouvailles dans les commentaires ci-dessous…
Alice Antheaume
Gardiens à l’entrée du parking, double barrière, panneaux indiquant “accès réservé”. Pour entrer dans le laboratoire d’Orange, situé au milieu de la zone industrielle de Lannion, en Bretagne, il faut montrer patte blanche.
Sur place, on dirait une petite Silicon Valley sur… 33 hectares. Bâtiments à la devanture bleu vif, enfilade de couloirs transparents, jardin et terrasse attenants… Il n’y pas de piscine comme au siège de Google, en Californie, mais c’est (presque) tout comme. A l’Orange Labs de Lannion, l’un des centres de recherche et développement de l’opérateur, travaillent plus de 1.050 personnes, dont 900 ingénieurs. Ils cherchent, cogitent, trouvent, conçoivent dans tous les sens et à toute vitesse. «Lannion, c’est l’histoire et surtout l’avenir», a dit leur patron, Stéphane Richard, au début de l’été. De fait, c’est ici que la fibre optique a fait ses débuts, en 1971, et qu’a été imaginé le mur de téléprésence, en 2002.
Discussions au débotté
A la cantine ou par messagerie instantanée, les salariés lannionais parlent de «métadonnées», de «clustering», d’«espace vectoriel», et de «divergence humain/machine». Des termes un peu abstraits qui donnent cependant lieu à des outils très concrets. Ici, un résumeur de texte, capable en un clic de faire la synthèse d’un projet de loi de 120 pages comme d’un article de 3 pages, sans faute d’orthographe ni de syntaxe; là, une télé connectée au Net avec un flux de vidéos d’actu près de la machine à café; plus loin, un outil – issu des travaux menés par des collègues de Rennes- qui permet de séquencer des vidéos ou des sons en plusieurs parties.
«La vidéo est très difficile à analyser, raconte Laurent Frisch, directeur des contenus médias et entertainment chez Orange. Au début, dans les JT, on ne parvenait qu’à différencier les génériques de début et de fin du corps de la vidéo. Maintenant, on sait reconnaître – et chapitrer en conséquence – les changements de décors, de présentateurs, les reportages à l’extérieur, les interviews en plateau.» Plus fort encore, dans une émission de radio, les technologies développées à Lannion permettent de repérer quand cela change de voix, quand il s’agit d’une question, ou bien d’une réponse, et de visualiser toutes les occurrences d’un mot dans le fichier son.
Séquencer, découper, recouper
Cela n’a l’air de rien, mais pour les journalistes qui passent beaucoup de temps à traquer les petites phrases de personnalités, politiques ou autres, dans des vidéos ou des sons, c’est potentiellement beaucoup. Si de tels outils se démocratisaient dans les rédactions, ce serait 40% de temps gagné dans la journée d’un journaliste de desk. «La question revient sans cesse entre nous: doit-on ouvrir nos applications à nos partenaires, et plus loin, aux utilisateurs? La réponse n’est pas tranchée», sourit l’équipe.
Lannion, c’est aussi le seul endroit où, à ma connaissance, on peut croiser des spécialistes de la sémantique qui ne sont pas professeurs en faculté de Lettres, ou des psychologues ergonomes (cela ne s’invente pas). Certains ont fait Polytechnique, certains des écoles d’ingénieurs des télécoms, d’autres les deux. Tous cherchent à «découper automatiquement» l’actu, qu’elle soit sous la forme de texte, de vidéo, ou de son. Objectif affiché: «fluidifier la propagation des contenus pour les journalistes, blogueurs, et tous ceux qui diffusent l’info», reprend Laurent Eskenazi, responsable marketing pour le pôle médias/entertainment. Et créer des technologies qui fassent le travail.
Au fond, ils se posent la même question que les journalistes: «Comment repérer un sujet d’actu cohérent?», résume Tanguy Urvoy, ingénieur. S’il veut répondre à cette question, ce n’est pas pour produire de l’info. Mais pour en tirer le meilleur algorithme possible afin d’indexer en «sujets d’actu cohérents» une grande quantité d’infos, issues de plusieurs médias. C’est le principe de fonctionnement de l’agrégateur d’Orange, 2424actu.fr, comme celui de Google News.
Algorithme mon ami
En coulisses, ce serait presque simple, à écouter les explications. «Cet algorithme, c’est juste une grosse calculette», renseigne Tanguy Urvoy. En gros, il passe à la moulinette des articles, retire de ceux-ci la ponctuation, les pluriels des noms, les majuscules. Ce qui donne un «sac de mots». Puis «pondère» le résultat pour savoir quels mots sont importants dans ce «sac», eu égard à la place de ce mot à la fois dans l’article analysé (le mot est-il répété? Est-il présent dans le titre?) et dans le corpus créé par toutes les infos scannées à un instant T. «Plus un mot est rare, plus il remonte, reprend Tanguy Urvoy. Cela explique que l’algorithme soit très bon (comprendre: ne fait pas d’erreur, ndlr) sur les faits divers (dans lesquels vont apparaître un nom de ville ou de victime inédit, ndlr) et moins sur les débats, les rebondissements ou les événements plus diffus.»
Exemple pour mieux comprendre: le contenu intitulé au départ «Le père Arthur invite Sarkozy à Lille pour voir les roms» va créer un sac de mots dans lequel on trouvera les termes «arthur», «president», «republique», «commande», «roms», etc. Après pondération et projection de l’article dans un espace vectoriel, l’algorithme détermine qu’il va aller dans l’ensemble «roms». Et hop, le voici indexé dans un «sujet d’actualité».
«L’algorithme ne peut être parfait, veulent rassurer les ingénieurs, s’adressant à des journalistes, il y a encore quelques imperfections. Dans l’idéal, on voudrait tout automatiser à 80% et on garderait une main humaine pour effectuer les choix réellement importants et corriger les erreurs.»
A venir: un W.I.P. sur les algorithmes, nos confrères journalistes…
La collaboration avec les algorithmes vous fait-elle peur? Si oui, si non, dites moi pourquoi dans les commentaires ci-dessous…
Alice Antheaume
lire le billet