#MediaExplore – Retour sur le Meetup #2 : Enrichir les bases de données média : quelles opportunités dans le linked data ?

Le 08 janvier dernier s'est tenu le deuxième meetup du laboratoire ouvert de l'innovation média. Il portait sur les opportunités du linked data pour les bases de données média.

Après son lancement le 1er décembre dernier, le laboratoire ouvert de l’innovation média* est entré dans sa phase d’exploration avec une première rencontre, le 17 décembre 2014, dédiée aux enjeux d’enrichissement des bases de données et de documents média et une deuxième rencontre portant sur les opportunités du linked data pour les bases de données média.

#MediaExplore - Retour sur le Meetup #2 : Enrichir les bases de données média : quelles opportunités dans le linked data ?

Le 08 janvier dernier, ce deuxième meetup qui s’est tenu dans les locaux de l’AFP a réuni une cinquantaine de participants. Il a donné lieu à l’organisation de deux ateliers de réflexion réunissant les participants à l’événement, des experts invités ainsi que des intervenants de l’AFP, autour de deux grands enjeux :

  1. Comment créer des liens entre des informations distribuées par une organisation et des ressources externes structurées ?
  2. Comment fournir des données pour susciter des réutilisations ?

À l’issue de ces ateliers d’une heure et demie, les participants de chaque atelier ont sélectionné plusieurs grands enjeux dont nous partageons ici une synthèse. Ces différents échanges alimenteront les prochains rendez-vous du programme.

Atelier #1 :
“Comment créer des liens entre des informations distribuées par une organisation et des ressources externes structurées ?“

Intervenants :

  • Julien Masanès (Mignify),
  • Christian Langevin (Qwam),
  • Daniel Oudet (AFP),
  • Pierre Gilsoul (AFP),
  • Pierre Celerier (AFP),
  • Yannick Beynet (AFP)

Modérateur : Maël Inizan (NUMA)

Principaux enjeux identifiés au sein de l’atelier :

  1. Mieux qualifier et contextualiser l’information en proposant ainsi de la plus value.
  2. Aider l’AFP à devenir un acteur qui fabrique de la structure et qui propose des API.
  3. La géolocalisation de l’information.
  4. Utiliser les données de l’AFP comme un outil de prédiction.

Mieux qualifier et contextualiser l’information :

  1. Enjeux : Contextualiser et enrichir les contenus distribués par l’AFP.
  2. Livrable : Un “package d’info” comprenant par exemple autour d’une actualité : un contexte, des données brutes, une sélection de tweets pertinents sur le sujet, une analyse quantitative du trend (etc.)
  3. Commentaires : Avant de pouvoir produire automatiquement ces packages, il faut en amont expérimenter manuellement afin de réellement savoir ce que l’on peut y inclure.

Devenir un promoteur des “structures” de l’information :

  1. Enjeux : À travers ses référentiels et ses nomenclatures, l’AFP produit de la structure dans l’information. Une structure qui pourrait être davantage exploitée par les différents clients de l’agence. Par exemple, l’AFP utilise DBPedia pour désambiguïser les noms propres, mais uniquement pour un usage interne. L’accès à ce type de solutions pourrait permettre aux clients de l’agence de mieux structurer leur propres productions.
  2. Livrable : /
  3. Commentaires : Le développement de cette stratégie passe en partie par la création d’APIs, permettant d’interroger les bases et les référentiels de l’AFP.

Mieux géolocaliser l’information :

  1. Enjeux : Augmenter la granularité des métadonnées de géolocalisation afin de géolocaliser plus précisement les productions de l’AFP. Par exemple, indiquer “Palais de justice de Paris” et pas seulement “Paris”.
  2. Livrable : Des métadonnées de géolocalisation beaucoup plus précises et plus automatisées
  3. Commentaires : L’AFP géolocalise actuellement déjà ses productions, mais cette géolocalisation pourrait gagner en granularité. L’Agence travaille déjà sur la géolocalisation au niveau des POI (point d’intérêt), mais il s’agit d’un travail en cours qui n’est pas toujours automatique. L’une des pistes pourrait être d’utiliser des outils de géoboxing, par exemple avec Open Street Map.

Utiliser les données de l’AFP en tant qu’outil de prédiction :

  1. Enjeux : L’une des importantes demandes client de l’AFP serait que l’Agence propose, grâce à ses données, des outils d’aide à la décision et des outils de prédiction, c’est-à-dire pouvoir dire en avance quelles informations sont susceptibles de générer de l’audience.
  2. Livrable : /
  3. Commentaires : Pour proposer ces outils, l’AFP pourrait utiliser à la fois Twitter mais aussi son stock d’archives pour repérer des tendances (ex. modélisation des cycles de vie d’un article).

Atelier #2 :
“Comment fournir des données pour susciter des réutilisations ?”

Intervenants :

  • Sylvain Boissel (Wikimédia France / Wikidata),
  • Christian Quest (Open Street Map France),
  • Romain Lalanne (Open Data SNCF),
  • Caroline Raveton (AFP),
  • Otman Meriche (AFP),
  • Sophie Huet (AFP),

Modérateur : Claudio Vandi (NUMA),
Principaux enjeux identifiés au sein de l’atelier :

  1. Organiser des paquets thématiques de stock.
  2. Explorer le crowdsourcing pour enrichir les documents et les photos.
  3. Outil de production structurée de l’information.

Organiser le stock et créer des “paquets de stock” :

  1. Enjeux : De quelle façon peut-on donner de la profondeur aux flux de données ? Comment créer davantage d’interaction entre des documents traitant de la même information sous des formes différentes (texte, photos, vidéos, infographie).
  2. Livrable : Il y a trois possibilités : Proposer un traitement sémantique des documents afin de créer des liens entre différentes informations appartenant à différentes catégories IPTC (le standard informatique pour l’échange et le stockage des métadonnées utilisé par l’AFP). / Proposer des paquets de stock qui adressent des sujets qui ont un intérêt récurrent, comme par exemple les informations à propos du Tour de France, les déclarations des présidents de la République etc. / Au delà du stock, certaines informations pourraient être consommées aussi comme “flux”. Par exemple: lors d’une période électorale, produire un flux qui intègre les déclarations des candidats.
  3. Commentaires : Les données électorales de l’Agence France-Presse sont très fournies et permettent un historique d’information important. Seulement elles ne peuvent être exploitables qu’à condition d’être reliées à une information, l’intêrêt est dans l’interaction de ces données avec d’autres informations et dans le groupement d’informations traitant du même sujet ou du même événement

Numérisation des archives et validation d’informations par crowdsourcing :

  1. Enjeux : L’AFP a débuté une campagne de numérisation de ses archives historiques à l’occasion des “anniversaires” de l’actualité. Par exemple pour les 50 ans de l’assassinat de JFK, lors desquels certains documents d’archives sont numérisés en prévision du traitement médiatique de l’information. Cependant, une grande partie des documents de l’Agence France-Presse ne sont pas toujours accessible via des bases de données numériques mais uniquement en physique. Ce travail de numérisation demande beaucoup de ressources pour saisir les informations (par exemple, les légendes photos sont parfois illisibles pour des machines) et classer les documents dans la nomenclature utilisée aujourd’hui.
  2. Livrable : En terme de validation des informations et de numérisation des archives, le recours au public peut être une des solutions innovantes à exploiter.
  3. Commentaires : Ce sujet s’inspire notamment du Projet Madison, une plateforme de crowdsourcing mise en ligne par le New-York Times pour identifier et documenter les encarts publicitaires publiés dans la version papier du journal depuis 1960.

Outil de production structuré de l’information :

  1. Enjeux : Comment faciliter la production de données lors de la collecte, la rédaction et l’archivage d’informations ? Comment permettre aux journalistes de relier plus facilement l’information (création de tags par exemple…)? Comment construit-on un outil permettant de lier les informations avec un flux de données profond ?
  2. Livrable : Outil de production pratique qui génère de la donnée (informations liées à des personnages politiques, géolocalisation, autres informations quantifiées) au moment de la création d’un document, texte et visuel, depuis le terrain, au moment de l’édition et lors de l’archivage.
  3. Commentaires : Il existe déjà des outils d’accompagnement au référencement des articles pour les journalistes. Ces outils référencent les articles publiés mais ne permettent pas de lier des documents de nature différente et/ou présents dans un flux. À l’AFP, c’est le système Iris qui est utilisé pour référencer l’information. Il permet de créer une filiation entre les documents qui parlent exactement du même sujet

Collecte de données brutes et partage des bases de données :

  1. Enjeux : La collecte d’informations et de données brutes représente une part importante du travail de l’AFP, qui pourrait être mieux exploité par des datajournalistes ou mieux utilisé pour réaliser des infographiesr. Il existe un nombre important de sources qui pourraient être mutualisées par des rédactions mais qui nécessitent souvent d’être structurées.
  2. Livrable : Il s’agit ici d’un double enjeu D’un côté, comment structurer les sources existantes et en faciliter l’accès ? De l’autre, comment créer et mettre à jour des bases de données sur des sujets d’actualité ? Comment appliquer dans ce cas l’utilisation de la sémantique pour aller du texte vers le tableur? Avec quel niveau de fiabilité?
  3. Commentaire : A Bagdad, par exemple, le bureau de l’AFP a créé et met quotidiennement à jour une base de données sur les victimes des attentats.

* À propos : Le laboratoire ouvert de l’innovation média est un programme de 6 mois co-construit par NUMA et l’AFP où journalistes, rédactions, startups, PME etc. sont invités à prototyper et expérimenter de nouveaux services et outils adaptées aux besoins et aux nouveaux usages au sein des rédactions comme au-delà du périmètre des médias traditionnels.

Plus d’informations sur le programme sur :
https://paris.numa.co/Explore-media

Partagez :

Partagez :