#MediaExplore – Retour sur le Meetup #1 : Comment augmenter le potentiel d’usage des bases de données média ?

Après son lancement le 1er décembre dernier, le laboratoire ouvert de l’innovation média est entré dans sa phase d’exploration avec une première rencontre dédiée aux enjeux d’enrichissement des bases de données et de documents média.

Après son lancement le 1er décembre dernier, le laboratoire ouvert de l’innovation média* est entré dans sa phase d’exploration avec une première rencontre dédiée aux enjeux d’enrichissement des bases des bases de données et de documents média.

Organisé à NUMA , le 17 décembre dernier ce premier meetup a réuni une cinquantaine de participants. Il a donné lieu à l’organisation de trois ateliers de réflexion réunissant les participants à l’événement, des experts invités ainsi que des intervenants de l’AFP, autour de trois grands enjeux :

  1. Comment extraire des données structurées de contenus rédactionnels ?
  2. Comment créer de nouvelles connexions entre les contenus d’une base de documents ?
  3. Retour d’expériences sur l’exploitation d’une base de documents avec l’AFP et l’INA.

À l’issue de ces ateliers d’une heure et demie, les participants de chaque atelier ont sélectionné trois grands enjeux dont nous partageons ici une synthèse. Ces premiers échanges alimenteront les prochains rendez-vous du programme.

Atelier #1 :
“Comment extraire des données structurées de contenus rédactionnels“

Intervenant :

  • Claude de Loupy (Syllabs),
  • Sophie Huet (AFP),
  • Daniel Oudet (AFP),

Modérateur : Maël Inizan (NUMA)

Principaux enjeux identifiés au sein de l’atelier :

  • Aider les journalistes dans leur travail de rédaction et dans l’enrichissement de leurs productions avec des métadonnées
  • Extraire automatiquement des données utilisables des productions de l’AFP
  • Créer de l’information à partir des données

Extraire des données brutes utilisables des productions de l’AFP :

  1. Enjeux : Il y a une demande toujours plus forte de data brutes et de données visuelles. L’enjeu pour l’AFP serait donc de capitaliser sur ses productions existantes pour produire et mettre à jour automatiquement des bases de données sur des événements d’actualité.
  2. Livrable : Expérimenter la génération de tableur de données à partir d’un corpus de texte sur un sujet (Exemple : faire une base de données brutes à partir des articles sur les règlements de comptes à Marseille, mise à jour automatiquement s’il y a de nouvelles informations).
  3. Commentaires : Il reste difficile d’extraire automatiquement des données et des citations d’une dépêche. Il y a en effet beaucoup de styles d’écriture et le système ne gère que difficilement les désignations par un pronom personnel ou un surnom ainsi que les anaphores. Il faut alors prendre en compte la vérification et la validation des données produites, éventuellement grâce au crowdsourcing. De plus, l’extraction de données brutes des dépêches aurait pour conséquence de faciliter le travail de fact-checking grâce aux statistiques.

Générer des articles à partir des données :

  1. Enjeux : Accélérer la production d’information à partir des données brutes de l’AFP, expérimenter de nouvelles manières de produire l’information.
  2. Livrable : Réaliser une expérimentation sur de la génération automatique de dépêche à partir données brutes.
  3. Commentaires : Même si cela reste pour le moment assez limité, l’AFP produit déjà de l’information grâce à ses données brutes, notamment avec des données sportives ou avec les résultats des élections. Ils sont par exemple capables de produire quasi-automatiquement une dépêche simple de résultat sportif.

Exemple de dépêche quasi-automatique

Aider les journalistes dans leur travail de rédaction et dans l’enrichissement de leur production avec des métadonnées :

  1. Enjeux : Permettre aux journalistes de gagner en rapidité et en efficacité lors de la production de l’information, aider les journalistes à inclure des métadonnées dans leurs productions, utiliser plus et plus facilement la richesse des productions de l’AFP en créant des liens avec d’autres contenus en interne et cela aussi bien pour les journalistes de l’AFP que les clients.
  2. Livrable : Outil d’aide à l’écriture pour les journalistes avec suggestion de tags et d’autres productions AFP au fur et à mesure de l’écriture d’un article avec en plus la possibilité de chercher dans l’historique de la recherche d’une dépêche.
    Commentaires : Il est nécessaire de prendre en compte les outils du web sémantique ainsi que les importants volumes de données à traiter. Ensuite il faut voir comment intégrer cet outil dans des systèmes externes et surtout faire en sorte que l’affichage des données soit en temps réel pour ne pas faire attendre les journalistes.

Atelier #2 :
“Comment créer de nouvelles connexions entre les contenus d’une base de documents ?”

Intervenant :

  • Nicolas Sauret (IRI),
  • Pierre Celerier (AFP),
  • Amandine Ambregni (AFP),

Modérateur : Gayatri Korhalkar (NUMA),

Principaux enjeux identifiés au sein de l’atelier :

  • Les événements
  • La surindexation
  • La création automatique de dossiers

La création automatique de dossiers :

  1. Enjeux : créer un contexte autour d’un évènement, le rattacher à des mots clés, dates, lieux et même autres évènements.
  2. Livrable : interface de visualisation et d’interrogation.
  3. Commentaires : le process est hybride (échange homme/machine), on rentre une recherche et ressort un dossier sur la thématique/sujet choisi.

Les événements :

  1. Enjeu : lier divers documents autour d’un évènement répertorié dans une base de données.
  2. Livrable : gestionnaire d’évènement.
  3. Commentaires : Cela permet de synthétiser une information et d’avoir une vue complète sur un évènement. La notion d’évènement (par opposition au lieu, date ou sujet) est très importante, car le lieu ou la date d’un évènement peut changer au cours du temps. On peut rassembler les données par évènement, ce qui prendrait la forme d’un fil/timeline.

La surindexation :

  1. Enjeu : réduire le bruit et apporter des réponses plus pertinentes, créer des liens plus fiables et plus complets entre produits.
  2. Livrable : À définir.
  3. Commentaires : Comment le faire par méthode hybride sur le stock de l’AFP ? Peut-on établir des liens avec l’extérieur ? Le problème se situe côté indexation pour l’AFP et non pas algorithme. Comment peut-on redonner de la pertinence au stock ? Quel critère de pertinence faut-il appliquer ? Pour le temps réel, le volume de données produites chaque jour par l’AFP est une variable qui peut poser problème ici.

Atelier #3 :
“Retours d’expériences sur l’exploitation d’une base de documents avec l’INA”

Intervenant :

  • Jean Carrive (INA),
  • Caroline Raveton (AFP),
  • Amina Ben-Cheikh (AFP)

Modérateur : Roman Navalpotro (NUMA)

Principaux enjeux identifiés au sein de l’atelier :

  • Dossiers thématiques
  • Amélioration de la recherche photo
  • Accessibilité des archives

Dossier thématique :

  1. Enjeu : Comment faire ressortir de façon plus ou moins automatique la profondeur du flux en fonction de l’actualité chaude. L’enjeu pour l’AFP est de créer du lien entre des documents d’époques diverses, indexées de façons différentes, mais qui traitent de la même information.
  2. Livrable : Expérimenter différents formats, outil permettant de faire ressortir la profondeur du flux selon l’actualité (par exemple sur “l’affaire Bygmalion”, l’Agence avait documenté pendant plusieurs semaines les prémices de l’affaire mais n’a pas su faire profiter de sa profondeur de flux lorsque ce fut à la une des médias d’informations). Profiter de la numérisation qui suit les anniversaires d’évènements pour mettre en avant la valeur historique des documents.
  3. Commentaire : Travailler sur référentiel, linked data.

Amélioration de la recherche photo :

  1. Enjeu : Comment proposer un nouveau mode de recherche dans les bases de données AFP ?
  2. Livrable : Tester la mise en place d’un algorithme dédié sur la reconnaissance des images.
  3. Commentaire : /

Accessibilité des archives :

  1. Enjeu : Abonnement spécifique pour des communautés particulières. Exemple de l’expérience avec une université brésilienne : les étudiants n’ayant pas les moyens financiers pour se procurer l’ensemble des ressources documentaires à leurs études, l’AFP en partenariat avec l’université proposait un accès aux bases d’archives de l’Agence.
  2. Livrable : Tester la génération de corpus thématiques, expérimenter leur exploitation pour des communautés dédiées comme les chercheurs, les étudiants, startups (…), sans concurrencer les médias d’information.
  3. Commentaire : /

* À propos : le laboratoire ouvert de l’innovation média est un programme de 6 mois co-construit par NUMA et l’AFP où journalistes, rédactions, startups, PME etc. sont invités à prototyper et expérimenter de nouveaux services et outils adaptées aux besoins et aux nouveaux usages au sein des rédactions comme au-delà du périmètre des médias traditionnels.

Plus d’informations sur le programme sur :

https://paris.numa.co/Explore-media

Partagez :

Partagez :