Paris Musées et Wikidata: établir des liens

Au 6/1/2019, ma liste des établissements rattachés à Paris Musées comporte 14 musées avec 16 dénominations (voir à la fin de ce billet). Elle a été constituée à la main à partir du site de Paris Musées.

J’ai établi plusieurs méthodes de recherche de liens entre ces musées et des entités de Wikidata les représentant.

La plus simple donne 15 liens. Elle cherche un lien à partir du nom du musée à l’aide de la fonction de recherche fournie par le service WDQS de Wikidata. Ma méthode ne conserve aucun résultat si le recherche en donne plusieurs et qu’il y a donc incertitude sur la bonne réponse. Ainsi ‘Les Catacombes’ n’est pas trouvé par cette méthode, car la recherche WDQS donne deux résultats.

En ajoutant comme critère la ville du musée, Paris, et le fait qu’elle est en France j’obtiens 8 entités.

En ajoutant comme critère à la méthode simple le fait que l’entité doit être un musée, et j’obtiens 14 entités. Il manque deux entités. Le ‘Palais Galliera’ est une instance de ‘palace’ qui n’est pas un type dérivé de ‘museum’. Le ‘Petit Palais’ est de type ‘museum building’ qui est un dérivé de ‘building’, mais pas de ‘museum’.

J’obtiens 12 entités en ajoutant le fait que le musée est en France.

Si je combine les critères monuments et ville à la méthode simple, j’obtiens 8 entités.

Cela nous fait 5 méthodes.

Entités sans lien wikidata

Aucune dénominations des musées de Paris Musées n’obtiens de lien wikidata par aucune des méthodes proposées.

Entités avec liens wikidata non homogènes

1 seule dénomination -Musée Zadkine- a obtenu des liens différents suivant les méthodes utilisées. Il y a en effet un musée Zadkine aux Arques et un à Paris. Les méthodes obtiennent l’un où l’autre des musées. Le critère géographique permet d’obtenir le bon lien.

Nous devons donc maintenant vérifier que les réponses retenues sont exactes sur l’ensemble des cas.

Vérification des 16 entités obtenues pour les 16 dénominations

Test sur 30 entités tirées au hasard parmi l’ensemble des musées

Le bilan est le suivant:

  • résultats trouvés: 16
  • résultats cherchés 16
  • résultats exacts 16
  • résultats inexacts 0

Ce qui en terme de précision et de rappel, nous donne:

précision=nombre de résultats exacts/nombre de résultats trouvés= 16/16= 100 %

rappel=nombre de liens exacts trouvés/nombre de liens trouvables=16/16=100 %

Et donc une F-Mesure de:

f-mesure=2*1*1/(1+1)=1=100 %

Sur cette petite série de dénominations les méthodes proposées s’avèrent complètement satisfaisantes. Nous allons prochainement publier les résultats de ces méthodes sur d’autres ensembles de données et des précisions techniques sur les méthodes mises en oeuvre.

A propos Moissinac

Maitre de conférence à Télécom ParisTech, Département Signal et Image, Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes
Ce contenu a été publié dans Cultural data, Data Musée, Données publiques, Marquage sémantique, Outils, SPARQL. Vous pouvez le mettre en favoris avec ce permalien.