Au 6/1/2019, ma liste des établissements rattachés à Paris Musées comporte 14 musées avec 16 dénominations (voir à la fin de ce billet). Elle a été constituée à la main à partir du site de Paris Musées.
J’ai établi plusieurs méthodes de recherche d’entités de Wikidata représentant ces musées.
La plus simple donne 15 entités. Elle cherche un lien à partir du nom du musée à l’aide de la fonction de recherche fournie par le service WDQS de Wikidata. Ma méthode ne conserve aucun résultat si le recherche en donne plusieurs et qu’il y a donc incertitude sur la bonne réponse. Ainsi ‘Les Catacombes’ n’est pas trouvé par cette méthode, car la recherche WDQS donne deux résultats.
En ajoutant comme critère la ville du musée, Paris, et le fait qu’elle est en France j’obtiens 8 entités.
En ajoutant comme critère à la méthode simple le fait que l’entité doit être un musée, j’obtiens 14 entités. Il manque deux entités. Le ‘Palais Galliera’ est une instance de ‘palace’ qui n’est pas un type dérivé de ‘museum’. Le ‘Petit Palais’ est de type ‘museum building’ qui est un dérivé de ‘building’, mais pas de ‘museum’.
J’obtiens 12 entités en ajoutant le fait que le musée est en France.
Si je combine les critères monuments et ville à la méthode simple, j’obtiens 8 entités.
Cela nous fait 5 méthodes.
Entités sans lien wikidata
Toutes les dénominations des musées de Paris Musées se trouvent liées à une entité de wikidata par au moins une des méthodes proposées.
Entités avec liens wikidata non homogènes
Une seule dénomination -Musée Zadkine- a obtenu des liens différents suivant les méthodes utilisées. Il y a en effet un musée Zadkine aux Arques et un à Paris. Les méthodes obtiennent l’un ou l’autre des musées. Le critère géographique permet d’obtenir le bon lien.
Nous devons donc maintenant vérifier que les réponses retenues sont exactes sur l’ensemble des cas.
Vérification des 16 entités obtenues pour les 16 dénominations
- Nom:MUSÉE CARNAVALET, validé
- Nom:CRYPTE ARCHÉOLOGIQUE DE L’ÎLE DE LA CITÉ, validé
- Nom:LES CATACOMBES, validé
- Nom:Maison de Balzac, validé
- Nom:MAISON DE VICTOR HUGO, validé
- Nom:MUSÉE BOURDELLE, validé
- Nom:MUSÉE CERNUSCHI, validé
- Nom:MUSÉE COGNACQ-JAY, validé
- Nom:MUSÉE JEAN MOULIN, validé
- Nom:MUSÉE D’ART MODERNE DE LA VILLE DE PARIS, validé
- Nom:MUSÉE DE LA VIE ROMANTIQUE, validé
- Nom:MUSÉE DES ARTS DE L’ASIE, validé
- Nom:MUSÉE DU GÉNÉRAL LECLERC, validé
- Nom:MUSÉE ZADKINE, validé
- Nom:PALAIS GALLIERA, validé
- Nom:PETIT PALAIS, validé
Test sur 30 entités tirées au hasard parmi l’ensemble des musées
Le bilan est le suivant:
- résultats trouvés: 16
- résultats cherchés 16
- résultats exacts 16
- résultats inexacts 0
Ce qui en terme de précision et de rappel, nous donne:
précision=nombre de résultats exacts/nombre de résultats trouvés= 16/16= 100 %
rappel=nombre de liens exacts trouvés/nombre de liens trouvables=16/16=100 %
Et donc une F-Mesure de:
f-mesure=2*1*1/(1+1)=1=100 %
Sur cette petite série de dénominations les méthodes proposées s’avèrent complètement satisfaisantes. Nous allons prochainement publier les résultats de ces méthodes sur d’autres ensembles de données et des précisions techniques sur les méthodes mises en oeuvre.