Premiers contacts avec l’accès SPARQL de l’éditeur Springer

Dans le cadre du projet SemBib, je vais découvrir avec vous l’accès SPARQL public de l’éditeur scientifique Springer à l’adresse http://lod.springer.com/sparql-form/index.html. Pour un premier contact, il faut faire connaissance et quelques requêtes classiques vont nous y aider.

D’abord, découvrir les propriétés utilisées:

qui met environ 23 secondes (j’ai un peu triché: je l’ai exécutée une première fois pour voir les URI utilisées et en déduire des préfixes à définir et avoir le résultat plus compact ci-dessous, grâce aux préfixes).

Elle donne :

D’une part cela nous montre que les performances ne sont pas exceptionnelles. D’autre part, on voit que pour l’essentiel Springer a défini sa propre ontologie: des données sont accessibles, mais pas vraiment reliées au reste du monde par des concepts partagés. Les données sont définies avec 47 prédicats (propriétés).

La requête suivante -sans répéter les préfixes ci-dessus définis- nous donne le nombre de ‘sujets’ distincts renseignés dans la base: 451277.

et celle qui suite donne le nombre de triplets qui renseignent ces sujets: 3490865, soit environ 8 prédicats par sujet différent, ce qui est peu pour renseigner de façon détaillée des références bibliographiques. On peut supposer qu’on aura donc peu de données sur chaque référence.

Le relativement faible de prédicats par sujet me suggère de chercher les plus utilisés:

ce qui donne (en enlevant les moins utilisés, concernant essentiellement des questions de droits):

On voit que l’essentiel de l’information disponible sur un élément de la base consiste en: son type, son numéro DOI, son titre, de quoi l’élément est un chapitre, à partir de quelle page et jusqu’à quelle page. Les autres informations concernent notamment des conférences d’où peuvent provenir les documents.

Prédicats avec domain et range

On voit que les propriétés domain -qui nous donne la catégorie d’objets à laquelle s’applique le prédicat- et range -qui nous donne la catégorie des valeurs possibles pour ce prédicat- semblent renseignées pour certains prédicats .

Avec la même petite tricherie que ci-dessus pour les préfixes, la requête suivante nous donne en 15 secondes les domain et range utilisés:

Le résultat est:

Exploration de quelques prédicats

dc:creator

Je m’attendais à un usage de dc:creator pour les noms d’auteurs. Mais dc:creator ne prends qu’une seule valeur: « Springer »@en. Sans doute pour désigner le créateur de la base. Aucun autre prédicat ne semble pouvoir être porteur du nom des auteurs.

rdf:type

La requête suivante va nous permettre de voir la répartition des types utilisés:

donne

spr:bookDOI

Ce prédicat permet probablement d’associer un numéro DOI à chaque document. Par nature, il est désigne de façon unique un document. Je vais m’intéresser à la forme utilisée pour enregistrer le numéro DOI par Springer (j’ai noté, par exemple, que dans la base de Telecom ParisTech, diverses formes sont utilisées).

donne

On voit une représentation homogène des numéros DOI dans la base de Springer. J’ai vérifié cela sur un plus grand nombre d’exemple.

Des prédicats au sujet des conférences

Plusieurs prédicats semblent concerner des séries de conférences. Je vais chercher combien sont concernées et quelles séries conférences ont eu le plus d’occurrences.

On trouve 1477 sujets de type spc:ConferenceSeries (cf ci-dessus les types les plus fréquents).

La requête suivante va nous donner les 20 séries de conférences qui ont le plus donné lieu à publication par Springer:

donne

Cela donne probablement un aperçu des thématiques les plus abordées par Springer.

Actualisation de la base

Des documents scientifiques sont publiés chaque mois.

Pour me faire une idée de la fraîcheur des données disponibles ici, je fais un premier test sur un livre auquel j’ai contribué -« Multimodal Interaction with W3C Standards »- dont le DOI est: 10.1007/978-3-319-42816-1. Il n’est pas dans la base le 3/12/2016.

Quelques prédicats suggèrent des informations de date. Je vais chercher la date la plus récente présente dans la base. Je vais utiliser le prédicat de ce type le plus fréquent: spr:chapterRegistrationDate, qui donne des dates de la forme

La requête

donne le résultat surprenant suivant

Le dernier document enregistré l’a été dans le futur!?!

En tout cas, cela suggère que cette base est régulièrement actualisée -même si les dates affichées doivent être interprétées d’une façon que j’ignore pour le moment.

Conclusion

Cette exploration confirme ce dont j’ai l’intuition depuis le début du projet SemBib: il y a de plus en plus de sources de données bibliographiques, mais chacune a ses propres objectifs et est incomplète pour d’autres objectifs, comme ceux de Sembib.

Cela confirme aussi l’axe choisi pour Sembib: constituer un graphe de données propre à SemBib, mais interconnecté avec d’autres graphes. SemBib plaide pour une fédération de graphes bibliographiques interconnectés.

À propos de Moissinac

Maitre de conférence à Télécom ParisTech, Département Signal et Image, Groupe Multimédia Jean-Claude Moissinac mène des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Principaux axes de recherche actuel : représentations sémantiques, adaptation de documents multimédias à des contextes variés d’utilisation ; utilisation du multimédia pervasif
Ce contenu a été publié dans Données publiques, SemBib, SPARQL. Vous pouvez le mettre en favoris avec ce permalien.