Identifiants LOD pour Télécom ParisTech

Télécom ParisTech est une des principales écoles d’ingénieur du numérique en France; c’est aussi une grande institution de recherche. Le slogan affiché est assez représentatif de ses objectifs « Innover et entreprendre dans un monde numérique ».

La dénomination de Télécom ParisTech a évolué au fil du temps. La multiplication des noms rend difficile les rapprochements entre différentes sources de données. Les principes du Linked Open Data vont nous aider.

Voici quelques noms officiels ou noms d’usage qui ont été utilisés:

Telecom ParisTech

Télécom Paris

Ecole Nationale Supérieure des Télécommunications

École Nationale Supérieure des Télécommunications de Paris

ENST ou E.N.S.T.

Sup Télécom

et précédemment:

ainsi que diverses variantes autour des ces intitulés.

Il est alors difficile aux catalogues et systèmes d’indexation de bien rattacher nos chercheurs et publications à une seule et même institution (par exemple, pour compter les publications pour un classement des universités…).

Les principes du LOD peuvent nous aider à utilisant un identifiant unique dans les données que nous allons produire dans le cadre du projet SemBib.

Quel identifiant utiliser?

VIAF est un fichier d’autorité, recensant de nombreux auteurs à travers le monde et leur attribuant un identifiant unique. Depuis quelques temps VIAF recense aussi les organismes et les conférences en s’aidant notamment de Wikidata (voir Corporate VIAF).

Une recherche simple sur leur site nous donne

http://viaf.org/viaf/130089636/

D’où, on peut déduire l’accès à une version RDF, sans faire de la négociation de contenu:

http://viaf.org/viaf/130089636.rdf

Les données associées sont cependant partiellement erronées, en particulier sur les propriétés schema:alternateName et skos:altLabel, où Télécom Bretagne est considérée comme un nom alternatif pour Télécom Bretagne.

Worldcat, le catalogue international de publication, initiative de l’OCLC, recense aussi des organisations et assure des liens avec VIAF. Avec l’URL suivante

http://www.worldcat.org/identities/viaf-130089636/

directement dérivée du numéro VIAF de Télécom ParisTech, on trouve l’enregistrement de Télécom ParisTech dans Worldcat. On constate des erreurs analogues à celles de VIAF. On trouve aussi dans cette page un lien vers un ensemble de publications associées à Télécom ParisTech. Par contre, la page obtenue à cette adresse contient du marquage RDFa, qu’on peut voir, par exemple, avec le RDFa Distiller du W3C:

https://www.w3.org/2012/pyRdfa/extract?uri=http%3A%2F%2Fwww.worldcat.org%2Fidentities%2Fviaf-130089636%2F&format=turtle&rdfagraph=output&vocab_expansion=false&rdfa_lite=false&embedded_rdf=true&space_preserve=true&vocab_cache=true&vocab_cache_report=false&vocab_cache_refresh=false

On y voit notamment les triplets suivants:

<http://www.worldcat.org/identities/viaf-130089636> ns1:sameAs <http://en.wikipedia.org/wiki/Special:Search?search=T%C3%A9l%C3%A9com_ParisTech>,
<http://id.loc.gov/authorities/names/n81054244>,
<http://viaf.org/viaf/130089636>,
<https://www.wikidata.org/wiki/Q2311820>

La dernière URI, celle de Wikidata, parait intéressante. Les informations liées sont assez peu nombreuses, mais toutes exactes. L’URI Wikidata semble être un bon candidat. De plus, le processus de production des données de Wikidata parait nous permettre, assez aisément, des mises à jour, des compléments et des corrections afin de garantir une description aussi correcte que possible associée à l’URI.

Sur la page Wikidata, on trouve aussi les identifiants suivants:

GRID – Global Research Identifier Database):

https://www.grid.ac/institutes/grid.463717.0

ISNIInternational Standard Name Identifier (ISO 27729):

http://www.isni.org/0000000121082779

L’ISNI est une bonne référence internationale. Les informations liées semblent correctes.

Dans la page de l’ISNI, on trouve un lien vers un identifiant LC (Library of Congress):

http://id.loc.gov/authorities/names/n81054244

et enfin un identifiant SUDOC/IDREF -déjà abordé dans le billet Premier contact avec les outils de l’Agence Bibliographique de l’Enseignement Supérieur

http://www.idref.fr/026375273

On trouve au niveau de la page descriptive de cet URI une référence à l’ISNI http://www.isni.org/isni/0000000121096951 qui contient les mêmes confusions avec Telecom Bretagne qu’évoquées précédemment.

Dans cette page, on trouve un nouvel identifiant, l’identifiant ARK utilisé par la BNF (qui correspond au numéro de notice BNF FRBNF118634931):

http://catalogue.bnf.fr/ark:/12148/cb11863493k

Pour mémoire, citons aussi l’identifiant qu’on peut trouver au niveau du projet Semantic Web Doc Food, qui a évolué vers le projet Scholarlydata, et s’applique à la récolte de données sur les publications scientifiques:

http://data.semanticweb.org/organization/telecom-paristech

qui a évolué vers

https://w3id.org/scholarlydata/organisation/telecom-paristech

Conclusion

Pour les raisons évoquées ci-dessus, nous allons utiliser l’identifiant Wikidata:

https://www.wikidata.org/wiki/Q2311820

Par ailleurs, nous allons créer un graphe pour récolter les équivalences entre identifiants d’organisations et de chercheurs -voir Identificateurs uniques de chercheurs versus Uniques identificateurs de chercheurs– en exploitant notamment la propriété owl:sameAs.

 

 

 

À propos de Moissinac

Maitre de conférence à Télécom ParisTech, Département Signal et Image, Groupe Multimédia Jean-Claude Moissinac mène des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Principaux axes de recherche actuel : représentations sémantiques, adaptation de documents multimédias à des contextes variés d’utilisation ; utilisation du multimédia pervasif
Ce contenu a été publié dans DBPedia, Données publiques, Marquage sémantique, SemBib. Vous pouvez le mettre en favoris avec ce permalien.