Identificateurs uniques de chercheurs versus Uniques identificateurs de chercheurs

Comme mentionné dans l’article « Premier contact avec les outils de l’ABES » , pour le projet SemBib, j’ai commencé par utiliser mes propres identifiants pour les chercheurs. Ensuite, j’ai voulu utiliser des identifiants provenant de sources de références, à commencer par les identifiants IDREF de l’ABES.

J’ai mis le doigt dans un engrenage.

Devant les difficultés rencontrées pour récupérer les identifiants IDREF de tous les chercheurs de Telecom ParisTech, et ayant vu que l’ABES a des accords avec VIAF, j’ai cherché ce que je pouvais faire du côté de VIAF. VIAF est un ‘fichier d’autorité international virtuel’ créé par un ensemble de bibliothèques nationales. Il gère notamment un ensemble d’identifiants uniques de personnes. Nous avons vu dans le billet ci-dessus comment j’ai récupéré depuis VIAF des informations sur les chercheurs de Telecom ParisTech.

En analysant un peu les données obtenues, j’ai pu voir que les données VIAF provenaient de diverses sources; de proche en proche, à partir de ces sources, j’ai ainsi trouvé des identifiants de personnes provenant de:

  • BNF: la Bibliothèque Nationale de France attribue des identifiants à des auteurs et notamment des auteurs de publications scientifiques,
  • ARK: un système d’identification aussi utilisé par la BNF,
  • SUDOC: c’est un catalogue produit par l’ABES, qui gère notamment les identifiants IDREF,
  • ISNI: pour « International Standard Name Identifier« , défini par une norme ISO, utilisé aussi, entre autres, par la BNF (voir ISNI et la BNF)
  • DBPedia:
  • ResearcherID:
  • ORCID: ces identifiants concernent des auteurs et contributeurs des domaines de l’enseignement supérieur et de la recherche; il y a des liens imparfaits entre l’ISNI et l’ORCID (voir Relations entre ORCID et ISNI);
  • DNB: les identifiants utilisés pat la DEUTSCHEN NATIONALBIBLIOTHEK;
  • RERO: semble définit par le Réseau des Bibliothéques de Suisse Occidentale;
  • LC: identifiants utilisés par la Library of Congress;
  • KRNLK: le point d’accès Linked Open Data de la National Library of Korea, qui comporte un accès SPARQL (http://lod.nl.go.kr/home/sparql/se.jsp)
  • ICCU: utilisé par l’Institut Central pour un Catalogue Unifié des Bibliothèques Italiennes (ICCU)
  • LNB: identifiants dans la Bibliothèque Nationale de Lettonie
  • NKC: identifiants de la Bibliothèque nationale tchèque
  • NLI: identifiants de la Bibliothèque nationale d’Israël
  • NLP: identifiants de la Bibliothèque nationale de Pologne
  • NSK: identifiants de la bibliothèque universitaire de Zagreb;
  • NUKAT: provient du Centre NUKAT de l’Université de Varsovie
  • SELIBR: utilisé par LIBRIS, un service de recherche qui fournit des informations sur les titres détenus par les universités suédoises et les bibliothèques de recherche (exemple: http://libris.kb.se/auth/264078);
  • WKD: concerne les identifiants utilisés par WikiData;
  • BLSA: provient probablement de la British Library
  • NTA: identifiants de la Bibliothèque royale des Pays-Bas

J’en ai surement oublié…

Ces identifiants désignent tous un chercheur de façon unique dans un système d’identification. Mais, comme nous venons de le voir, il peut y avoir de nombreux identifiants pour un même chercheur; tous les chercheurs n’ont pas tous les identifiants, mais ils en ont souvent plusieurs.

Par exemple, Antonio Casilli est identifié au moins par:

BNF, ARK,  ISNI, VIAF, LC, SUDOC, ORCID, DNB|1012066622, NUKAT|n 2016165182

Les chercheurs ont ainsi plusieurs identifiants plus ou moins équivalents qu’il peut être utile de connaître dans une approche Linked Open Data: si l’on veut être capable de lier les données sur un chercheur, il faut déjà pouvoir lier leurs identifiants uniques! Je reviendrais dans un prochain billet sur la solution décentralisée que je propose.

Note: cela me fait penser à la blague sur les normes vidéos « il y a N normes différentes, c’est trop; pour en finir, je vais faire un format unique qui réunira le meilleur de chaque norme »; après un tel travail, on n’a pas 1 norme, mais N+1 normes…

A propos Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes
Ce contenu a été publié dans Marquage sémantique, Outils, SemBib. Vous pouvez le mettre en favoris avec ce permalien.

Une réponse à Identificateurs uniques de chercheurs versus Uniques identificateurs de chercheurs

  1. Ping : Identifiants LOD pour Télécom ParisTech | Objets Numériques et Sémantique

Les commentaires sont fermés.