Identifiants IdRef de chercheurs

Dans le post Premier contact avec les outils de l’Agence Bibliographique de l’Enseignement Supérieur, j’avais identifié IDREF comme source possible d’identifiants pour le projet SemBib.

J’ai obtenu une liste de 195 personnels de Télécom ParisTech impliqués dans la recherche. J’ai utilisé la requête indiquée dans le précédent post avec comme critères de recherche le nom et le prénom de chaque personne.

J’ai obtenu 195 réponses:

  • 130 proposaient un seul identifiant,
  • 17 n’en proposaient aucun,
  • 48 en proposaient plusieurs

Une vérification visuelle dur les notices associées à ces identifiants a permis de constater que lorsqu’un seul identifiant est proposé, c’est généralement le bon:

  • 124 sont exacts: ils correspondent bien à la personne souhaitée
  • 6 sont erronés ou incertains (dans ce cas, la notice n’a pas permis de s’assurer qu’il s’agissait de la bonne personne)

Sur les 17 pour lesquels on ne trouve pas d’identifiants, pour au moins 8 d’entre eux, c’est normal: ce sont des personnes qui ne publient pas, par exemple parce qu’ils sont ingénieurs de recherche et que leur activité ne les conduit pas à publier. Les 9 autres devraient avoir un identifiant IDREF.

Pour les 48 où la recherche simple donne plusieurs possibilités, j’ai cherché dans les données de la notice des indices permettant de choisir un des ID proposés. En pratique, je cherche si dans les textes qui composent la notice je trouve soit le nom d’un des autres chercheurs de Télécom ParisTech, soit un des labels associés à Télécom ParisTech: ENST, Télécom Paris

Cela a permis de trouver 23 identifiants exacts supplémentaires.

Au final, si l’on considère la classe des chercheurs qui doivent avoir un identifiant, on a avec la méthode actuelle:

  • 147 identifiants exacts trouvés (124+23)
  • 178 identifiants trouvés (130+48)
  • 187 identifiants qui auraient dus être trouvés (130+48+9)

Ce qui donne

rappel = 147/187 = 79,46 %

précision = 147/178 = 82,58 %

Dans l’immédiat, je ne vais pas chercher à améliorer la méthode et me limiter à utiliser les identifiants qui ont pu être vérifiés. L’idée est d’affiner une méthode pour choisir parmi les identifiants multiples et donc de ne garder que ces identifiants uniques. En effet, sur les identifiants uniques, nous avons:

rappel = 124/187 = 67,02 %

précision = 124/130 = 95,38 %

Dans un second temps, donc, je vais tenter d’améliorer la précision d’une part en ne proposant que des ID quasi certains au prix d’une légère augmentation des éléments considérés comme ‘non trouvés’ lorsque aucun moyen n’aura permis de sélectionner un ID parmi les choix multiples. L’idée est d’utiliser avec confiance tous les ID trouvés.

Les pistes d’amélioration de la méthode sont:

  • utilisation de données externes où l’IDREF est présent (par exemple du côté de VIAF)
  • affiner l’utilisation des notices: ajouter des éléments à chercher, exploiter les titres de documents qui y figurent pour les chercher dans d’autres référentiels de publications scientifiques

Il va principalement s’agir de trouver une méthode qui permet une sélection parmi les choix multiples sans dégrader les résultats sur les autres résultats.

A propos Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes
Ce contenu a été publié dans Données publiques, Marquage sémantique, SemBib. Vous pouvez le mettre en favoris avec ce permalien.