Cet article fait suite à https://onsem.wp.imt.fr/2016/04/20/co-auteurs-des-publications-dune-institution-scientifique-telecom-paristech/.
Dans cet article, nous visualisions les liens entre chercheurs matérialisés par des publications scientifiques communes.
J’utilise les données obtenues de la base bibliographique de Telecom ParisTech.
Mon idée est de tirer des informations utiles -j’espère- de cet ensemble de données. Dans ce billet, je fais le point sur les données de base disponibles.
Sur 5 ans, les données extraites montrent que:
- 3796 publications sont recencées dans la base, 3161 en anglais, 632 en français, 1 en italien et 2 en espagnol
- 1313 sont associées à une url d’accès en ligne au document
- 1067 ont des mots-clés associés, dont 885 en anglais et 182 en français
- 608 ont un DOI associé, avec des formes très variées (avec ou sans préfixe doi, url,…)
Ces urls associées sont de diverses natures:
- 419 pointent directement sur un document téléchargeable sans difficulté, presque tous au format pdf (418/419)
- 52 pointent vers une page du site d’archivage arxiv; le document est accessible par un lien contenu dans cette page, mais arxiv bloque les robots et la récupération de l’article ne peut donc pas être aisément automatisée
- 5 pointent vers ACM Digital Library, archive payante de l’ACM
- 52 pointent vers IEEE XPlore, archive payante de l’IEEE
On voit qu’une analyse des mots-clés disponibles ne porterait que sur 1/4 des publications, ce qui constituerait un biais majeur, en particulier si renseigner les mots-clés rélève de façon répétitive des mêmes auteurs. Cette analyse constitue malgré tout une connaissance. Nous allons mettre en place les outils pour automatiser sa réalisation afin de la refaire périodiquement.
En conclusion, nous pouvons observer que la base bibliographique de Télécom ParisTech est une référence pour connaitre nos publications, mais qu’elle est insuffisante pour une analyse approfondie du contenu de ces publications.
[wl_cloud]