Nous avons entrepris de publier les ontologies de programmes scolaires français sur lesquelles nous travaillons. Bien que ces ontologies doivent connaitre dans les prochains mois des évolutions significatives, nous pensons que les versions actuelles, considérées comme des versions ‘beta’, permettront des échanges fructueux. Si certains lecteurs envisagent d’en faire un usage important, nous leur suggérons de rentrer en contact avec nous, pour trouver les moyens d’éviter d’arriver à une impasse du fait des évolutions futures dans notre travail. Nous ferons d’importants efforts pour assurer la compatibilité la plus complète entre les versions succéssives de nos ontologies.
Nous ne décrirons pas ici la structure de ces ontologies, mais plutot la façon dont nous les avons publiées dans le respect d’un ensemble de bonnes pratiques.
Des règles ont été initialement proposées par Tim Berners-Lee. Elles ont, depuis, été complétées. Les règles qui nous ont servi pour la publication de notre ensemble de données sont les suivantes, par ordre d’importance décroissante:
- les données sont librement accessibles sur le web,
- elles sont dans un format ouvert ‘compréhensible’ par des machines
- elles respectent le modèle RDF
- elles présentent des liens avec d’autres ensembles de données
- elles sont déréférençables (voir plus loin) et auto-descriptives
Nous allons commenter ces règles point par point.
Règle 1 les données sont librement accessibles sur le web
Nos ontologies et ensembles de données sont accessibles depuis la page
Nous avons choisi de les rendre publiques sous licence Creative Commons Attribution-Non commercial. Pour faire simple, pour un usage non commercial, la réutilisation de ce qui est publié là est libre, pourvu que nous soyons cités.
Afin de promouvoir ces données pour favoriser leur utilisation et leur amélioration, nous avons indiqué leur existance sur datahub.io. Par exemple, l’ontologie du système scolaire français est signalée ici:
http://datahub.io/dataset/french-school-system
Nous les publions progressivement aussi sur data.gouv.fr; voir les jeux de données que nous publions via notre profil:
https://id.data.gouv.fr/u/ilot-project/
à cette adresse:
De plus, afin de faciliter des interrogations SPARQL sur nos ensembles de données, nous avons mis en oeuvre un ‘triple store’, basé sur un serveur Virtuoso accessible à l’adresse suivante:
http://shadok.enst.fr:8890/sparql
Chaque ontologie publiée est chargée dans un graphe séparé qui est désigné par l’URI de base de l’ontologie. Par exemple, l’ontologie du système scolaire français est contenue dans le graphe
http://givingsense.eu/frscol/FrSchoolSystem/
Règle 2 Les données sont dans un format ouvert ‘compréhensible’ par des machines
Jusqu’à présent, nos réalisations sont toutes dans des formats ouverts structurés, compréhensibles par des machines. Les ontologies que nous publions ont été crées au format RDF/XML. Dans certain cas, des versions complémentaires en JSON ont été générées à partir de la version RDF/XML.
Les ontologies utilisent la norme OWL 2.
Règle 3 Les données respectent le modèle RDF
Voir le commentaire de la règle 2: nous utilisons OWL en format RDF/XMl et donc, nous suivons le modèle RDF.
Règle 4 Les données présentent des liens avec d’autres ensembles de données
Nos jeux de données ont des liens entre eux et avec des jeux de données disponibles sur le web.
Nous avons produit des ontologies de base: une pour le système scolaire français, une décrivant les concepts généraux permettant de décrire un programme scolaire (TBOX) et une, proche d’une taxonomie, décrivant un ensemble de compétences suivant le modèle de Bloom. L’ontologie générique de programme scolaire incorpore les deux autres.
Ensuite, chaque ontologie décrivant une partie du programme d’une matière contient des ‘individus’ de chaque classe/concept définis dans les précédentes ontologies et qui constituent la description sémantique détaillée du programme (ABOX).
Nous avons également produit un gros fichier RDF contenant la description d’un ensemble de concepts de base -proches d’un ensemble de mots-clés- auwquels des portions de programm font référence.
Une ontologie spécifique décrit le programme d’Histoire des Arts. Comme l’Histoire des Arts n’a pas d’horaire propre, mais doit être étudiée à l’occasion de travaux dans chacune des autres matières, des liens existent entre ce programme et les autres programmes.
Voilà pour les liens internes.
Enfin, nous enrichissons progressivement nos descriptions par des liens vers d’autres ensembles de données. Citons parmi les cibles que nous avons identifiées ou utilisées: DBpedia, Europeana, BNF, Getty (voir aussi http://onsem.wp.imt.fr/2014/07/09/quelques-points-dacces-sparql-francais/).
Règle 5 Les donnéess sont déréférençables et auto-descriptives
Le W3C a publié des documents qui suggèrent des méthodes de publication de données liées. Le plus ancien, qui a servi de base à notre travail, est Cool URIs for the Semantic Web. Le plus récent est Best Practices for Publishing Linked Data.
Nous allons décrire comment nous avons procédé pour respecter les principes énoncés.
Les données publiées sont accessibles individuellement via une URI qui les désigne de façon non ambigües. Un utilisateur qui tape une de ces URIs dans un navigateur doit obtenir une représentation de la donnée correspondante dans une page web (sa requête demande implicitement du html). Deux modèles sont proposé -à mon avis, pas forcément exclusifs l’un de l’autre- un qui désigne une donnée spécifique parmi un ensemble en désignant l’ensemble suivi d’un #, suivi d’un identificateur unique de la donnée souhaitée; l’autre modèle utilise le / au lieu du # (nous ne décrirons pas ici les spécificités de ces deux approches).
Nous avons choisi le modèle du /.
Des règles de ré-écriture d’URL, internes à notre serveur, donnent les résultats décrits ci-après.
Ainsi, par exemple, pour l’ontologie du système scolaire français, nous avons l’URI de base suivante:
http://givingsense.eu/frscol/FrSchoolSystem/
provoque l’affichage d’une description de l’ensemble de cette ontologie. Actuellement, cette documentation de l’ontologie est générée à partir de l’ontologie elle-même par l’outil disponible sur le site:
http://www.essepuntato.it/lode
Un des concepts utilisé dans cette ontologie est le ‘parcours pédagogique’ désigné par l’identificateur EducationalPathway, accessible donc par l’URI:
http://givingsense.eu/frscol/FrSchoolSystem/EducationalPathway
L’ensemble des ontologies est accessible suivant ce principe.
Lorsque ce n’est pas un utilisateur qui utilise ces mêmes URIs, mais un logiciel qui cherche à exploiter la représentation sémantique sous-jacente, par exemple avec une interrogation en SPARQL, la requête demande un contenu application/rdf+xml et la mécanique que nous avons mis en place renvoie directement l’ontologie au format RDF/XML.
L’ensemble des données est accessible ici
et sera progressivement enrichi.