Créer des connaissances formalisées pour le Web Sémantique à partir de DBPedia

Cet article est le deuxième d’une série qui a commencée sur un autre blog par l’article

https://ilot.wp.imt.fr/2014/11/26/une-exploration-de-dbpedia-au-sujet-des-monuments-avec-laide-de-sparql/

L’idée est de voir comment étendre les connaissances représentées dans DBPedia en exploitant des connaissances implicitement présentes dans DBPedia lui-même.

Transposition directe d’une requête précédente dans le même domaine

Par exemple, une légère transposition de la requête finale de l’article précédent donne, en changeant Edifice-type par Etablissement_religieux

SELECT ?s ?o (COUNT(?o) AS ?oTotal)
WHERE
{ 
?s ?p <http://fr.dbpedia.org/resource/Catégorie:Établissement_religieux>  .
?s2 <http://dbpedia.org/ontology/type> ?s .
?s2 <http://dbpedia.org/ontology/wikiPageWikiLink> ?o .
?s3 <http://fr.dbpedia.org/property/religion> ?o  
}
GROUP BY ?s ?o
ORDER BY DESC(?oTotal)
LIMIT 100

et cela nous fournit une association pertinente entre des élément Etablissements_religieux et une religion.

Partant de cela, j’ai cherché à étendre et généraliser la méthode.

Sur les conseils de Fabian Suchanek, avec Luis Galárraga et Danai Symeonidou, nous avons utilisé l’outil AMIE  pour chercher à produire des connaissances nouvelles à partir des descriptions de personnes, de lieux et d’organisations présents dans DBPedia 3.8.

Sur ce jeu de données, nous avons constaté que 81% des wikilinks n’étaient pas ‘sémantifiés’, c’est-à-dire qu’ils ne sont accompagnés d’aucun prédicat précisant le nature du lien entre deux éléments: tout ce qu’on sait, c’est que ces éléments ont un lien.

La méthode mise en oeuvre permet de trouver des règles de sémantification par une analyse statistique du jeu de données. Par exemple, si les édifices religieux sont souvent associés à une religion par un prédicat qui indique la ‘religion pratiquée’ dans l’édifice, alors AMIE permet d’établir une règle qui va permettre de qualifier un lien

<édifice religieux A> a un lien avec <religion X>

entraine qu’on suppose

<édifice religieux A> est un lieu de pratique de <religion X>

avec un certain degré de confiance qui est fournit.

 

La méthode détaillée est décrite dans l’article référencé ci-dessous. Elle nous a permis de ‘sémantifier’ 181000 liens avec une précision comprise entre 67 et 87%. La suite du travail va consister à trouver comment améliorer cette précision et exploiter les ‘connaissances’ ainsi révélées.

Ce travail a donné lieu à l’article

http://events.linkeddata.org/ldow2015/papers/ldow2015_paper_02.pdf

qui sera présenté par Luis la semaine prochaine au workshop LDOW 2015 de la conférence WWW 2015.

A propos Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes
Ce contenu a été publié dans DBPedia, SPARQL. Vous pouvez le mettre en favoris avec ce permalien.