Cet article est le deuxième d’une série qui a commencée sur un autre blog par l’article
L’idée est de voir comment étendre les connaissances représentées dans DBPedia en exploitant des connaissances implicitement présentes dans DBPedia lui-même.
Transposition directe d’une requête précédente dans le même domaine
Par exemple, une légère transposition de la requête finale de l’article précédent donne, en changeant Edifice-type par Etablissement_religieux
SELECT ?s ?o (COUNT(?o) AS ?oTotal)
WHERE
{
?s ?p <http://fr.dbpedia.org/resource/Catégorie:Établissement_religieux> .
?s2 <http://dbpedia.org/ontology/type> ?s .
?s2 <http://dbpedia.org/ontology/wikiPageWikiLink> ?o .
?s3 <http://fr.dbpedia.org/property/religion> ?o
}
GROUP BY ?s ?o
ORDER BY DESC(?oTotal)
LIMIT 100
et cela nous fournit une association pertinente entre des élément Etablissements_religieux et une religion.
Partant de cela, j’ai cherché à étendre et généraliser la méthode.
Sur les conseils de Fabian Suchanek, avec Luis Galárraga et Danai Symeonidou, nous avons utilisé l’outil AMIE pour chercher à produire des connaissances nouvelles à partir des descriptions de personnes, de lieux et d’organisations présents dans DBPedia 3.8.
Sur ce jeu de données, nous avons constaté que 81% des wikilinks n’étaient pas ‘sémantifiés’, c’est-à-dire qu’ils ne sont accompagnés d’aucun prédicat précisant le nature du lien entre deux éléments: tout ce qu’on sait, c’est que ces éléments ont un lien.
La méthode mise en oeuvre permet de trouver des règles de sémantification par une analyse statistique du jeu de données. Par exemple, si les édifices religieux sont souvent associés à une religion par un prédicat qui indique la ‘religion pratiquée’ dans l’édifice, alors AMIE permet d’établir une règle qui va permettre de qualifier un lien
<édifice religieux A> a un lien avec <religion X>
entraine qu’on suppose
<édifice religieux A> est un lieu de pratique de <religion X>
avec un certain degré de confiance qui est fournit.
La méthode détaillée est décrite dans l’article référencé ci-dessous. Elle nous a permis de ‘sémantifier’ 181000 liens avec une précision comprise entre 67 et 87%. La suite du travail va consister à trouver comment améliorer cette précision et exploiter les ‘connaissances’ ainsi révélées.
Ce travail a donné lieu à l’article
http://events.linkeddata.org/ldow2015/papers/ldow2015_paper_02.pdf
qui sera présenté par Luis la semaine prochaine au workshop LDOW 2015 de la conférence WWW 2015.
Ping : Quelques requêtes SPARQL sur DBPedia | Objets Numériques et Sémantique
Ping : Nouveaux développements sur la recherche d’informations cachées dans DBPedia | ILOT - Sémantique et éducation
Ping : Une exploration de dbpedia au sujet des monuments, avec l’aide de sparql | ILOT - Sémantique et éducation