Quelques requêtes SPARQL sur DBPedia

Je propose ici quelques requêtes SPARQL qui ont servis à alimenter la réflexion qui aboutit à l’article, testées sur le point d’accès français (http://fr.dbpedia.org/sparql)

https://onsem.wp.imt.fr/2015/05/15/creer-des-connaissances-formalisees-pour-le-web-semantique-a-partir-de-dbpedia/

L’idée est de s’en resservir pour d’autres types d’éléments ou pour compléter des données dans des interfaces utilisateurs (mais ce point sera développé plus tard).

select ?p (count(?p) as ?pTotal) where {
?s dbpedia-owl:type dbpedia-fr:Synagogue .
?s ?p ?o1
} 
GROUP BY ?p
ORDER BY DESC(?pTotal)
LIMIT 200

Le résultat est visible ici.

permet de voir les 200 prédicats les plus utilisés avec des objets de type Synagogue.

Et

select count(?s) where {
?s dbpedia-owl:type dbpedia-fr:Synagogue .
} 

nous donne le nombre d’éléments de type Synagogue: 58

Ce qu’on peut cumuler, pour faire ressortir les pourcentage d’éléments qui ont certains prédicats:

select ?p (count(?p) as ?pTotal) (count(?p)*100/?sTotal as ?percent) where {
{
select ?p where {
?s dbpedia-owl:type dbpedia-fr:Synagogue .
?s ?p ?o1
}
} .
{
select (count(?s1) as ?sTotal) where {
?s1 dbpedia-owl:type dbpedia-fr:Synagogue .
} 
}
} 
GROUP BY ?p ?sTotal
ORDER BY DESC(?percent)
LIMIT 200

Le résultat est visible ici.

De façon analogue, pour les 676 éléments de type Abbaye, nous aurons:

select ?p (count(?p) as ?pTotal) (count(?p)*100/?sTotal as ?percent) where {
{
select ?p where {
?s dbpedia-owl:type dbpedia-fr:Abbaye .
?s ?p ?o1
}
} .
{
select (count(?s1) as ?sTotal) where {
?s1 dbpedia-owl:type dbpedia-fr:Abbaye .
} 
}
} 
GROUP BY ?p ?sTotal
ORDER BY DESC(?percent)
LIMIT 200

Le résultat est visible ici.

Et pour obtenir les prédicats partagés par les Synagogues et les Abbayes:

select distinct ?p  where {
{ 
select distinct ?p where
{
?s1 dbpedia-owl:type dbpedia-fr:Abbaye .
?s1 ?p ?o1 .
} 
}.
{
select distinct ?p where
{
?s2 dbpedia-owl:type dbpedia-fr:Synagogue .
?s2 ?p ?o2 .
}
}
} 
LIMIT 200

Le résultat est visible ici

Analyse

Dans les résultats obtenus, on a, pour chaque catégorie, une trentaine de prédicats qui apparaissent plus de 80 fois pour 100 éléments. Les prédicats suivants -à l’exception de prop-fr:finConst- ont une représentation de 65% ou moins.

On rencontre un ensemble de prédicats très généraux, qui doivent s’appliquer à la plupart des éléments de DBPedia:

(les préfixes usuels sont utilisés)

dbpedia-owl:wikiPageWikiLink, prop-fr:wikiPageUsesTemplate,

rdf:type, dcterms:subject, rdfs:label, rdfs:comment, dbpedia-owl:abstract,

dbpedia-owl:wikiPageExternalLink, owl:sameAs, prop-fr:type, dbpedia-owl:type, dbpedia, owl:wikiPageID, dbpedia-owl:wikiPageRevisionID,

foaf:isPrimaryTopicOf, foaf:name, foaf:depiction

http://fr.dbpedia.org/stats/degree, http://fr.dbpedia.org/stats/inDegree, http://fr.dbpedia.org/stats/outDegree, http://www.w3.org/ns/prov#wasDerivedFrom

Quelques prédicats liés au fait qu’il s’agisse d’un lieu (et donc de quelque chose qui se voit):

geo:lat, geo:long, georss:point, prop-fr:longitude, prop-fr:latitude, prop-fr:ville, dbpedia-owl:city, prop-fr:géolocalisation, dbpedia-owl:thumbnail, prop-fr:région, prop-fr:photo,

foaf:depiction, dbpedia-owl:region

Et enfin quelques propriétés directement liées au fait qu’il s’agisse d’un monument religieux:

prop-fr:nommonument, prop-fr:culte, dbpedia-owl:religiousOrder

Il y a une vingtaine de propriétés supplémentaires avec un représentativité supérieure à 20%.

La plupart des prédicats sont partagés par ces deux types de monuments. C’est donc plutôt les valeurs associées à ces deux types de monuments qui peuvent les différencier. Ces prédicats partagés peuvent être vus comme un ensemble de propriétés décrivant des édifices religieux dans DBPedia.

On notera cependant qu’il y a très peu de prédicats spécifiques de ces deux types de monuments…

Articles liés:

[wl_chord]

[wl_navigator]

[wl_faceted_search]

A propos Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes
Ce contenu a été publié dans Cultural data, DBPedia, SPARQL. Vous pouvez le mettre en favoris avec ce permalien.