ILOT – Sémantique et éducation

Publication de références culturelles dans un triple-store

Le gouvernement a publié des références culturelles et artistiques pouvant servir dans l’enseignement. Pour chaque référence proposée, une fiche a été établie qui contient différents renseignements  à son sujet, notamment la ville éventuellement concernée par la référence, le nom de l’artiste, le titre et la nature de l’oeuvre, ainsi que des tags et mots-clefs, des références aux étapes du programme scolaire qui peuvent être concernées par l’oeuvre.

Ces données sont disponibles ici:

http://www.data.gouv.fr/DataSet/30382368?xtmc=D%C3%A9partement%20des%20programmes%20num%C3%A9riques&xtcr=5

sous forme d’un fichier CSV.

(on verra avec intérêt un ensemble de ressources similaires publiées suivant les principes de l’Open Data ici http://www.data.gouv.fr/fr/dataset/les-grands-reperes-chronologiques-par-domaine-artistique)

Nous avons procédé à divers traitements pour améliorer l’utilisabilité automatique de ces données. Le fichier CSV a été transformé en XML après avoir séparé les mots-clefs, séparé les tags et procédé à quelques autres améliorations sur la structure des données. Ces traitements ont largement été automatisés, notamment grâce à des feuilles de styles XSLT.

Ensuite, grâce à l’outil de publication de données Datalift, autilisé localement sur une de nos machines, nous avons transformé le fichier XML en RDF.

Enfin, grâce à l’outil ARC (http://arc.semsol.org/), nous avons publié les données dans un Triple Store, accessible pour l’instant uniquement via un Sparql Endpoint à l’adresse suivante:

http://givingsense.eu/arcstore/arc2-master/ilot-tests/refCultureSparqlRq.php

Cela permet par exemple de faire la requête suivante:

SELECT ?p (COUNT(?p) AS ?pTotal) WHERE {
?s ?p ?o
}
GROUP BY ?p

 

Cette requête nous donne un bon aperçu du jeux de données sur lequel nous travaillons:

  • 4776 fiches (row, en fait, lignes dans le tableur d’origine)
  • à presque chaque ligne est associée un titre, une url, une description, un format,  un domaine,
  • 4034 peuvent être associées à une des séquences d’enseignement du primaire
  • 4279 peuvent être associées à une des séquences d’enseignements du collège
  • 3704 peuvent être associées à une des séquences d’enseignements du lycée
  • 504 -seulement- sont associées à une ville
  • 61125 tags ont servis à décrire ces références.

A ce niveau de mon exploration, je me demande que sont les ‘domaines’ renseignés dans les fiches.

La requête suivante (qui ressemble beaucoup à la précédente) va  nous renseigner:

PREFIX rfha: <http://givingsense.eu/onto/refCulture/refHistArts.rdf#>
SELECT ?v (COUNT(?v) AS ?vTotal) WHERE {
?s rfha:domaine ?v
}
GROUP BY ?v

Elle donne le résultat suivant:

v vTotal
Arts du visuel 2941
Arts de l espace 961
Arts du langage 629
Arts du quotidien 770
Arts du son 388
Arts du spectacle vivant 499

 

On voit que plus de 2000 références concernent les Arts du visuel.

En fait, on retrouve ces domaines dans le programme d’Histoire de l’Art et probablement dans le programme d’histoire. Nous verrons dans un prochain billet comment ces liens peuvent permettre d’explorer les références lorsqu’on travaille sur une partie d’un programme et, aussi, d’aller chercher des références similaires dans des ressources telles que DBPedia, Europeana ou les données publiées par le Centre Pompidou.

Pour finir, voilà une requête un peu plus élaborée:

PREFIX rfha: <http://givingsense.eu/onto/refCulture/refHistArts.rdf#>
SELECT ?fiche ?titre ?url WHERE { 
    ?fiche rfha:tags ?s . 
    ?s  rfha:tag "Normandie" . 
    ?s  rfha:tag "Peinture" . 
    ?fiche rfha:titre ?titre . 
    ?fiche rfha:url ?url 
} LIMIT 20

 

Nous retenons les fiches qui ont des tags et parmi ces tags nous voulons qu’il y ait « Peinture » et « Normandie ». Dans les fiches ainsi sélectionnées, nous récupérons le titre et l’url associée à l’oeuvre.

qui nous donne le résultat:

fiche titre url
rfha:row_6 Bonnard en Normandie http://www.mdig.fr/IMG/pdf/dossierpedagogique_Bonnard_bd.pdf
rfha:row_1511 Villégiature et bains de mer (dossier en deux parties) http://www.musees-haute-normandie.fr/IMG/pdf/Villegiature.pdf
rfha:row_1515 Joseph Flouest http://www.musees-haute-normandie.fr/IMG/pdf/A4_Flouest_BD.pdf
rfha:row_1517 Histoire du port de Dieppe (dossier en deux parties) http://www.musees-haute-normandie.fr/IMG/pdf/Histoire_port.pdf
rfha:row_3129 Dufy et la représentation de la rue http://www.histoire-image.org/site/etude_comp/etude_comp_detail.php?i=844&d=61&t=331

Cela nous laisse entrevoir les multiples possibilités qui peuvent être offertes, par exemple à un enseignant, pour explorer les ressources à sa disposition. Bien sûr, cela suppose un travail sur l’interface, mais les travaux dans le domaine de la recherche par facette nous donnent des pistes…

Note additionelle du 6/7/2014

L’article https://onsem.wp.imt.fr/2014/07/06/exemple-dexploitation-de-requete-sparql-distribuee-federated-query/ donne un exemple d’utilisation de ce jeu de données.

 

Auteur : Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes