Enrichir des documents pédagogiques grâce à DBPedia

15/08/2013 par Moissinac

Depuis plusieurs années, DBpedia donne une représentation formalisée des contenus de Wikipedia, donnant ainsi un accès manipulable par des algorithmes des données de Wikipedia. Le marquage sémantique d’éléments de contenus permet d’enrichir considérablement la recherche et l’exploitation de contenus.

Dans cette optique de marquage, après avoir exploité des marquages RDFa dans les pages Web, fin 2012, Google a introduit le knowledge graph pour les utilisateurs français. Au même moment, une initiative soutenue par le Ministère de la Culture et Wikimédia a annoncé un effort accru pour une branche française de DBpedia, nommée SemanticPedia.

Nous allons voir ici comment ces initiatives peuvent contribuer à l’enrichissement de ressources pédagogiques. Les résultats présentés ici sont des ébauches pour introduire l’idée.

Ressources pédagogiques

Nous allons prendre comme support de travail un extrait d’un livre scolaire produit par lelivrescolaire.fr, disponible en ligne ici. Il s’agit d’un livre d’histoire-géographie, correspondant au programme de 6ème en France en 2013.

La méthode proposée peut se décliner sur le programme d’histoire-géographie d’autres classes ou d’autres documents sur le même programme, mais aussi sur d’autres disciplines comme les sciences de la vie. L’adaptation à des disciplines comme le français ou les mathématiques demandera probablement plus de réflexion. Pour la géométrie, un important travail a déjà été fat par le projet GeoSkills.

Nous allons utiliser le langage SPARQL. Il s’agit d’un langage d’interrogation de données liées -Linked Data- publiées dans un triple store.

Données sur les lieux

L’idée de départ est de récupérer des données sur les lieux et les événements cités.

Pour les lieux, nous pouvons nous intéresser à leur localisation géographique exacte, afin de les localiser sur une carte, à leur appartenance administrative -ex: la Bourgogne est une région de France-, à quelques données factuelles comme le nombre d’habitants ou le type de production le plus significatif en ce lieu.

Nous allons commencer par la localisation géographique.

Web sémantique et données culturelles

Nous voyons que le livre d’histoire aborde les pyramides de Gizeh. Nous pouvons aisément trouver la page correspondante de dbpedia: Gizeh

Observons les différents champs disponibles sur cette page et proposons quelques utilisations. Le lien contient la chaîne ‘resource’ et pointe vers une représentation exploitable automatiquement. Ce lien exploité dans un navigateur renvoie vers une page HTML présentant les mêmes données sous forme d’une page web.

La propriété dbpedia-owl:wikiPageWikiLink permet de récupérer un ensemble de liens vers des pages de Wikipedia relatives à Gizeh. Nous pouvons présenter une partie de ces liens comme sources d’informations complémentaires. Il serait surement utile de filtrer un peu cette liste; ce besoin sera l’objet d’un prochaine billet: filtrage automatique ou humain? effectué au niveau de l’ontologie de programme ou collaborativement par les enseignants?…

Les propriétés prop-fr:latitude et prop-fr:longitude nous donnent la position géographique. Cela peut aisément nous permettre de proposer des compléments grâce à une recherche par la position. Le complément le plus évident est l’affichage d’une carte, par exemple avec l’API de Google Maps.

Ce qui serait intéressant, par exemple, c’est trouver où il y d’autres pyramides afin de situer ce type d’architecture dans le temps et dans l’espace.

Que faire pour y arriver?

http://fr.dbpedia.org/page/Pyramides_d’%C3%89gypte

Dans cette page, on trouve des liens vers différentes pyramides, mais au milieu d’autres liens dans la propriété

dbpedia-owl:wikiPageWikiLink

qui prend par exemple la valeur

dbpedia-fr:Sékhemkhet

http://fr.wikipedia.org/wiki/Localisation_des_pyramides_%C3%A9gyptiennes

Nous voyons là qu’il y a des ressourceson peut imaginer une interface qui propose ces ressources et permet à un humain de faire une sélection. il est probablement beaucoup plus difficile de concevoir un processus automatique qui sélectionne de façon pertinente des ressources qui répondent à une attente précise.

Que faire encore?

Nous avons supposé qu’un lien était proposé entre le contenu d’une partie du livre et l’Egypte antique. Un scénario simple est celui où un utilisateur humain établi ce lien. Nous aborderons dans un prochain billet la question d’identifier dans le livre d’histoire les mots qui constituent probablement des références à des lieux, afin d’automatiser la recherche complémentaire de données sur ces lieux tel que nous venons de la voir.

[source d’image : http://semhpst.hypotheses.org/17 ]

Auteur : Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes