ILOT – Sémantique et éducation

Production d’un vocabulaire partagé

Modèle de l’entrepôt des vocabulaires dans notre système

 

Nous menons des réflexions et produisons des résultats pour la représentation sémantique et l’exploitation de documents dans deux domaines: les documents en rapport avec le système scolaire français et des documents du domaine juridique, pour l’instant centrés sur le droit des données personnelles.

Il nous est d’abord apparu que des références à des lieux, à des personnes, à des œuvres, à des théorèmes constituaient des marqueurs de sens dans de nombreux documents. Pour des ensembles de documents dans le domaine culturel, nous avons eu aussi accès à des descriptions accompagnées par de nombreux tags, mots-clés et marqueurs.

Les premières versions des ontologies des programmes d’histoire géographie avaient introduit des mots-clés (Keyword) et des connaissances élémentaires (Knowledge) auxquels pouvaient faire référence diverses parties du programme. Pour l’histoire de 6ème, on trouvait par exemple dans la classe Keyword, les individus keyword_aeneid, de label ‘Enéide’, keyword_constantinople, de label ‘Constantinople’. L’idée était ensuite de relier ces mots ou petits groupes de mots à des concepts extérieurs qui enrichiraient les connaissances reliées à notre programme et de typer ces mots, par exemple avec une recherche des entités nommées dans DBPedia Spotlight qui nous donnerait un type, une catégorie, pour certains mots, comme savoir qu’un mot correspond à un lieu ou à une personne. De plus, cette approche nous donne des liens directs, des URIs vers des concepts de DBPedia.

A ce niveau de la réflexion, il apparaît nécessaire de sortir ces connaissances des ontologies de programme proprement dites pour les regrouper dans un grand entrepôts de concepts qui nous sont utiles, qui pouraient être partagés par plusieurs de nos ontologies, servir de socle commun pour établir des liens entre elles. En fait, chaque ‘mot’ utile dans une ontologie, au lieu d’être directement introduit dans l’ontologie en question, serait référencé par son URI dans l' »entrepôt » commun. Pour cela, pour chaque ‘mot’ utile dans l’ontologie, s’il existe dans le ‘vocabulaire’ où nous regroupons les mots, on récupère et on utilise son URI; s’il n’existe pas, on le crée dans l’entrepôt et on se ramène au cas précédent.

Cette approche nous permet d’enrichir progressivement l' »entrepôt », d’y appliquer des démarches d’enrichissement spécifique, dont bénéficierons indirectement toutes les ontologies qui y font référence. Par exemple, nous chercherons à créer des liens entre les éléments de l' »entrepôt » ou de ces éléments vers l’extérieur (DBPedia, Geonames, …).

Cette approche permet une élaboration progressive d’un grand jeu de connaissances. Pour cela, il nous faut définir la structure de base de l' »entrepôt ».

Il nous semble que SKOS est un bon candidat pour définir un ensemble d’objets de base que nous allons manipuler.

La démarche est validée sur nos ontologies des programmes d’histoire et de géographie de 6e et 5e, lié aux fiches pédagogiques proposées par le Ministère de la Culture que nous avons ‘sémantisées’. Nous l’étendons peu à peu à d’autres ensembles de données: source de l’INRAP (Institut national de recherches archéologiques préventives), du centre Georges Pompidou…(Vous pouvez consulter notre sélection des données sur la plateforme data.gov.fr ici )

Ainsi, peu à peu, vont se construire des liens qui permettent de faire émerger l’approche proposée dans notre article Histoire des Arts en tant que discipline « Connectiviste » et, au delà de l’histoire des Arts, des liens entre matières et vers l’extérieur.

Auteur : Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes

Commentaires Clos.