Thésaurii et ontologies (similitudes, différences et conversion)

Posted in Expériences de conversion on janvier 29, 2008 by projetdefi

Similitudes entre un thésaurus et une ontologie

  • décrivent un domaine
  • contiennent des termes et les relations parmi ces termes,
  • se servent des hiérarchies
  • utilisées par des humains dans des applications de gestion de l’information pour cataloguer et rechercher l’information,
  • nécessitent un maintien et une mise à jour continuelle.

      Différences

      • thesaurii : nombre limité de relations possibles
      • Ambiguïtés entre termes homonymes (ajout d’un terme restrictif) ex.: tiredness (physiology) et tiredness (physics)
      • ontologies : plus de relations possibles que dans un thésaurus.

      Méthodologie de conversion (selon Soergel)

      1. Analyse du thésaurus existant et définition de la structure de l’ontologie
      • désambiguïser les relations : Ex.: TG et TS (thésaurus) correspondent à la relation IS A(ontologie)
      • élaboration de cartes de thèmes (mapping)
      • décider sur le format d’ontologie :
      • KOS (moins stricte)
      • SKOS (moins stricte)
      • OWL (sémantique stricte)
      • XTM
      • Zthes XML Schema

      2. Alimenter l’ontologie avec les termes (valeurs) du thésaurus

      3. Editer manuellement avec un éditeur d’ontologies (par ex. : Protégé)

      • rendre l’information existante plus précise
      • ajouter de nouvelles informations

      Expériences de conversion :

      FAO : Organisation des Nations Unis pour l’alimentation et l’agriculture

      L’objectif de ce projet open source de conversion du thésaurus d’agriculture en ontologie est d’élaborer une plateforme multilingue de concepts dans le domaine agricole. Pour cela, le langage OWL a été choisi pour représenter le modèle d’ontologie. Avec la conversion, les termes ne seront plus arrangés dans une hiérarchie. Chaque terme devient une entité séparée (par langue(s)) , qui peut être liée à des concepts ou à d’autres termes. Le groupe de projet a développé le modèle OWL, sans l’avoir encore alimenté avec des contenus.

      European Centre for Ontological Research, Universität des Saarlandes, Allemagne

      Ce projet avait pour but d’évaluer si le thésaurus bio-médical ‘NCI’ (version en-ligne) était conforme aux principes d’une ontologie. Il existait déjà une représentation du thésaurus en ontologie (langage OWL). Le groupe projet a trouvé des erreurs et des contradictions en ce qui concerne les principes de création des termes et de la représentation de la connaissance ainsi que des définitions verbales et formelles incorrectement attribuées.

      Mark van Assem, Maarten R. Menken, Guus Schreiber, Jan Wielemaker, Bob Wielinga

      Cet article décrit une méthode pour convertir les thesaurii existants en RDF et OWL. La méthode identifie quatre étapes dans le processus de conversion. Dans chaque étape, des décisions doivent être prises concernant la syntaxe ou la sémantique de la représentation résultante. Chaque étape est soutenue par un certain nombre de directives. La méthode est illustrée par des conversions de deux grands thesaurii : MeSH et WordNet.

      Chang Chun and Lu Wenlin, Scientech Documentation and Information Center (SDIC), Beijing, Chine

      Le projet propose une méthodologie pour convertir un sous-ensemble de termes et de relations d’un thésaurus agricole d’une base de données vers RDF avec l’outil KAON.

      Mona

      Ontologies

      Posted in Ontologies with tags , , , on janvier 28, 2008 by projetdefi

      Le mot ontologie (du grec ontos « être » + logos « langage, raison ») possède plusieurs significations :

      – En philosophie, l’ontologie est une branche de la métaphysique.

      – En médecine, l’ontologie s’intéresse à la genèse des maladies.

      En informatique, une ontologie est un système de représentation des connaissances, qui désigne un ensemble d’outils et de technologies destinés d’une part à représenter et d’autre part à organiser le savoir humain pour l’utiliser et le partager. Ces outils sont :

      Des outils classiques de représentation des connaissances qui sont les taxonomies ou classifications, c-à-d des systèmes hiérarchisés de classement qui permettent d’organiser les connaissances sur les objets du monde,

      et les thesaurus utilisés en indexation documentaire.

      Des outils plus formels pour de représenter des connaissances complexes sont par exemple les graphes conceptuels ou les réseaux sémantiques.

      Dans le domaine des nouvelles technologies, la représentation formelle des connaissances s’est développée dans le domaine de l’intelligence artificielle, c’est la possibilité de concevoir une machine intelligente.

      Dans une représentation formelle, les connaissances sont représentées par des objets logiques reliés par des propriétés, axiomes et règles. Ce type de représentation est utilisé dans les systèmes experts comme outil d’aide à la décision.

      Dans ce contexte, il est difficile de donner une définition définitive de ce qu’est une ontologie.

      Si l’ontologie est l’étude de ce qui est, le résultat de cette étude sur un domaine s’appelle une ontologie du domaine.

      Nous sommes passés de la science (l’Ontologie) à un objet (une ontologie).

      L’ontologie touche différents domaines comme la linguistique ou l’intelligence artificielle, même si à la base son origine est philosophique, une ontologie est

      – une modélisation conceptuelle ou

      – une représentation de cette modélisation.

      Dans ces deux cas, on parle

      d’ontologie comme conceptualisation, ici l’ontologie est synonyme de modèle conceptuel et

      d’ontologie formelle pour désigner la rigueur de la modélisation, de la représentation de cette conceptualisation.

      Enfin, on distingue différents types d’ontologies selon le domaine modélisé.

      Une ontologie est une modélisation d’un ensemble de connaissances dans un domaine donné.

      En résumé, les ontologies sont utilisées dans les domaines de

      l’intelligence artificielle, le Web sémantique, le génie logiciel, l’informatique biomédicale, et l’architecture de l’information.

      Les ontologies décrivent généralement :

      les Individus (objets de base)

      les Classes (ensembles, collections, ou types d’objets)

      les Attributs (propriétés, fonctionnalités, caractéristiques ou paramètres que les objets peuvent posséder ou partager)

      les Relations (liens que les objets peuvent avoir entre eux)

      les Evénements (changements subis par les attributs ou des relations)

      Les critères d’évaluation d’une ontologie

      D’après Gruber, 5 critères permettent de mettre en évidence des aspects importants d’une ontologie :

      La clarté : La définition d’un concept doit faire passer le sens voulu du terme, de manière aussi objective que possible (indépendante du contexte). Une définition doit de plus être complète (c’est-à-dire définie par des conditions à la fois nécessaires et suffisantes) et documentée en langage naturel.

      La cohérence : Rien qui ne puisse être inféré de l’ontologie ne doit entrer en contradiction avec les définitions des concepts (y compris celles qui sont exprimées en langage naturel).

      L’extensibilité : Les extensions qui pourront être ajoutées à l’ontologie doivent être anticipées. Il doit être possible d’ajouter de nouveaux concepts sans avoir à toucher aux fondations de l’ontologie.

      Une déformation d’encodage minimale : Une déformation d’encodage a lieu lorsque la spécification influe la conceptualisation (un concept donné peut être plus simple à définir d’une certaine façon pour un langage d’ontologie donné, bien que cette définition ne corresponde pas exactement au sens initial). Ces déformations doivent être évitées autant que possible.

      Un engagement ontologique minimal : Le but d’une ontologie est de définir un vocabulaire pour décrire un domaine, si possible de manière complète ; ni plus, ni moins. Contrairement aux bases de connaissances par exemple, on n’attend pas d’une ontologie qu’elle soit en mesure de fournir systématiquement une réponse à une question arbitraire sur le domaine. Une ontologie est la théorie la plus faible couvrant un domaine ; elle ne définit que les termes nécessaires pour partager la connaissance liée à ce domaine.

      Les outils pour travailler avec les ontologies

      Le développement du Web, et en particulier le web sémantique qui a fait développer un certain nombre de langages,

      – SWOOP est un éditeur d’ontologie développé par l’Université du Maryland

      Contrairement à Protégé, il a été développé de façon native sur comme les standards RDF, et OWL du W3C, qu’il prend en charge dans leurs différentes syntaxes (pas seulement XML). C’est une application plus légère que Protégé, moins évoluée en terme d’interface, mais qui intègre aussi des outils de raisonnement..

      – Protégé est le plus connu et le plus utilisé des éditeurs d’ontologie. Open-source, développé par l’Université de Stanford, il a évolué depuis ses premières versions

      – SKOS

      – ou la norme ISO Topic Maps

      Références

      http://interstices.info/display.jsp?qs=id%3Djalios_5001&id=c_17672∂=0

      http://websemantique.org/Ontologie

      http://artist.inist.fr/article.php3?id_article=243

      http://www-sop.inria.fr/acacia/tia2007/atelier.html 

       

      Gisèle

      RDF & OWL (introduction)

      Posted in RDF & OWL on janvier 28, 2008 by projetdefi

      RDF et OWL :

      Le Web Sémantique :

      Selon la définition de Tim Berners- Lee, créateur du web, le projet du Web Sémantique consiste à introduire dans la Toile certaines « indications de sens » afin de faciliter la recherche de documents et leur traitement automatisé.

      Le Web sémantique, projet lancé en 1998 par Tim Berners-Lee (créateur des standards du W3C) a pour objectif d’améliorer nos rapports avec le Web en rendant justement l’information, qui y est contenue, utilisable par la machine.

      « Une extension du web actuel, visant à définir précisément l’information, afin d’aider les ordinateurs et les personnes à mieux coopérer » Tim Berners-Lee, mai 2001, revue Scientific American.

      Ambition du WS : définir et indexer l’information que contiennent les pages web.

      Objectif : transformer les moteurs de recherche en agents intelligents capables d’interpréter les requêtes et de rendre des services les plus variés.

      Le Web Sémantique dépend en grande partie de ses métadonnées.

      Les outils :

      Le format RDF (Resource Description Framework) :

      Permet d’introduire des métadonnées aux données contenues dans une ressource textuelle normalisée au format XML.

      Permet de définir des associations entre termes et concepts.

      Le format XHTML : format HTML normalisé en XML :

      Structuration logique des documents.

      Marqueurs sémantiques pour décrire les documents.

      Métadonnées :

      Le terme de « méta-données », principalement employé par les informaticiens, est utilisé pour désigner des données qui aident à la classification ou à la compréhension du document électronique. Par exemple, des mots clés définissant son contenu, le nom de l’auteur ou encore sa date de création.

      « Les méta-données sont utilisées par les machines comme par les hommes, et permettent des applications comme le classement automatique des documents, facilitant la recherche par la suite », Jean Delahousse, PDG de Mondeca, éditeur de logiciels spécialisé dans les technologies XML.

      Sur le plan technique, les métadonnées peuvent être contenues dans un fichier XML séparé, ou directement intégrées dans le document.

      Un cadre standard a ainsi été défini par le W3C et dénommé RDF (Resource Description Framework).

      RDF :

      RDF (Resource Description Framework) est un moyen d’encoder, échanger et réutiliser des métadonnées structurées. C’est un idiome XML développé par le W3C et ayant fait l’objet d’une Recommandation en 1999.

      RDF ne précise pas la sémantique des ressources décrites par les différentes communautés d’utilisateurs de métadonnées. À l’instar d’XML, RDF est un langage extensible, un métalangage; c’est un cadre [framework] de description des ressources applicable à n’importe quel domaine d’application.

      Le modèle RDF définit trois types d’objets :

      Des ressources : les ressources sont tous les objets décrits par RDF. Généralement, ces ressources peuvent être aussi bien des pages Web que tout objet ou personne du monde réel. Les ressources sont alors identifiées par leur URI (Uniform Resource Identifier) ;

      Des propriétés : une propriété est un attribut, un aspect, une caractéristique qui s’applique à une ressource. Il peut également s’agir d’une mise en relation avec une autre ressource ;

      Des valeurs : les valeurs en question sont les valeurs particulières que prennent les propriétés.

      Ces trois types d’objets peuvent être mis en relation par des assertions, c’est à dire des triplets (ressource, propriété, valeur), ou encore (sujet, prédicat, objet). Une description RDF est une suite d’assertions.

      Exemple1 :

      « Le chat mange la souri s ». Triplet (sujet=chat, objet=souris, prédicat=mange)

      EN RDF/XML :

      <rdf:Description rdf:about=« http://animal.org#chat »>

      <mange>

      <rdf:Description rdf:about=« http://animal.org#souris »>

      </mange>

      </rdf:description>

       

       

      Il est possible de représenter les descriptions RDF par des graphes :

       

       

       

       

       

      Dans un graphe RDF, on représente par des ellipses les ressources nommées (i.e. les objets qui possèdent des URI), et par des rectangles les littéraux (i.e. les constantes, qui ne possèdent pas d’URI).

      En résumé :

      -Le RDF peut être utilisé pour représenter tout objet, tant un site web qu’un individu.

      -Le RDF peut être traité par une machine.

      -Le RDF est composé de triplets : sujet/verbe/objet.

      -Le sujet est toujours identifié par un URI : mais dans certains cas, on peut omettre l’URI, un URI factice sera généré dynamiquement.

      -Le verbe est toujours identifié par un URI, sans aucune exception.

      -L’objet est soit un URI, soit une valeur explicite (Exemple : une chaîne de caractères).

      -Le RDF peut être représenté en XML.

       

      Schémas RDF :

      Les déclarations RDF définissent des relations entre des objets (nœud d’un graphe) qui appartiennent à un univers sémantique. Rien ne précise les mots-clés à utiliser dans la description des données. Pour comprendre les informations décrites, il faut que les termes employés appartiennent à des normes.

      RDFS (pour « RDF Schema ») offre les moyens de définir un modèle (ou bien encore un schéma) de méta données qui permet de :

      – Donner du sens aux propriétés associées à une ressource ;

      – Formuler des contraintes sur les valeurs associées à une propriété afin de lui assurer aussi une signification.

      RDF a ses propres schémas : Dublin Core pour les bibliothécaires, FOAF pour catégoriser les personnes, RSS utilisé en particulier pour la publication de news…

      Dublin Core est un schéma de métadonnées générique défini par le Dublin Core Metadata Initiative et il est utilisé pour décrire de façon simple des ressources électroniques. C’est un ensemble standard de 15 informations avec une sémantique précise reflétant le type de données que l’on retrouve dans les catalogues ou les bibliogaphies.

      RDFS est un format de catalogage né dans le contexte XML.

      OWL :

      OWL ( Web Ontology Language ) est conçu pour étendre les RDF et préciser les « ontologies ».

      Trois versions disponibles : LITE, difficulté intermédiaire: DL et FULL : OWF FULL.

      OWL fournit un grand nombre de constructeurs permettant d’exprimer de façon très fine les propriétés des classes définies.

      OWL est un langage d’ontologie, il intègre des outils de comparaison des propriétés et des classes : identité, équivalence, contraire, cardinalité, symétrie, transitivité, disjonction, etc.

      OWL offre aux machines une plus grande capacité d’interprétation du contenu web que RDF et RDFS, grâce à un vocabulaire plus large et à une vraie sémantique formelle.

      Référence bibliographiques :

      Anfana Traoré, Danièle Hérin, OWL et la description de ressources pédagogiques, Université de Montpellier II, Mars 2004.

      Florence Amardeilh, Philippe Laublet, Jean-Luc Minel, Annotation documentaire et peuplement d’ontologie à partir d’extractions linguistiques, Laboratoire LaLICC, Université Paris IV

      Patrice BUCHE, Les langages du web sémantique, UFR Informatique de l’INA P-G, 2006.

       

      Jérôme Euzenat1, Raphaël Troncy, Web sémantique et pratiques documentaires, INRIA Rhône-Alpes, INA Bry-sur-Marne.

      Serge FLEURY, Documents structurés, ILPGA, Paris, 2006.

      Xavier Lacot , Introduction à OWL, un langage XML d’ontologies Web, Juin 2005.

      Shelley Powers, Création d’un vocabulaire RDF (chapitre 6), O’Reilly, 2003

       

      Liens internet:

       

      Définir une ontologie avec OWL

      Une introduction au web sémantique

      What is an Ontology?

      Introduction à OWL,un langage XML d’ontologies Web

      Introduction à RDF

      RDF

      Web sémantique

      SKOS

      Ontologie

      Ontologie

       

       

       

      Boualem.

      Description de SKOS

      Posted in SKOS on janvier 27, 2008 by projetdefi

      Skos (Simple Knowledge Organisation System ou Système Simple d’Organisation des Connaissances) est un langage de représentation de schémas de concepts, ce qui recouvre les langages documentaires tels que les thésaurus, classifications, listes de vedettes matières, taxonomie, folksonomies et autres types de vocabulaires controlés. Ce modèle est défini comme « simple » par opposition à d’autres modèles, comme OWL, plus à même de représenter des structures sémantiques plus riches telles que les ontologies, mais de ce fait également plus complexe à utiliser.

      Le projet à d’abord été initié par l’union Européenne dans le cadre du projet SWAD-EUROPE. La réflexion a ensuite été reprise par le World Wide Web Consortium (W3C) dans le cadre du groupe de travail sur les bonnes politiques et le déploiement des standards RDF. Skos est actuellement en cours de développement. Le nouveau groupe de travail du W3C pour le déploiement du Web sémantique dont le mandat s’étend de Mai 2006 à Avril 2008 a sur son agenda l’avancement de SKOS au statut de Recommandation W3C.

      Les composants de Skos Skos Core Guide
      SKOS est conçu comme une famille modulaire et extensible de langages, de façon à permettre une utilisation aussi simple que possible. Le formalisme de représentation utilisé par Skos repose sur les graphes RDF. Le « noyau » de SKOS définit les classes et propriétés suffisantes à la représentation des thésaurus standard :

      • Des indications portant sur le concept lui-même :

      – Des termes préferentiels ou alternatifs auquel on peut associer une langue

      – Des termes cachés

      – Des représentations symboliques

      • Des définitions et notes avec spécification possibles de la langue
      • Des relations sémantiques : concepts reliés sémantiquement de façon hiérarchique.

      Skos Mapping Skos Mapping Vocabulary Specification
      SKOS Mapping définit un vocabulaire pour exprimer des correspondances (alignements exacts ou correspondances approximatives) entre concepts provenant de schémas différents. Cette partie de SKOS a été développée de façon préliminaire dans le cadre de SWAD-Europe, et n’a pas de statut officiel dans le processus actuel du W3C.

      Skos Extensions Skos Extensions Vocabulary Specification
      Les extensions de SKOS devront permettre de déclarer des relations entre concepts avec une sémantique plus précise que les relations définies dans SKOS Core, par exemple des relations tout-partie ou classe-instance, ou de préciser certains attributs (note éditoriale, note historique, acronyme…). Comme SKOS Mapping, cette partie n’aura certainement pas d’évolution notable avant la stabilisation de SKOS Core.


      Techniques de l’ingénieurs

      Posted in Non classé on janvier 27, 2008 by projetdefi

      Pour ceux qui ont à charge le RDF, OWL, les définitions des ontologies, j’ai trouvé des articles dans les Techniques de l’Ingénieurs (BDD)

      • Réf H6004: Dossier Architecture SOA-Modélisations XML (OWL)
      • Réf H7155 : Dossier Métadonnées et documents numériques (RDF)
      • H3502 : Dossier XML: gestion de contenus Web (sur les ontologies)

      Julia

      Thesaurus -> Ontologie

      Posted in Expériences de conversion on janvier 27, 2008 by projetdefi

      D’un thesaurus vers une ontologie de domaine pour l’exploration d’un corpus

      Il s’agit d’une proposition de méthode pour transformer un thesaurus en ontologie. Cette méthode vise à s’appliquer à n’importe quel thesaurus conçu sous les normes ISO et ANSI Z39. L’INIST s’est appuyé pour cette expérience sur le thesaurus de l’astronomie IAU.

      From thesaurii award Ontologies? Etude de H. Fischer. Comparaison du thesaurus et des ontologies, pose la question du meilleur concept pour la retrouvabilité des documents.

      From Thesaurus to ontology Etude de B. Wielinga, G. Schreiber, J. Wielemaker, J.A.C. Sandberg. Utilisation du thesaurus d’art et d’architecture. Présentation du problème que pose le thesaurus: ne permet pas de décrire des images.
      Construction d’une ontologie à partir du thesaurus en respectant les standards du web.

      Thesaurus documentaires et ontologies, divergence et ressemblance. Etude de Bénédicte Pincemin

       Julia

      Posted in SKOS on janvier 24, 2008 by projetdefi

      A Method to Convert Thesauri to SKOS

      SKOS: a model for metadata representation and interoperability – Dutch Cultural Heritage Institution thesaurus conversion use case

      Nouveaux outils et documents audiovisuels: les innovations du web sémantique (un passage sur le langage skos)

      Skos Home Page : http://www.w3.org/2004/02/skos/

      skos an other W3C vocabulary related activities

      Skos Mapping Vocabulary Specification

      Skos Extension Vocabulary Specification

      Bibliographie : conversion thésaurus en ontologie

      Posted in Expériences de conversion on janvier 21, 2008 by projetdefi

      From Thesaurus to ontology

      D’un thesaurus vers une ontologie de domaine pour l’exploration d’un corpus
      A method to convert thesauri to SKOS

      Définir une ontologie avec OWL

      Semantic Relations: From Thesaurus to Ontology

      Converting a controlled vocabulary into an ontology

      A new relationship for multidisciplinary knowledge organization systems: dependence

      Enriching Core Ontology with Domain Thesaurus
      through Concept and Relation Classification

      A Method for Converting Thesauri to RDF/OWL

      Converting a Thesaurus to OWL

      Converting a thesaurus into an ontology: the use case of URBISOC

      Building a More Meaningful Web: From Traditional Knowledge
      Organization Systems to New Semantic Tools

      Mona

      quelques liens sur SKOS

      Posted in SKOS on décembre 24, 2007 by projetdefi

      Skos Core Guide

      Thésaurus et Web sémantique : le vocabulaire RDF SKOS

      Vocabulaire Skos de base

      définition sur Wapédia


      Skos : A language to desribe simple knowledge structures for the web

      A lire : Revue documentaliste sciences de l’information. SKOS, un langage de représentation de schémas de concepts. Michèle Lénart, Volume 44 : n° 1 / février 2007, p.75

      Joyeux Noël à tous…Agnès

      Quelques liens

      Posted in Projet DEFI on décembre 22, 2007 by projetdefi

      Pour commencer voici quelques liens que j’ai trouvé sur le net:

      Définir une ontologie avec OWL

      Une introduction au web sémantique

      What is an Ontology?

      Introduction à OWL,un langage XML d’ontologies Web

      introduction à RDF

      RDF

      web sémantique

      SKOS

      Ontologie

      Ontologie

      Boualem.