web sémantique 2Comme l’innovation est par définition un processus continu sans lequel la société ne peut assurer sa pérennité, l’arrivée à maturité d’Internet et de la blogosphère pose la question de la prochaine étape dans le développement du Web. Une réponse semble émerger de façon progressive ces dernières années, le Web sémantique.

I- Définition et origine du web sémantique

Sous les expressions « Web of data », « linked data », « Giant Global Graph » ou encore « Web 3.0 », une révolution technologique tranquille serait en marche aujourd’hui. Elle changerait de façon radicale la façon dont Internet fonctionne. Elle porte sur le Web sémantique, une nouvelle manière d’organiser et de présenter le contenu Web, permettant aux ordinateurs et aux applications d’utiliser les relations entre les données et de leur donner du sens afin de proposer de meilleurs services aux individus. C'est ainsi que les ordinateurs ne se limiteront plus à stocker les informations mais ils pourront les comprendre, afin d'apporter une réponse précise à la requête de  l'utilisateur. Bien que méconnues pour l’instant d’un nombre non négligeable d’entreprises et d’acteurs, les implications et les opportunités de cette approche du Web sont loin d’être négligeables.

L’idée d’un Web sémantique est ancienne et remonte au philosophe Leibniz, dont le rêve était de concevoir une lingua characteristica (une langue dans laquelle toutes les connaissances peuvent être exprimées sans aucune équivoque) et un calculus ratiocinator (un calcul sur le raisonnement, c’est-à-dire principalement un moteur d’inférence sémantique) afin d’améliorer la communication et de résoudre plus facilement les désaccords. Cette idée a été réintroduite il y a quinze ans par Tim Berners-Lee, l’inventeur du World Wide Web, et développée dans le cadre du World Wide Web Consortium (W3C).

Web sémantique et données liées

Alors que le Web s’est développé comme un médium de documents reliés entre eux par de l’hypertexte et destinés aux êtres humains, non compris par la machine et dont les possibilités de traitement de l’information sont plutôt limitées, le Web sémantique est associé à deux éléments :

  • le premier porte sur l’intégration et la combinaison de données issues de diverses sources ;
  • le second a trait à un langage permettant d’enregistrer la manière dont les données portent sur les objets du monde réel. Cela signifie qu’un individu est en mesure de démarrer une recherche dans une base de données et d’aller ensuite dans un ensemble non limité de bases de données reliées entre elles par leur intérêt pour le même objet. 

Les ressources de l'intelligence artificielle

Comme les individus souhaitent donner du sens aux résultats de recherche, l’émergence du Web sémantique vise à permettre l’interaction des ordinateurs pour réunir des données satisfaisant des requêtes très spécifiques. À titre illustratif, une requête du type « Quel est le meilleur restaurant italien de Paris ? » sur le Web aujourd’hui conduirait à des centaines d’informations – voire davantage –, contraignant le demandeur à faire le tri dans ce qui est collecté pour en extraire le matériau souhaité, sans que le résultat soit pour autant intéressant. Ce médiocre résultat est dû à l’inaptitude des moteurs de recherche à comprendre le langage naturel. Dès lors, le défi du Web sémantique consiste à extraire des données de milliers de bases de données et à les relier de façon significative afin de faciliter la recherche et l’organisation de connaissances sur le réseau. 

II- Analyse de contenu, métadonnées et ontologies 

Deux objectifs majeurs sont recherchés par le Web sémantique : partager et enrichir tous les types de données de manière structurée en leur donnant du sens afin d’améliorer la pertinence des contenus ; constituer une base de données exhaustives standardisée à l’échelle du Web. 

Analyse et structuration du contenu

Permettant aux machines de comprendre les documents et l’information – et non pas des discours et des écrits humains –, le Web sémantique est considéré comme susceptible d'analyser et de structurer le contenu des pages Web en leur donnant du sens, via la création d’un environnement dans lequel les logiciels, se déplaçant de page en page, pourront aisément entreprendre des tâches complexes pour les utilisateurs, sans recourir obligatoirement à l’intelligence artificielle ou à l’utilisation d’algorithmes de programmation puissants. En effet, comme les informations sont supposées posséder un sens bien défini, elles peuvent être traitées et comprises par les ordinateurs. Il s’agit dès lors de trouver un dispositif qui exprime de façon concomitante des données et des règles de raisonnement sur les données. Ce dispositif passe par des métadonnées, des ontologies et des méthodes de raisonnement.

Les métadonnées

Elles ne sont pas nouvelles, mais elles n’ont pas de liens avec celles des balises META de HTML ou celles des bibliothèques virtuelles et du Dublin Core (schéma de métadonnées fondé sur quinze éléments de données, norme ISO depuis 2003). Permettant l’annotation des ressources Web, elles sont définies comme « informations associées à une ressource du Web, permettant d’en favoriser l’utilisation par un agent humain, du fait de son exploitation par un agent logiciel ; jouent un rôle central dans le Web sémantique et vont au-delà du catalogage et de l’indexation ».

Les fonctions des métadonnées dans le Web sémantique dépassent les dimensions signalétique et thématique qu’on leur connaissait jusqu’à présent. Selon le contexte et les applications, elles servent aussi de support à la gestion des droits, au recueil d’annotations diverses telles que commentaires et recommandations, à la qualification des hyperliens, à la définition de parcours de lecture ou d’assemblage de documents à la carte, etc.  

Les ontologies

Les métadonnées structurées via le RDF (voir ci-dessous) doivent être rendues totalement explicites pour qu’elles puissent être exploitées automatiquement. Elles doivent être exprimées dans un langage clair et défini de façon formelle. Ce sont les ontologies qui constituent le réceptacle de ces définitions. Elles modélisent les connaissances utiles tant à la description qu’au traitement d’un ensemble de ressources. Les valeurs susceptibles d’être octroyées aux métadonnées et l’interprétation que les systèmes peuvent en faire y sont représentées. De même que sont représentés les concepts d’un domaine particulier, les relations entre eux, leur sens ainsi que les méthodes de raisonnement qu’on peut leur appliquer.

Ces méthodes sont relatives aux techniques de déduction et de preuve, nécessaires tant pour exécuter les enchaînements induits par les règles d’utilisation des concepts des ontologies que pour expliquer éventuellement les résultats proposés afin de convaincre l’internaute de leur validité. Des systèmes de cryptage et de certification complètent le dispositif dans le souci d’instaurer une confiance, que le Web actuel n’assure pas nécessairement. 

III- Quels formats d'encodage des informations ? 

Tout en ayant des similitudes avec l’intelligence artificielle – des métadonnées interprétées au moyen d’ontologies par des moteurs d’inférence accomplissant des tâches complexes par la simulation de comportements humains –, le Web sémantique s’en différencie par l’environnement de fonctionnement et par son échelle. Dans cette perspective, comme les informations proviennent de multiples sources hétérogènes et que les sites et les systèmes implantés sont situés dans plusieurs endroits, la question de l’interopérabilité devient prépondérante. Celle-ci passe par les formats d’encodage des informations, des métadonnées et des ontologies au moyen de la syntaxe XML (eXtensible Markup Language ou « langage à balises extensibles », ou HTML amélioré). Elle s’appuie également sur le RDF (Resource Description Framework) et l’OWL (Ontology Web Language). 

Le langage Resource Description Framework (RDF)

Alors que les données constituant un document du Web actuel – HTML, par exemple – ne tiennent pas compte des relations existant entre elles ou avec des données d’autres documents, le Web sémantique est construit sur des standards et des protocoles qui définissent clairement les relations de chaque item avec les autres, non seulement à l’intérieur du document mais là où des données existent sur le Web. Ce cadre commun – et c’est le premier socle du Web sémantique – permet aux données d’être partagées et réutilisées à travers les limites des applications, des entreprises, des communautés. Il est fondé sur le RDF, qui conduit à développer des métadonnées pour décrire les concepts et les vocabulaires dans un domaine précis. Contrairement au langage humain, qui se développe en utilisant le même terme pour désigner parfois différentes choses, le sens dans le Web sémantique est exprimé en RDF et fait l’objet d’un codage en ensembles de triplets, chacun étant comme le sujet, le verbe et l’objet d’une phrase élémentaire. Ces triplets peuvent être écrits à l’aide de balises XML.

 Le rôle de l’identifiant URI (Universal Resource Identifier) 

En RDF, un document effectue des affirmations selon lesquelles des choses particulières (des personnes, des pages Web ou n’importe quoi d’autre) possèdent des propriétés (comme « est un ami de », « est le producteur de ») avec certaines valeurs (une autre personne, une page Web). Cette structure se révèle être un moyen naturel de décrire la grande majorité des données traitées par des machines.

Un sujet et un objet sont chacun identifiés par un Universal Resource Identifier (URI), de la même manière que l’on utilise un lien sur une page Web. Utiliser un URI différent pour chaque concept spécifique résout ce problème. Une adresse postale peut être distinguée d’une adresse dans une rue, et les deux peuvent être distinguées d’une adresse discursive.

Ce RDF est susceptible ensuite d’être intégré dans les algorithmes des moteurs de recherche tels que Yahoo, Google, etc. Le résultat attendu est une information triée proprement par les ordinateurs.

L’importance de l’OWL (Web Ontology Language)

Cet outil est considéré comme cristallisant les promesses offertes par le Web sémantique, dans la mesure où il peut offrir une importante base de connaissances à la fois pour les moteurs de recherche et les agents intelligents. Estimé être le Web sémantique de l’avenir, il offre un langage standard pour définir des ontologies sur le Web, il est fondé sur le schéma RDF, il étend les constructions de base pour améliorer l’interopérabilité (c’est-à-dire les équivalences), le raisonnement (le raisonnement logique), les évolutions éventuelles (intégration, nouvelle version). 

A retenir : les standards essentiels du Web sémantique : 

 

  • Format et structure des données : XML.
  • Format et structure des métadonnées : RDF, modèle conceptuel permettant de décrire toute donnée.
  • Identifiants : URI (Uniform Resource Identifiers).
  • Format et structure du vocabulaire contrôlé :
    - OWL, Ontology Web Language, langage permettant de créer des ontologies, vocabulaires plus complexes servant de support aux traitements logiques (inférences, classification automatique…) ;
    - SPARQL : langage de requêtes pour obtenir des informations à partir de graphes RDF.


IV- La "sémantisation" du web : potentialités et menaces

Outre le coût économique difficile à évaluer, la route est encore longue et fastidieuse pour le Web sémantique. Beaucoup d’acteurs ne semblent pas intéressés par l’ouverture, alors que d’autres y ont vu un intérêt certain (le secteur des médias, le tourisme, etc.). En même temps, il est crucial pour le Web d’évoluer d’un ensemble de documents vers un ensemble de services interconnectés et communicants, avec pour effet une offre de services innovants et l’intégration de l’utilisateur. Par ailleurs, la démocratisation du Web, axée fondamentalement sur l’ouverture et le partage,   constituera   un   puissant   stimulant   pour   le   développement   de   la « sémantisation ».

Des impacts individuels sociétaux

Pour l’instant, les internautes n’ont pas la possibilité de contrôler leur image, leurs connexions sociales, leurs données, qui sont conservées sur chaque site Web. Le Web sémantique va faire évoluer l’identité numérique puisque les utilisateurs pourront de plus en plus migrer toutes leurs informations où ils le souhaitent, libérer leurs données, les diffuser ou bien les maîtriser. En outre, le Web sémantique est en mesure de rendre accessible et efficace la recherche sur Internet. En effet, celle-ci nécessite aujourd’hui de l’expérience et la maîtrise des outils de requête pour pouvoir obtenir les informations souhaitées. En améliorant les outils de recherche, le Web sémantique pourrait aider à réduire la « fracture numérique ». De surcroît, en facilitant la diffusion multiculturelle des contenus du Web et de l’information, le Web sémantique stimulera la traduction automatique, ce qui favorisera l’accès à l’information de populations dont les langues sont en général assez sous-représentées sur le Web.

 Des dangers certains

Ils portent sur : l’accentuation des dérives liées au non-respect de la vie privée et à la protection des données personnelles ; le contrôle des infrastructures de serveurs très importantes (datacenters) par quelques acteurs mondiaux puissants, ce qui pourrait se traduire à terme par des barrières à l’entrée ; la pérennité des données anciennes, susceptibles de devenir incompatibles avec les formats des outils du nouveau Web.

 

Pour aller plus loin