Web sémantique : les prémisses du Web 3.0

Le Web sémantique et le Web des données sont souvent présentés comme les fondements du Web 3.0. Avec des applications concrètes pour gérer des volumes importants de données.

Le Web est en réalité multiforme, comme l’affirment les auteurs de l’ouvrage sur le Web sémantique (Éditions Dunod, voir encadré), qui distinguent le Web documentaire (tel qu’il est né), le Web applicatif (avec les premiers moteurs de recherche), le Web social, le Web des services, le Web mobile, le Web des données et le Web sémantique. Les auteurs définissent ainsi le Web sémantique, prolongement des développements passés du Web : « Il propose d’utiliser des métadonnées pour annoter les ressources du Web et d’exploiter la sémantique des schémas de ces annotations pour les traiter avec intelligence. »

Est-ce pour autant un « jouet académique », comme s’interrogent les auteurs de l’ouvrage ? Non, assurent-ils, car « c’est ignorer tout l’investissement et les initiatives de nombreux groupes industriels qui ont permis sa spécification, sa standardisation, son développement et son déploiement ». D’autant que les applications du Web sémantique sont visibles. Plusieurs exemples avaient été présentés lors de la conférence francophone organisée en mai dernier à Paris par l’éditeur de logiciels Logilab autour de ce thème (Semweb).

« Comme il est inimaginable aujourd’hui d’avoir des pages Web sans lien entre elles, car c’est ce qui fait précisément la force du Web, les données exploitées dans les entreprises et les institutions publiques, qui gèrent de plus en plus de référentiels, s’appuieront bientôt sur des jeux de données interdépendants, partagés et publiés sur Internet », estime Nicolas Chauvat, fondateur de Logilab, pour qui « le Web sémantique est l’ensemble des standards permettant d’établir des liens entre les données, et non pas simplement des documents ».

Le Web sémantique pour les configurateurs automobiles

Lors de la conférence Semweb, plusieurs applications concrètes du Web sémantique ont été présentées. Par exemple, le constructeur automobile Renault a fait évoluer la description de son catalogue avec des liens entre les données, notamment pour accroître la visibilité de son offre sur le Web. Pour les consommateurs, cela signifie pouvoir trouver, sur le Web, des produits et des offres commerciales et non pas simplement des pages Web. « Pour les voitures, c’est très compliqué, explique François-Paul Servant, expert du Web sémantique chez Renault. Les gammes automobiles se caractérisent par une diversité considérable, avec par exemple, pour le catalogue 10 puissance 20 combinaisons possibles de modèles. »

Mais toutes les combinaisons ne sont pas possibles du fait de contraintes techniques, juridiques, industrielles ou marketing. « Il y a seulement une seule chance sur 100 000 de tomber sur une voiture possible si on choisit ses caractéristiques sans tenir compte des contraintes et des choix déjà faits, précise François-Paul Servant. Autrement dit, si on exige trop du client en faisant appel à ses capacités de raisonnement. » C’est tout l’intérêt des configurateurs proposés par les constructeurs automobiles afin que les clients personnalisent leurs véhicules. « Les gammes de produits se décrivent sous forme de liens entre les données (linked data) », précise François-Paul Servant.

Il est ainsi possible de générer une URI (Uniform Resource Identifier, voir encadré) pour une configuration donnée, qui peut être considérée comme une ressource Web), et d’afficher les choix restant possibles. On peut ainsi parcourir une offre commerciale à travers des liens (URI). « L’URI de configuration devient un identifiant universel pour le tagging de contenu Web, la définition de liens et le partage de configurations entre applications, terminaux et supports, avec possibilité d’établir des liens entre des sites Web et des applications internes (poste vendeur, prise de commande…) », explique François-Paul Servant.

Autre exemple : à la BNF (Bibliothèque nationale de France), le Web sémantique est utilisé pour « mieux exposer des données hétérogènes », souligne Romain Wenz, conservateur au département de l’information bibliographique et numérique. La BNF gère en effet d’énormes quantités de données : pas moins de 1,5 million d’objets dans Gallica, la plus grande bibliothèque numérique francophone, 15 millions de notices bibliographiques (avec le dépôt légal) et des dizaines de milliers d’archives et de manuscrits. « Notre objectif était de mettre en avant une partie des données pour une utilisation par des tiers et d’élargir notre public, en proposant des pages Web simples, c’est-à-dire ouvrir les données et fournir des liens fiables », ajoute Romain Wenz.

Tout l’enjeu, ajoute ce dernier, « consiste à établir des liens entre tous ces éléments en tenant compte des relations complexes entre des personnes et des œuvres ». Pour le conservateur de la BNF, « on observe de moins en moins de passage par les pages d’accueil et, au contraire, davantage d’accès directs aux pages du site, des recherches par mots-clés associés au contenu final, par exemple le titre d’un livre, et le suivi de liens depuis des logs, des sites et des réseaux sociaux ». Il est donc possible de trouver des ressources sans les connaître.

De son côté, le Centre Pompidou a également adopté une approche de Web sémantique, avec le « Centre Pompidou virtuel ». L’objectif était de créer une nouvelle plate-forme de diffusion de contenus numériques « basée sur une approche orientée contenus au sein d’un espace virtuel s’adressant à tous types de publics, au-delà des seuls visiteurs, tout en s’appuyant sur les nouveaux développements du Web et s’efforçant de penser à long terme l’avenir numérique de l’institution », explique Emmanuelle Bermès, chef de service multimédia du Centre Pompidou.

Concrètement, la production des ressources (numérisation, indexation, libération des droits) alimente des bases sources, ou bases métiers. Les ressources sont ensuite transformées pour publication dans le Centre Pompidou Virtuel. « Le modèle RDF a été choisi pour résoudre les problématiques d’interopérabilité entre les bases, ajoute Emmanuelle Bermès. Il présente plusieurs atouts : tous les objets entrent dans un modèle commun, utilisé pour structurer le site et la navigation, ils sont au même niveau et peuvent être reliés les uns aux autres, suivant un modèle extensible. »

Les différences entre le Web actuel et le Web sémantique
Web actuel Web sémantique
Ensemble de documents Ensemble de connaissances
Basé essentiellement sur HTML Basé essentiellement sur XML et RDF
Recherche par mots-clés Recherche par concepts (ontologie)
Utilisable par l’être humain Utilisable par la machine
Source : Introduction au Web sémantique – Bernard Espinasse
www.lsis.org/espinasseb/Supports/ONTOWS-2010/WebSem-2010-4p.pdf

URI et RDF : les grands standards du Web sémantique

  • Les URI : sur le Web, on utilise le mécanisme des URI (Uniform Resource Identifier) pour identifier les ressources. Pour être valides, les URI doivent respecter une syntaxe définie et être enregistrées, et donc commencer par un préfixe enregistré auprès de l’IANA (Internet Assigned Numbers Authority), suivi d’une syntaxe autorisée pour ce préfixe (exemples de préfixes enregistrés : http, ftp, urn, info…). Les URL sont des URI dont le préfixe est http et dont la particularité est d’identifier une ressource principalement par le mécanisme qui permet d’y accéder (par exemple, son emplacement sur un serveur, l’adresse d’un résolveur de liens jointe à des paramètres d’accès, etc.).
  • Le RDF (Resources Description Framework) est un langage permettant de représenter des informations sur des ressources. C’est donc un modèle de description des données dans lequel toute ressource est identifiée par une URI, et où l’on peut faire des assertions ou déclarations sur ces ressources.

Tout sur le Web sémantique

Écrit par trois docteurs en informatique (Fabien Gandon, Catherine Faron-Zucker et Olivier Corby), cet ouvrage décrit les grands principes du Web des données, la sémantique des vocabulaires, les règles d’inférence, les ressources, les standards et les outils nécessaires. Les auteurs énoncent les treize principales idées reçues sur le Web sémantique, dont ils s’attachent bien sûr à en démontrer le mal-fondé. Exemples : le Web sémantique serait seulement une nouvelle version du Web, serait opposé au Web 2.0, pourrait se réduire à XML, nécessiterait des ontologies importantes, coûterait cher ou serait réservé au monde universitaire. Les auteurs estiment que l’on s’oriente vers un véritable Web ubiquitaire : « Les métadonnées et leurs schémas pourraient être la clé de voûte des nouvelles architectures Web qui se bâtissent et de leur intégration et interopérabilité. » Avec, à terme, un enjeu fondamental : « Demain, ceux qui contrôleront le Web de données contrôleront le Web et, à travers lui, beaucoup de choses. »

Le Web sémantique, comment lier les données et les schémas sur le Web ? par Fabien Gandon, Catherine Faron-Zucker et Olivier Corby, Dunod, 2012, 206 pages.