Le Web sémantique est une initiative portée par le W3C qui vise à enrichir le Web de métadonnées structurées permettant aux machines de mieux comprendre et traiter l'information disponible sur Internet. Plutôt que de ne montrer que des documents destinés à des humains, le Web sémantique ajoute des descriptions formelles (qui disent ce que sont les choses, leurs propriétés et leurs relations) afin d'automatiser davantage de tâches de recherche, d'agrégation, de liaison et d'inférence entre données hétérogènes.

Cette idée, défendue dès l'origine par l'inventeur du World Wide Web Tim Berners‑Lee, cherche à rendre le web plus "intuitif" pour les besoins des utilisateurs en fournissant une sémantique explicite des informations et des services. La sémantique est exprimée à l'aide de standards du W3C tels que le RDF (Resource Description Framework), les vocabulaires RDFS, et le Web Ontology Language (OWL). Ces standards servent à décrire formellement les concepts, les termes et les relations au sein d'un domaine de connaissance.

Principes de base

  • Identifier les ressources avec des URIs (ou IRIs) afin que chaque concept ou entité ait un identifiant unique sur le Web.
  • Décrire les ressources au moyen de triplets sujet — prédicat — objet (le modèle RDF), formant un graphe de données interrogeable et fusionnable.
  • Utiliser des formats et des vocabulaires standards pour favoriser l'interopérabilité (RDF, RDFS, OWL, SKOS, etc.).
  • Appliquer les principes du Linked Data : utiliser HTTP URIs, fournir des descriptions réutilisables, et lier vos données à d'autres données publiques.

Standards et technologies clés

  • RDF : modèle de données en triplets (sujet-prédicat-objet) représentant un graphe. Sérialisations courantes : Turtle, RDF/XML, N-Triples, JSON-LD.
  • RDFS : méta-vocabulaire léger pour définir des classes et propriétés.
  • OWL : langage d'ontologie plus expressif pour décrire des relations complexes et permettre le raisonnement (OWL 2 possède des profils comme EL, QL, RL adaptés à différents besoins).
  • SPARQL : langage de requête pour interroger des graphes RDF (équivalent SQL pour les données RDF).
  • SKOS : vocabulaire pour représenter des thésaurus et des schémas conceptuels.
  • SHACL : langage pour valider les graphes RDF (contraintes de forme).
  • Outils et frameworks : Protégé (édition OWL), Apache Jena, RDF4J, rdflib, reasoners (HermiT, Pellet, FaCT++).

Exemple simple (Turtle)

@prefix ex: <http://example.org/> . ex:Alice a ex:Person ;     ex:name "Alice" ;     ex:knows ex:Bob . ex:Bob a ex:Person ;     ex:name "Bob" .

Si l'ontologie indique que Person est sous-classe de Agent, un moteur de raisonnement peut inférer automatiquement que Alice est aussi un Agent.

Cas d'usage

  • Intégration de données hétérogènes (ex. données scientifiques, open data gouvernementales).
  • Graphes de connaissances (knowledge graphs) pour moteurs de recherche et assistants virtuels.
  • Interopérabilité entre systèmes d'information (santé, bibliothèques, musées).
  • Découverte automatique de services et automatisation de workflows.
  • Réconciliation et nettoyage de données, mise en correspondance d'entités (entity matching).

Avantages

  • Interopérabilité et réutilisation des données grâce à des vocabulaires partagés.
  • Capacité d'inférence : tirer de nouvelles connaissances à partir des relations explicites.
  • Meilleure intégration entre sources : on peut relier et naviguer dans des graphes distribués.
  • Favorise l'ouverture et la réutilisation des données (Linked Open Data).

Limites et défis

  • Courbe d'apprentissage et complexité conceptuelle pour modéliser correctement un domaine (ontologies bien conçues).
  • Performance et montée en charge : raisonnement et requêtes sur de très grands graphes peuvent être coûteux.
  • Problèmes d'harmonie sémantique : désaccords de modélisation entre organisations (mêmes concepts modélisés différemment).
  • Adoption et gouvernance : nécessité de vocabulaires stabilisés et d'efforts pour publier et maintenir des URIs stables.
  • Questions de confidentialité et sécurité lorsque des données liées révèlent des informations sensibles.

Vision de Tim Berners‑Lee

Tim Berners‑Lee a présenté l'idée d'un « Web of Data » (ou « Giant Global Graph ») où les documents et les données seraient reliés de façon explicite pour que les machines puissent mieux agréger et raisonner sur l'information. Pour promouvoir cela, il a expliqué les principes du Linked Data (utiliser des URIs, renvoyer des descriptions utiles, lier vers d'autres URIs) et proposé un classement pratique pour les données ouvertes (les 5 étoiles du linked data) afin d'encourager la publication de données de plus en plus interopérables.

Pour démarrer

  • Apprendre les concepts RDF et OWL avec des tutoriels et des outils (ex. Protégé, Turtle, JSON-LD).
  • Réutiliser des vocabulaires établis : schema.org, FOAF, Dublin Core, SKOS, etc.
  • Publier des données en JSON‑LD sur le Web pour une adoption simple côté applications web.
  • Expérimenter avec des endpoints SPARQL publics (DBpedia, Wikidata) et des frameworks (Apache Jena, RDF4J).

En résumé, le Web sémantique est une extension du Web actuel visant à rendre les informations compréhensibles et utilisables par des machines de façon standardisée, afin de faciliter l'intégration, la recherche et l'automatisation. Ses standards (RDF, RDFS, OWL, SPARQL, etc.) et ses bonnes pratiques forment aujourd'hui la base des graphes de connaissances et de nombreuses applications de données liées.