Destination web sémantique

Travaillant actuellement sur un projet de gestion sémantique de l’information, je me suis rendu compte que peu de personnes savent exactement de quoi il s’agit et que même les experts ne sont pas forcement d’accords sur la définition de cette discipline.

Web sémantique & enrichissement sémantique

Il faut d’abord bien faire la différence entre la notion de web sémantique et celle d’enrichissement sémantique de l’information.

  • Le web sémantique est une évolution coordonnée du web (lancée entre autre par le W3C), une initiative collective dans laquelle chacun à son niveau travaille pour rendre les contenus web plus intelligibles, plus accessibles par les programmes et les machines.
  • L’enrichissement sémantique de l’information est une méthode de travail consistant à donner du sens aux fichiers/informations afin qu’elles soient traitées plus intelligemment par les machines et les applications.

Evidemment le web sémantique ne se fera que par la coordination d’une multitude de travaux d’enrichissement sémantique. La différence vous paraît peut-être minime mais elle est selon moi très importante car le traitement sémantique est une discipline déjà bien répandue alors que le web sémantique est encore une utopie, une vision, un idéal vers lequel nous tendons tous. D’ailleurs, beaucoup de travaux de traitement sémantique ne participent pas du tout au web sémantique car ils ne sont pas ouverts (je pense notamment aux outils de knowledge management).

L’enrichissement sémantique est une étape vers le web sémantique.

L’enrichissement sémantique de l’info

Comme je le disais plus haut, il s’agit de donner du sens aux informations pour que les machines/programmes puissent mieux les gérer. Et pour cela, on utilise des métadonnées (des données à propos d’une donnée). Bref, en résumé, l’enrichissement sémantique consiste à rendre un fichier plus intelligible en l’enrichissant avec des informations supplémentaires : des métadonnées. Il existe plusieurs couches de métadonnées comme nous allons le voir ci-dessous.

Un fichier (ici une photo) n’est pour le système qu’une compilation de 0 et de 1. Difficile alors pour celui-ci de traiter ce fichier intelligement (ne serait-ce que pour l’ouvrir, le système n’a pas moyen de savoir avec quelle application il doit le faire)

  1. Les métadonnées dites “système” apportent une première couche d’information concernant ce fichier. Elles permettent au système de connaître le type de fichier (jpg), l’auteur, la date de création, la taille du fichier, les dimensions de l’image… Grâce à ces métadonnées le système en sait déjà un peu plus sur le fichier, il va pouvoir le traiter un peu plus intelligement : afficher une vignette, lancer la bonne application, le ranger au bon endroit…
  2. Les métadonnées d’usage sont une couche supérieure qui apportent des informations “statistiques” sur l’utilisation du fichier : combien de fois il a été ouvert, par qui, combien de temps… Cette couche de metadonnées est à l’origine du web 2.0 car c’est elle qui permet de faire des recommandations sociales (collaborative filtering) : le système vous recommande ce fichier car il sait que les autres utilisateurs l’ont tous ouvert (c’est le fameux système de recommandation d’Amazon).
  3. La couche suivante est celle de la taxinomie. Elle existe depuis longtemps en informatique mais s’est démocratisée avec le web 2.0.  Ici c’est l’utilisateur lui-même qui rajoute du sens au fichier en le décrivant avec une série de mot-clefs ou tags. Par recoupement, le système va pouvoir ordonner les fichiers selon ces tags. Le problème, c’est que l’utilisateur a beau avoir taggué sa photo avec le mot “papa”, le système n’en déduit pas pour autant que la photo représente le père de celui-ci. Il est juste capable de faire le lien avec les autres fichiers qui ont été tagués “papa” (et éventuellement “père” ou “dad” ou “daddy” si le système utilise en plus la synonimie). D’où la nécessité de rajouter une couche de métadonnées supplémentaires pour que le système comprenne vraiment le sens.
  4. La dernière couche de métadonnées est celle des concepts. C’est la plus importante dans le domaine du traitement sémantique et la plus compliquée à mettre en place. L’idée est de convertir toutes les informations présentes dans les couches inférieurs en concepts intelligibles. L’objectif de cette couche est de permettre au système de comprendre par exemple que le fait que l’utilisateur ait tagué une photo “papa” signifie probablement que son père est présent sur la photo. Ce travail est extrêmement complexe car dans notre exemple “papa” pourrait désigner aussi l’utilisateur lui-même qui est sur la photo avec son fils, ou alors que la photo a été prise par “papa”, ou encore qu’elle a été prise dans le cadre d’un évènement relatif à “papa”.
    Dans notre exemple, l’objectif de cette dernière couche de métadonnées se résume à permettre au système de “comprendre”  que le fichier DCF20110812-56489.jpg est “une photo de vacances, de qualité médiocre, du père de l’utilisateur courant sur la plage”…

Résultante de la représentation des connaissances, la couche des métadonnées de concept est encore très expérimentale et c’est la seule qui mérite selon moi le qualificatif de “sémantique”.

Comment construire la couche conceptuelle ?

La couche conceptuelle s’appuie sur une ontologie (un moyen de représenter formellement les connaissances) qui désigne en informatique un modèle de données représentant un ensemble de concepts et des relations entre eux. L’enrichissement sémantique consiste alors à :

1/ Créer une ontologie, c’est-à-dire modéliser un domaine de concepts (la médecine, les vacances, l’enfance…) et créer des schémas de description.

2/ Créer un moteur d’enrichissement (l’engrenage sur mon schéma) qui va faire le lien entre un fichier (et ses métadonnées existantes) et un ou plusieurs schémas de description.

Les métadonnées existantes, plus des infos de sources de données externes, associées aux schémas de description de l’ontologie vont permettre au moteur de raisonnement d’associer des concepts au fichier, bref de “comprendre”.

Enrichissement sémantique Laurent Assouad

Note : je parle de fichier dans mon exemple, mais tout cela s’applique également à des données de toutes sortes (objets dans une page HTML, entrée dans une base de données…)

Conclusion

La sémantique appliquée à l’informatique et au web est un vaste domaine qui comprend un grand nombre d’acteurs. Certains oeuvrent pour le web sémantique à définir des méthodes pour rendre les données plus intelligibles et connectées. D’autres travaillent sur des projets concrets d’enrichissement de données. D’autres encore se contentent d’exploiter les infimes données sémantiques déjà existantes pour améliorer leurs services (comme le graph social par exemple)…

Une chose est sure, l’enrichissement sémantique est une discipline encore très expérimentale mais son potentiel de développement est énorme et ses applications infinies.

Et n’oubliez pas : pour garder une donnée fraîche, prenez un sémantic-tac… …Pardon :-(

Crédits :: cet article a été rédigé en collaboration avec mes associés Benjamin Habegger et Bastien Marot.

14 commentaires pour “Destination web sémantique”

  1. Posté par Claude a dit : le

    Bravo et merci de ce travail.
    On imagine le potentiel de l’enrichissement sémantique dans l’ECM et bien sur tous les programmes (ou solutions) qui supportent les stratégies d’évaluation des actifs informationnels et plus généralement de gouvernance de l’information.
    ———
    @Claude Super

  2. Posté par Michel Poirot a dit : le

    Merci pour ce superbe exposé, qui aide à mettre quelques pendules à la bonne heure : clair, précis, didactique !

  3. Posté par Sébastien Louchart a dit : le

    Didactique, oui c’est le mot. Et les schémas sont superbes et d’une grande clarté. Et très bon travail de vulgarisation.

  4. Posté par Onjanirina RAKOTONIAINA a dit : le

    Enrichissement, attribution sémantique, processus de sémantisation … je pense effectivement que cet aspect est quelque peu masqué par les “traitements sémantiques”, favorisé par l’existence des standards w3C et l’euphorie purement informaticienne de s’approprier les technologies “tendances”.
    Et je profite également de l’exemple cité pour mentionner l’existence de deux approches totalement différentes, quoique complémentaires : d’une part, les processus automatiques -technologies de reconnaissance faciale par exemple, pour Facebook afin d’(essayer)identifier les personnes sur la photo, ou analyse des contenus et backlinks pour Google afin de déterminer les “sens” d’une page- et d’autre part, les processus purement humain (Facebook) où un utilisateur indique explicitement (avec abus des fois) qui sont les personnes sur les photos. La première favorise les travaux technologiques pointus (Google), par contre, la seconde approche exige la disponibilité d’un outil facilitant (favorisant) l’interaction humaine (Facebook). La combinaison des deux ne pourra alors qu’être bénéfique aux utilisateurs, consommateurs de connaissance.
    Je travaille actuellement sur un projet de Système d’exploitation Sémantique du Web (Moterako, Open Source, disponible Developpez.com ou SourceForge.net) et invite les lecteurs à voir/essayer, et pourquoi pas participer, à “une” contribution à rendre le web plus ouvert, plus sémantique donc plus utile.

  5. Posté par Les tweets qui mentionnent Entreprise 2.0 > Destination web sémantique -- Topsy.com a dit : le

    [...] Ce billet était mentionné sur Twitter par Romain Pouzol, SemanticBot, PRESANS, Vetruve, Paul Gaspais et des autres. Paul Gaspais a dit: RT @AgenceDDH: Web sémantique et enrichissement sémantique : Billet très complet chez @fredcavazza http://ht.ly/3XnUD [...]

  6. Posté par [18/02/2011] Revue de web… 2.0 ! | Whiblog a dit : le

    [...] Destination Web Sémantique (Laurent Assouad) : différence entre web sémantique et enrichissement sémantique, principe détaillé de l’enrichissement sémantique de l’information (system metadata, usage metadata, taxinomical metadata, conceptual metadata), comment construire la couche conceptuelle (ontologie, moteur d’enrichissement). Article synthétique. [...]

  7. Posté par Les tweets qui mentionnent Entreprise 2.0 > Destination web sémantique -- Topsy.com a dit : le

    [...] Ce billet était mentionné sur Twitter par Jorge Maia Correia, Christian GREGOIRE. Christian GREGOIRE a dit: Sémantique : Metadata, Taxinomie, Ontologie, … http://bit.ly/dRiP8b [...]

  8. Posté par Benjamin Habegger a dit : le

    Onjanirina, je suis complètement en phase avec ton analyse sur les deux approches du “processus de sémantisation”.

    D’une part il y a les approches automatiques qui cherchent à extraire le sens “encodé” sous une forme ou une autre dans des données (souvent de masse et déjà existantes).
    Ces approches sont très liées à des processus d’intégration de données (qui cherchent à créer des mappings entre différents modèles de données).

    D’autre part, il y a les approches qui intéragissent avec un ou plusieurs utilisateurs pour aider à construire une “description sémantique” du monde.
    Ces approches sont à leur balbutiement et travaillent souvent sur un nombre très faible de concepts… il y a de quoi faire pour améliorer tout ça !! ;)

    Je n’ai pas encore pris le temps de le faire, mais je n’hésiterai par à regarder ce que tu fais dans ton projet !!

  9. Posté par Blogue du GTA » Blog Archive » Destination Web sémantique a dit : le

    [...] Web sémantique, peu de gens savent de quoi s’agit-il. Voici un excellent billet qui explique un peu la différence entre le Web sémantique et l’enrichissement [...]

  10. Posté par Web sémantique « La Boussole a dit : le

    [...] février dernier, un billet a été publié sur le blog Entreprise20.fr sur le web sémantique. La notion d’enrichissement de l’information, entre autres, y [...]

  11. Posté par Le web sémantique, une nouvelle brique vers l’intelligence artificielle ? – Think It Social ! a dit : le

    [...] implications liées au développement de la sémantique web ouvre des perspectives d’intéraction de données sans aucune commune mesure avec ce que [...]

  12. Posté par Je veille sur vous [ édition du 21 au 27 mai ] | [ marie eve berlinger ] a dit : le
  13. Posté par Je veille sur vous [ édition du 21 au 27 mai ] - Espace Infusion a dit : le
  14. Posté par Web de donnée et enrichissement sémantique, une introduction. | | SchizophreniaSchizophrenia a dit : le

    [...] Concernant les différents types de metadonnées, un synthèse très bien écrite sur le blog Entreprise2.0. [...]