De quoi est fait une infrastructure [4] ? De systèmes de gestion de contenu

par Jean-Luc Dormoy

Tous les systèmes gèrent des contenus. Dans les cas simples, ou traditionnellement, on parle de données. Sur le web, on parle de musique, de news, de blogs, de vidéos, de données de capteurs divers, etc. Quoiqu’il en soit, la quantité de données, ou de contenu, donc, croît avec la rapidité de la loi de Moore – car les capacités de mémorisation, et plus encore la capacité de mémoire déployée, augmentent au rythme de la loi de Moore.

A la base, gérer des contenus c’est mémoriser des fichiers sur des disques durs, donc rien de très complexe à cela. Seules les grandes fermes de serveurs et les systèmes de cloud computing mentionnés ci-dessus ont contraint à revisiter le middleware servant au système de fichiers.

La chose devient plus intéressante lorsque l’on se pose la question de faire traiter ces contenus par des systèmes sophistiqués ou intelligents, en particulier pour ce qu’ils représentent ou signifient, pas seulement pour la collection d’octets qui les représentent.

Tout un domaine est apparu depuis une décennie et l’expansion du web, qu’on appelle le web sémantique. Le web deviendra sémantique le jour où un système de recherche sera capable de répondre (au minimum) avec les fichiers mentionnant Barack Obama à la requête « Président des Etats-Unis ». Et ces fichiers pourront aussi bien être des articles de journaux mentionnant Obama que des photos ou des vidéos le représentant.

L’idée de base du web sémantique est de représenter le sens des contenus (la « sémantique ») à travers des données autres, ou méta données, basées sur ce que l’on appelle des ontologies. Les ontologies sont des définitions de domaines du discours, plus précisément la définition de l’ensemble des objets et des relations élémentaires permettant de construire les discours possibles.

Divers organismes de standardisation liés au web (le W3C[1], OASIS[2], l’OMG[3]) contribuent à la définition des ontologies et du web sémantique. Il s’agit à la fois de définir les cadres permettant d’exprimer des sémantiques, et de le faire pour un certain nombre de domaines importants. Par exemple, les énoncés mathématiques et les démonstrations ont un standard, MathML. Cela permet d’échanger de tels énoncés sous cette forme structurée, et d’avoir des traitements automatisés pour les retrouver, les comparer, les vérifier, etc. Il est à noter que ces traitements peuvent être d’une grande complexité, et constituent une des directions de progrès du versant « services » de la loi de Moore.

La difficulté est cependant de disposer des données sous cette forme structurée. La majeure partie du contenu publié sur le web est constitué de documents comportant du texte, des images ou des vidéos sous des formats divers : html, pdf, doc, ppt, jpeg, bmp, mpeg, etc. Un travail de reconnaissance et d’indexation de ces contenus est donc indispensable pour en tirer une représentation structurée. En réalité on tire souvent sous forme structurée une représentation seulement partielle de la sémantique du contenu, comme les personnes participant à une vidéo, leurs conversations, le lieu et la date de la prise.

Une autre source de données structurées vient des contenus qui ont fait l’objet d’une structuration importante de longue date, avant le web, par exemple les données géographiques ou les données financières. Dans ce cas le web sémantique tend à unifier les formats de ces données et leurs ontologies, et à pousser à en publier une grande partie publiquement. Typiquement, Google Maps pour les cartes géographiques, ou les bibliothèques numériques de livres en cours de construction constituent des exemples de ces tendances.

Un autre type de système de gestion de contenu existe depuis quatre décennies, soit 25 ans avant le web, ce sont les systèmes de gestion de base de données – SGBD. Depuis les débuts de l’application de l’informatique aux processus des entreprises, c’est-à-dire pratiquement depuis les débuts de l’informatique, on a eu besoin de stocker, maintenir, corriger, et interroger utilement de grands ensembles de données. Une des premières grandes applications de l’informatique dans les années 40 a concerné le recensement de la population des Etats-Unis. Cela va aujourd’hui des données de production aux catalogues de produits, aux données de clientèles ou à celle relatives aux employés. Les données d’ingénierie ou scientifiques ont également concernées.

Les systèmes de gestion de base de données ont fait la fortune de la société Oracle, second éditeur mondial. Certains pensent qu’ils sont en train de « craquer » sous des coups venant de divers horizons. Premièrement, le volume des données disponible croît considérablement, notamment par l’arrivée de données issues de milliards de capteurs et d’objets digitaux divers. Or les SGBD semblent trop limités à la fois en capacité de mémorisation et en logique de traitement – il est ainsi nécessaire d’appliquer un traitement préalable à des flux de données avant de les mémoriser sous une forme synthétique. Une autre difficulté est que ces systèmes reposent souvent sur des traitements de mise à jour « en batch », c’est-à-dire hors temps réel. Ainsi une entreprise de logistique aura une vision du positionnement de ses colis et de ses moyens de transport de façon décalée (e.g. avec 24 heures de retard si le traitement lourd « en batch » a lieu la nuit). Or l’expérience commune du web est désormais que l’on doit disposer des données en temps réel. Il faut donc repenser en profondeur les systèmes de gestion de données.

Une option qui apparaît est l’utilisation des moteurs de recherche, soit de façon ciblée sur le web, soit au sein d’une entreprise. Ces moteurs ont accumulé une compétence d’analyse et d’indexation de contenus pour un grand nombre de formats de fichiers ou de représentation de ces contenus. Une fois cette indexation faite, leur rapidité de recherche est légendaire et connue par des milliards d’utilisateurs du web. Ils permettent donc de rendre l’accès aux données en temps réel possible.

Une autre utilisation, dans un domaine ciblé, est de les adapter afin de mettre à disposition une expertise poussée sur ce domaine.

Tous ces systèmes s’appliquent à des échelles diverses; notamment, les systèmes embarqués disposent désormais de capacités de mémorisation de contenu. Les contenus concernés sont souvent constitués de données issues de capteurs et d’interactions avec l’environnement physique ou humain. L’utilisation qui en est faite peut aller d’un « tampon » de données avant remontée vers un système central, permettant ainsi de palier aux éventuelles coupures de connexion, à des traitements sophistiqués permettant au système local d’exhiber de l’intelligence.

Enfin, une dernière forme de système de gestion de contenu, qu’il vaut la peine de mentionner, est intermédiaire entre de la programmation et du contenu. Il s’agit des systèmes de règles d’expertise, issus des systèmes experts des années 80, qui permettent notamment de capturer les règles de processus métiers, réglementaires, etc. Ce sont fondamentalement des programmes, mais avec deux particularités qui tendent à les ranger dans la catégorie contenu. Premièrement, ils sont dans une certaine mesure déclaratifs, et non procéduraux, c’est-à-dire qu’ils incorporent de la connaissance sans le moyen de l’utiliser – c’est la différence entre « l’article s’accorde en genre et en nombre avec le nom auquel il se rapporte » et « si le nom N a le genre g et le nombre n, et si l est l’article qui se rapporte à N, alors le genre de l est g et son nombre est ». La première formulation de la connaissance permet de dire que la phrase « Le cantatrice chante la la[4] » comporte deux fautes, alors que la seconde ne dit rien – elle n’est qu’une procédure qui ne peut avoir qu’un type d’utilisation. Deuxièmement, ces systèmes sont accessibles dans une large mesure à des non informaticiens, qui peuvent donc les utiliser pour produire du contenu, comme s’ils utilisaient un traitement de texte ou un appareil photo ou vidéo, mais ici à un niveau de connaissance experte.


[1] W3C, World Wide Web Consortium.

[2] OASIS, Organization for the Advancement of Structured Information Standards.

[3] OMG, Object Management Group.

[4] Clin d’œil aux Fondements de la littérature selon David Hilbert de Raymond Queneau.

Licence Creative Commons
Moore’s Law and the Future of [Technology] Economy de Jean-Luc Dormoy est mis à disposition selon les termes de la licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage à l’Identique 3.0 non transposé.
Basé(e) sur une oeuvre à mooreslawblog.com.