Les technologies de services [1] : Contenu et connaissance
par Jean-Luc Dormoy
On baptise contenu l’ensemble des signaux, des données, de l’information et des connaissances que des moyens technologiques permettent de capturer et de traiter sous une forme digitale. Le contenu a pour origine l’activité humaine sous toutes ses formes, l’environnement physique, et l’interaction entre les deux. Le contenu contient implicitement et explicitement des informations et leurs relations à divers niveaux de sémantique. Le contenu est le support de la connaissance.
La distinction entre signaux, données, informations et connaissances n’est pas technique – tout y est digitalisable – elle repose sur des points de vue différents de leurs utilisateurs. Les signaux sont constitués des enregistrements bruts de quantités ayant une nature physique et dépendant du temps et de l’espace – par exemple l’enregistrement de la voix, des images satellite, etc. Les données sont une représentation binaire brute ayant peu de valeur pour l’utilisateur à moins de disposer d’un décodeur ou d’un interpréteur. Les informations sont une représentation de ce qui précède pouvant être comprise d’un utilisateur.
La connaissance est ce qui fait sens vis-à-vis des informations. La connaissance a pour source des structures et des relations au sein du contenu, fournissant ainsi des façons procédurales ou déclaratives de l’utiliser. Elle repose entre autres sur des notions générales, comme le temps et l’espace, l’ordre et la hiérarchie (par exemple partie – tout), sur la causalité, sur des abstractions (statistique, mathématique, ontologique, de classification, métaphorique, …). La connaissance existe à divers niveaux de base et « méta » – la métaconnaissance étant la connaissance au sujet de la connaissance.
Les technologies de contenu et de connaissance consistent donc à traiter, mettre en relation et certifier les divers niveaux de contenu, et à utiliser la connaissance pour focaliser sur l’information utile au sein de vastes quantités de contenu.
On inclut dans le contenu les logiciels, services et algorithmes pertinents, qui constituent une forme de connaissance. La connaissance elle-même peut être plongée dans le contenu à partir du moment où on lui a donné une forme digitale.
Le traitement de la connaissance constitue une partie importante de l’intelligence artificielle et des sciences cognitives. L’une et l’autre utilisent la métaphore des ordinateurs et des programmes digitaux pour capturer la connaissance sous tous ses aspects. Diverses critiques et controverses philosophiques et scientifiques ont eu cours sans bien sûr avoir été closes à ce jour sur l’insuffisance de cette métaphore, ou au contraire sur la possibilité de réaliser une intelligence artificielle d’un niveau « équivalent » voire supérieur à l’intelligence humaine. Ainsi le fameux test de Turing consiste dans sa version initiale à demander à un ordinateur de distinguer un homme d’une femme simplement en conversant à l’aveugle avec elle ou lui; dans une version différente mais souvent retenue aujourd’hui ce test consiste pour un être humain à ne plus savoir faire la différence en un être humain et une machine avec lequel ou laquelle il converse également à l’aveugle.
Les programmes, procédures et algorithmes sont des archétypes de ce que l’on appelle la connaissance procédurale. La connaissance déclarative émet une vérité, mais sans mode d’emploi, par exemple « le courant passant par une résistance R sujette a une différence de potentiel U a une intensité reliée par l’équation U = RI ».
Les modèles constituent une partie de la connaissance, ce sont des connaissances sur un domaine du monde ou de la connaissance elle-même. Les modèles utilisent divers concepts et langages pour être exprimés, souvent les mathématiques, comme les équations différentielles, les processus stochastiques, la logique classique ou une logique non conventionnelle. Le modèle repose en général sur une discipline scientifique de base : mécanique des solides ou des fluides, électromagnétisme, mécanique quantique, relativité, chimie, biologie, par exemple réseaux de gènes, grandes molécules biochimiques, économie, finance, sociologie, démographie. On trouve aussi désormais des modélisations de très grands systèmes, comme des objets astronomiques (galaxies, trous noirs), une cellule vivante, le cerveau, la météorologie ou le climat de la planète, une foule, voire l’économie ou la société humaine dans son entier.
Un modèle peut correspondre à une partie du monde réel, ou à un monde « inventé ». Il constitue les lois sous-jacentes d’un monde virtuel. Ce monde est simulé ou animé sur des ordinateurs variés, souvent puissants dans leur catégorie. En particulier les services tournant sur les supercomputers tournent tous peu ou prou autour du perfectionnement de mondes virtuels. En science ou en technologie il s’agit d’études de phénomènes réels, cela n’a donc pas changé depuis les débuts de l’informatique. Pour la création audiovisuelle il peut s’agir de la réalisation d’effets spéciaux.
Les progrès accomplis sont dans les modèles sous-jacents, mais surtout dans la façon dont ils sont discrétisés, c’est-à-dire dont les espaces et le temps supports de ces phénomènes sont découpés en toutes petites unités. En effet la plupart de ces modèles reposent sur des équations en nombres continus, or l’ordinateur ne sait traiter que des données discrètes : on découpe donc les quantités continues en nuages de points aussi nombreux et denses que possibles. Par exemple le WRF – Weather Research Forecasting – travaille aujourd’hui sur des cellules de l’atmosphère / de l’océan d’environ une dizaine de km3 [1].
Bien entendu, la surprise est souvent au rendez-vous dans ces grandes avancées scientifiques et techniques.
Les règles d’affaires[2] dans les systèmes d’information des entreprises, qui capturent sous une forme aussi déclarative que possible les processus informationnels, constituent un autre exemple de connaissance.
La connaissance de sens commun rend explicite des choses connues mais tacites comme le fait que les fleuves coulent de la source vers la mer et pas l’inverse; elle permet par exemple d’améliorer la recherche d’information.
La connaissance est susceptible de traitements généraux, comme son acquisition (auprès d’un expert ou à partir de contenu), l’apprentissage, la prédiction, la vérification. La représentation des connaissances est au cœur de ces traitements, et elle utilise tout ce qui précède : notions générales, modèles, abstractions diverses, etc.
Donnons quelques exemples de systèmes de traitement du contenu et de la connaissance – on dit systèmes intelligents.
Les systèmes d’aide à la décision permettent aux parties prenantes d’un Group, par exemple aux dirigeants d’une entreprise, de disposer de la meilleure information, à un haut niveau d’abstraction, et de conseils sur les décisions à prendre. Il est nécessaire d’intégrer et d’interpréter la masse d’informations circulant au sein du Group, de modéliser et d’anticiper les évolutions. En outre une présentation synthétique et humainement appréhendable est indispensable, une sorte de tableau de bord.
La traduction automatique entre les 6 ou 7000 langues humaines aujourd’hui utilisées dans le monde fait l’objet de travaux depuis plus de 50 ans. C’est toujours un problème difficile et mal résolu. Cela a conduit à mieux comprendre les langues elles-mêmes, en distinguant par exemple les niveaux syntaxique, sémantique et pragmatique. Pour faire simple la syntaxe est du niveau des mots et de la grammaire; la sémantique a à voir avec le sens; la pragmatique est « tout le reste », et ce reste est vaste, comprenant notamment les domaines de connaissance implicite permettant de comprendre une phrase comme « Je suis descendu de Vienne à Budapest sur le Danube », qui signifie que l’on a pris un bateau le long du fleuve Danube, qui coule du haut et d’amont, ici Vienne, vers l’aval et le bas, ici Budapest. On retrouve le rôle de la connaissance de sens commun.
La recherche ou la présentation intelligente d’information repose sur le contexte et le comportement de l’utilisateur. On aimerait par exemple avoir une recherche allant au-delà des moteurs actuels, qui reposent sur la syntaxe de la requête et des statistiques de liens entre pages : on aimerait plus de sens. En outre les images, les vidéos, le son, etc., sont aujourd’hui mal intégrés aux systèmes de recherche. Un autre exemple de présentation de l’information, cette fois pas tout à fait désirée par l’utilisateur, est la publicité adaptée au contexte et à son destinataire. N’importe quel utilisateur d’un moteur de recherche peut avoir l’intuition que les publicités qui lui sont présentées ont été influencées par ses requêtes passées. C’est exact, et de façon aussi sophistiquée que possible.
Pour acquérir et procéder à un premier traitement préalable de la connaissance, il y a fondamentalement deux méthodes : soit on se sert de machines (capteurs), soit on demande à des personnes de saisir l’information.
La digitalisation généralisée permise par la loi de Moore conduit à disposer de multiples moyens automatiques de capture d’information. C’est par exemple le cas de ce que vous fournissez comme information sur le web : les opérateurs du web retiennent vos requêtes, les fournisseurs d’accès les sites sur lesquels vous naviguez, les systèmes de mise en relation (réseaux sociaux, téléphone…) les connexions interpersonnelles. Les capteurs fournissent aussi des masses de données : cartes de crédit, cartes liées aux transports, multiples caméras et systèmes dans les lieux publics. Il ne s’agit pas ici d’effrayer, car des barrières juridiques existent au regroupement et au traitement de ces informations, mais elles sont de plus en plus nombreuses. L’Internet des objets à venir permettra aussi de capturer les usages des appareils digitalisés (par exemple appareils électriques), et donc d’accroître encore ces masses de données personnelles. Le principe de propriété de ses données personnelles par la personne concernée devra probablement être renforcé pour accompagner ces évolutions.
On peut aussi digitaliser tout ce que l’humanité a déjà produit : musique, films, livres, œuvres d’art, mêmes les grottes préhistoriques. C’est en cours de façon systématique et massive, avec des enjeux évidents mais difficiles à traiter.
Cette acquisition d’information et de connaissance à partir de processus automatisés peut être caractérisée comme la « stratégie Google ».
L’autre stratégie est de fournir aux personnes des services qui les intéressent, et qui vont les conduire volontairement ou indirectement à fournir elles-mêmes les informations sous forme digitale. L’image de cela est la « stratégie Facebook ». Il doit y avoir un fort aspect émotionnel à l’interaction avec ce genre de service pour conduire les personnes à faire l’effort de créer l’information sous forme digitale. Mais cela fonctionne, et notamment à cause d’évolutions analysées par des sociologues ou psychologues sociaux comme Philippe Mallein.
Philippe Mallein, qui travaille sur les usages des services digitaux depuis quelques décennies, montre que les personnes ont aujourd’hui des comportements et des relations à quelques éléments fondamentaux obéissant à des tendances paradoxales. Par exemple, les technologies de l’information sont vues comme un moyen de gagner du temps – un email est plus rapide à composer et envoyer qu’un courrier physique – mais aussi d’en perdre – le web se substitue à la télé comme loisir principal ou au moins consommateur massif de temps libre, l’usage des jeux vidéo est réputé pouvant aller jusqu’à l’addiction. Hors de ces extrêmes, chaque personne est à la fois dans les deux types de relation. De la même façon, l’exigence à la vie privée est de plus en plus forte, et pourtant de plus en plus d’informations personnelles, voire gênantes, sont diffusées sur le web de façon volontaire. On apprendra petit à petit qu’enlever une information diffusée sur l’Internet sans précaution est aujourd’hui pratiquement impossible, d’ailleurs des premiers services apparaissent pour vous proposer de le faire pour vous, et les pouvoirs publics s’en préoccupent. La relation au groupe est également contradictoire, on souhaite à la fois réussir sa vie, « être soi », mais aussi être dans le groupe, à sa place – en suivant par exemple une « mode rebelle », ce qui constitue un oxymore. On doit être autonome et conforme, construire des enjeux identitaires, être soi, mais c’est très fatigant d’être soi, certains individus sombrent de ne pas y parvenir, ou d’en avoir le sentiment.
De la même façon, des comportements paradoxaux apparaissent dans la relation à l’espace ou au territoire, à l’action, à l’organisation, aux savoirs et savoir faire, au pouvoir.
Or les produits digitaux savent tirer partie de ces tendances contradictoires. Par exemple, ils transcendent l’opposition entre le virtuel et le réel en permettant à l’un d’augmenter l’autre. Cela va de la réalité augmentée superimposant une image virtuelle à une scène réelle aux systèmes du genre Second Life qui recréent un monde social virtuel complémentaire au monde réel, et utilisé par lui.
Ainsi Facebook permet à chacun de construire un miroir augmenté de ses relations interpersonnelles dans le monde virtuel. Ce faisant, la personne les digitalise volontairement. Les progrès à attendre de la proposition de valeur de ce genre de site sont probablement considérables, par exemple récemment la notion de Group a été raffinée pour permettre aux utilisateurs de distinguer des niveaux de partage de leurs informations personnelles entre groupes plus ou moins « proches ». Une partie de l’analyse des Groups présentée ici pourrait bien se retrouver progressivement dans Facebook ou un réseau social lui succédant.
[1] Une résolution horizontale de 4 à 12 kilomètres, et 25 à 37 niveaux verticalement.
[2] Business rules en anglais.
Moore’s Law and the Future of [Technology] Economy de Jean-Luc Dormoy est mis à disposition selon les termes de la licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage à l’Identique 3.0 non transposé.
Basé(e) sur une oeuvre à mooreslawblog.com.