La question de l’interprétation sémantique des phénomènes observés (1)
Depuis l’utilisation des premiers capteurs imageurs d’observation de la Terre à bord de satellites, la quantité d’information n’a cessé de croître. Non seulement les sources de données se sont multipliées, mais chaque source produit de plus en plus de données (2). Grâce à cet accroissement d’information, les images satellitaires permettent d’observer, de plus en plus de phénomènes (3).
Toutefois, entre « observer la Terre » et « voir les phénomènes » qui s’y déroulent, un fossé persiste, relatif à l’identification des entités. On peut distinguer deux mécanismes a priori différents dans le processus d’identification : la délimitation et l’interprétation.
La délimitation consiste à séparer ce qui fait partie du phénomène (ou de sa représentation) de ce qui n’en fait pas partie. En imagerie satellitaire le pavage est une première façon de délimiter des entités de base (les pixels), mais on peut également travailler avec des groupes de pixels plus ou moins représentatifs de phénomènes de terrain (opération dite de “segmentation d’image”).
L’interprétation consiste à attacher une sémantique au phénomène ou à sa représentation (végétation, eau etc.).
À moins que la délimitation des entités soit arbitraire (comme c’est le cas pour les pixels), la définition séparée de ces deux mécanismes peut conduire à la situation quelque peu paradoxale d’isoler un phénomène de ce qui lui est étranger dès avant de connaître sa signification. Dans l’image, on peut envisager de faire intervenir la connaissance dans le processus même de segmentation. Toutefois, la délimitation des phénomènes ou de leur représentation est une question à part entière et on se limitera ici au problème de l’étiquetage sémantique d’entités déjà délimitées, quelles qu’elles soient. On fera simplement l’hypothèse que ces entités ont une certaine cohérence sémantique qu’il s’agit de retrouver.
Le rapport des traitements à l’interprétation sémantique
Les techniques et outils de traitement d’image d’une grande variété associés à des machines performantes aident l’expert en télédétection à repérer les phénomènes et à les interpréter.
L’assistance à l’interprétation d’image
Les algorithmes proposés par les outils de traitement d’image (extraction de bande, calcul d’indices ou de textures, analyses statistiques telles que les histogrammes ou corrélogrammes…) sont variés. Ils sont souvent utilisés par les experts en télédétection, ou bien pour fournir de nouvelles grandeurs plus significatives (et donc plus proches d’une « sémantique »), ou bien pour faire ressortir visuellement certains aspects de l’image. Ce type d’utilisation laisse à la connaissance de l’utilisateur le soin de pondérer les informations fournies par le calcul et de juger en dernier ressort de la sémantique des phénomènes représentés sur l’image.
La place de la connaissance
L’utilisation élémentaire des outils met en évidence que ceux-ci, en dépit de leur efficacité à manipuler l’information numérique contenue dans les images, n’en déduisent (ou construisent ?) pas seuls la sémantique qui pourrait être associée à la représentation des phénomènes. Cette étape nécessite l’intervention de la connaissance de l’utilisateur.
En prenant un peu de distance vis à vis de cette question, ce constat semble finalement assez logique si l’on considère que la signification d’un objet pour un sujet dépend du sujet. L’objet qui pourrait être interprété d’une manière par un observateur, le serait potentiellement d’une tout autre manière par un autre observateur. Cela peut être causé par des expériences passées, des objectifs futurs ou des circonstances présentes propres aux deux observateurs. La sémantique d’un objet semble donc subjective. Si un logiciel était capable d’inférer une sémantique à partir des données de l’image seule, cela aurait signifié un caractère objectif de la sémantique, ce qui aurait levé une contradiction.
La connaissance experte apparaît donc comme la clef de l’interprétation sémantique des images satellitaires. Utilisée par l’homme, elle est soumise aux limitations de ce dernier (vitesse d’exécution, erreurs d’évaluation ou simple oubli), bien que bénéficiant d’avantages réciproques, principalement liés à la souplesse de la connaissance (cas particuliers relevant de l’expérience propre ou bien cas d’indétermination soumis à un avis communautaire etc.). L’utilisation de la connaissance par la machine pourrait avoir des avantages et des inconvénients complémentaires. Mais pour être utilisée par la machine, la connaissance doit avant tout lui être transmise. Dans cette perspective, on peut distinguer deux paradigmes très différents.
Association de la connaissance à l’algorithme
Le premier paradigme consiste à adapter l’algorithmique à la connaissance.
Un cas typique de ce paradigme très répandu est la construction « d’arbres de décisions ». Afin d’associer une interprétation sémantique à une entité donnée, ces derniers examinent un certain nombre de conditions portant sur ses caractéristiques dans un ordre déterminé. Chaque condition peut être inscrite dans l’algorithme ou bien intervenir comme paramètre.
Une contribution importante suivant ce genre de paradigme est l’approche définie par A. Baraldi (2006), décrivant de manière non ambiguë la connaissance à utiliser pour l’interprétation de différents types d’images à l’aide de différents ensembles de concepts.
Suivant ce paradigme, la connaissance détermine les étapes de traitement qui vont mener à l’interprétation sémantique de l’entité en question.
La conceptualisation de la connaissance
Le second paradigme consiste à utiliser un algorithme indépendant de la connaissance.
C’est ainsi que la possibilité d’utiliser des formalismes de représentation de la connaissance a été envisagée pour l’interprétation sémantique des images satellitaires. Les logiques de description sont une famille de tels formalismes actuellement à la mode (en particulier du fait de son utilisation par certains standards du web sémantique). Les logiques de description permettent de décrire la connaissance tant au niveau conceptuel (la connaissance de l’interprète) qu’au niveau factuel (le contenu d’une image) pour former une base de connaissances.
Les bases de connaissances peuvent ensuite alimenter des logiciels d’inférence (raisonneurs) capables de déduire une connaissance implicite. Si l’on prend l’exemple d’une image satellitaire, cela peut se résumer ainsi :
1) Connaissance conceptuelle : « Une entité de sémantique S est une entité dont le résultat du traitement T est supérieur à la valeur V.
2) Connaissance factuelle : « L’entité E a un résultat de traitement T dont la valeur est R ».
3) Inférence : « Si R est supérieure à V, alors l’entité E a une sémantique S. »
Cette approche a été explorée pour les images satellitaires (Andrés, 2013).
Comparaison des deux approches
Dans les deux cas, la connaissance nécessaire à l’interprétation est passée par une étape de formalisation qui a permis de la désambiguïser. Cette étape est souvent accompagnée d’une certaine simplification privilégiant l’interprétation des cas généraux par rapport aux cas particuliers.
Cet aspect de formalisation est commun aux deux approches. Elles se distinguent néanmoins par leur manière de placer la connaissance entre l’utilisateur et l’algorithme. Plus l’intégration de la connaissance à l’algorithme est importante, plus la modularité est faible.
Dans le premier cas, l’avantage est donné à la machine sur l’utilisation de la connaissance. Le nombre de « possibles » est réduit, car l’algorithme, principal détenteur de la connaissance, fait l’hypothèse que ce qu’il ne voie pas n’existe pas (hypothèse du monde clos).
Dans le second cas, l’avantage est donné à l’utilisateur quant à l’utilisation de la connaissance. Elle est beaucoup plus modulaire vis-à-vis de la machine et l’utilisateur est beaucoup plus libre de ses définitions. En revanche, l’algorithme, plus générique, est confronté à un nombre de « possibles » plus élevé, jusqu’à, dans certains cas, se baser sur l’hypothèse du monde ouvert (ainsi pour les logiques de description).
Les limites de la modularisation de la connaissance
En dépit de l’intérêt expérimental de la seconde approche, elle présente néanmoins deux limites importantes.
La première réside dans la difficulté (souvent renforcée par un manque de motivation) des utilisateurs à expliciter la connaissance sur laquelle ils se basent pour interpréter les images. Procéder par “essai/erreur” à l’aide d’un logiciel d’assistance à l’interprétation d’images est une chose. Par étapes successives, on affine les paramètres des algorithmes jusqu’à l’obtention d’un résultat “satisfaisant”. S’il est souvent difficile à l’utilisateur d’expliquer à l’issue de sa démarche le motifs de ses choix, il est encore plus délicat de lui demander de les anticiper.
À l’inverse de cette démarche, l’utilisation d’une connaissance modularisé exige de se poser au préalable la question de la définition des concepts utilisés dans l’interprétation. Il s’agit là d’un renversement méthodologique important. Il faut y ajouter le fait que les outils et langages utilisés dans la représentation de la connaissance font partie d’un domaine de l’informatique à part entière. Pour une personne étrangère à ce domaine, il n’est pas évident de se familiariser avec des notions telles que les ontologies (4) , l’hypothèse du monde ouvert etc.
La seconde limite tient aux contraintes algorithmiques. La modularisation de la connaissance vis-à-vis de l’algorithme a pour effet de rendre ce dernier totalement générique. L’algorithme est ainsi privé de faire des hypothèses permettant de réduire l’éventail des possibles. Par exemple, dans un arbre de décision, le choix d’emprunter une branche A plutôt qu’une branche B à un certain niveau de l’arbre équivaut implicitement à faire l’hypothèse que l’on n’aura pas à examiner les conditions se trouvant au-delà de la branche B.
Dans l’approche utilisant les logiques de description, chaque logique est caractérisée par une complexité algorithmique pour la résolution d’un problème donné. De manière générale, plus la logique de description est riche (c’est à dire capable de décrire davantage de concepts), plus la complexité augmente… jusqu’à l’indécidabilité. En pratique, on se trouve rapidement confronté à des complexités exponentielles en temps de calcul. Or, il s’agit là d’une limitation capitale dans le domaine de la télédétection si l’on considère les volumes massifs de données r à représenter comme autant d’entités dans les bases de connaissances. En dépit de l’utilisation d’heuristiques efficaces pour contourner ces problèmes (classification sémantique des entités indépendamment les unes des autres, contournement de l’utilisation de la négation…), les temps d’exécution ne sont pas en mesure de rivaliser avec les approches classiques.
Comme domaine transdisciplinaire, la représentation des connaissances est susceptible de s’appliquer à la télédétection. Nous avons résumé ici l’originalité de son utilisation pour l’interprétation sémantique des images, les précautions à prendre, ainsi que les limites d’une telle approche. Cette dernière ne résume pas à elle seule le potentiel de l’utilisation des ontologies associées aux images satellitaires. D’autres pistes sont envisageables, en particulier en aval des opérations de traitement, en décrivant avec un formalisme sémantique le contenu d’une image préalablement interprétée par d’autres moyens. Il ne s’agit donc pas tant de se prononcer a priori sur l’utilité de la représentation des connaissances mais de déterminer à quel niveau de l’exploitation des données, son utilisation est pertinente.
(1) Il s’agit de la question de l’attribution d’une signification aux entités contenues dans l’image. Ces entités peuvent être des pixels ou des groupes de pixels.
(2) Principalement du fait de l’amélioration de la résolution spatiale.
(3) En interprétation d’image d’observation de la Terre, le langage tend à confondre un phénomène au sens propre (par exemple un arbre, un champ, une forêt, un lac… ou tout autre entité physique) avec sa représentation dans l’image (un pixel ou un groupe de pixel). Si tant est que la représentation existe dans l’image, sa nature est bien différente de la nature du phénomène représenté. Pourtant, on désigne souvent la représentation des phénomènes par le phénomène lui-même, bien que ces deux entités diffèrent tant par leurs caractéristiques intrinsèques (par exemple, le type de culture d’un champ n’est pas une caractéristique des pixels qui le représentent) et extrinsèques (par exemple, les représentations de deux champs peuvent être contiguës dans l’image alors que les champs eux-mêmes sont séparés par un chemin).
(4) On peut définir une ontologie comme la conceptualisation explicite de la conceptualisation d’un domaine (Grubber, 1995).