Modélisation de la distribution des espèces next-level

Les modèles de répartition des espèces (MDS) sont des modèles statistiques et mécanistes utilisés pour définir la répartition géospatiale des espèces en fonction de la combinaison de variables écologiques (telles que l’environnement biotique et abiotique) offrant des conditions et des possibilités favorisant leur présence. En projetant les MDS sur des environnements futurs, les scientifiques peuvent déterminer où et quand ces conditions seront réunies pour fournir une prédiction de la répartition future des espèces. Ces prédictions sont souvent prévues des mois, des années ou des décennies à l’avance, et sont statiques en ce qui concerne à la fois l’algorithme et les occurrences prédites. Cependant, les facteurs qui affectent les espèces et leurs déplacements ne sont pas statiques. Imaginez que vous puissiez appliquer ces modèles à un monde en évolution en temps réel ! C’est précisément l’aide que nous apportons aux scientifiques en utilisant la technologie de traitement géospatial et de science des données à la volée EXAMIND de Geomatys. Lorsque les conditions environnementales changent, ou sont affectées par des perturbations telles qu’un ouragan ou des projets de développement qui perturbent les habitats actuels, des MDS à échelle fine peuvent être appliqués pour prédire comment les animaux se disperseront. En collaboration avec nos partenaires de la recherche et de l’industrie, nous travaillons à l’application de cette technologie en développement pour, par exemple, gérer les populations animales. Cette capacité deviendra essentielle dans presque tous les domaines, y compris la gestion de la biodiversité, car le changement climatique déstabilise les écosystèmes et les habitudes, et ainsi il perturbe les connaissances sur lesquelles nous nous appuyons actuellement pour prendre des décisions. Un projet dans lequel la technologie de Geomatys facilite ce travail est celui fait pour l’association française pour la gestion et la conservation du cheval de Przewalski, une espèce menacée (TAKH). L’association a présenté son portail Web alimenté par EXAMIND pour visualiser et analyser les populations de chevaux de Przewalski, appelé Shamane, lors du Congrès mondial de la nature de l’UICN de cette année, le 8 septembre 2021 à Marseille. Explorer le platform Shamane (https://takh.geomatys.com/) Bien que l’objectif soit de former des algorithmes d’apprentissage automatique qui puissent aider à prédire le comportement des chevaux en réponse à des facteurs environnementaux variant dans le temps, un travail préliminaire que nous ayons effectué pour faciliter ce projet a été de construire la base de données, en rassemblant des sources de données vastes et disparates, en assurant l’interopérabilité et en les rendant accessibles à l’utilisateur dans un seul environnement. Grâce aux nouvelles fonctionnalités disponible sur son socle EXAMIND en réponse aux besoins des chercheurs TAKH, les utilisateurs peuvent suivre des animaux individuels à travers le temps, basculer leur histoire et leur pedigree, explorer leurs habitats en 4D, interroger des ensembles de données connexes et lancer des analyses, le tout dans l’environnement de l’infrastructure de données spatiales de Shamane. L’outil permet donc non seulement d’analyser les données, mais aussi de fournir des renseignements permettant de prendre des décisions en temps réel en matière de surveillance et de gestion des populations. Vidéo teaser crée pour le TAKH par Les Fées Spéciales La vidéo teaser du projet Shamane ci-dessus illustre comment l’utilisateur peut suivre le mouvement de chevaux individuels génétiquement distincts (représentés par des couleurs différentes, souvent regroupés en troupeaux) dans une vue 3D du paysage. À l’aide du curseur situé en bas de la page, il peut suivre les changements de position des animaux ainsi que l’évolution de l’habitat dans le temps. Cela permet aux chercheurs de déterminer, par exemple, quels types de barrières d’habitat peuvent influencer les déplacements. Dans un prochain temps, ils vont pouvoir également superposer d’autres données, telles que des données météorologiques à cette vue et effectuer des analyses dans la barre latérale de gauche à l’aide d’un notebook de datascience. A priori, ces analyses visent à identifier les facteurs écologiques qui déterminent les comportements de déplacement des animaux afin de soutenir les stratégies de gestion des populations et d’autres efforts de conservation. Bien que l’outil soit disponible via un portail web, l’accès est limité aux utilisateurs autorisés, sécurisé avec la même technologie que celle utilisée par Geomatys dans le domaine de la défense. Ceci est important pour traiter des données sensibles, telles que la localisation précise d’espèces menacées. Cet outil fournit donc une plateforme performante et sécurisée pour gérer la conservation de ces populations fragiles.
Visualisation des conditions météo à la volée en réalité augmenté

Depuis quelques mois les équipes R&D de Geomatys travaillent sur l’exploitation de données GHOM (Géographiques, Hydrographiques, Océano et météo ) en réalité augmentée. L’enjeu étant de convertir, côté serveur à l’aide d’Examind-Server, des formats complexes tel que GRIB, NetCDF ou encore S-57, pour les servir en 3D sur un client Unity et de visualiser ces données à la volée avec des HolloLens. D’autres cas d’usages arrivent en particulier pour le monde maritime, nous vous les présenterons bientôt.
Dataviz : “voir et donner à voir”

Dans le cadre de ses activités Geomatys s’est structuré selon trois axes : 1.La mise en place et l’exploitation de Datalakes Geospatiaux (basé sur des infrastructure Cloud et exploitant des volumes massifs de donnée) 2. La (Geo)Datascience 3. La visualisation de données incluant la 3D et la réalité augmentée. Cet article présente un retour d’expérience sur la mise en place de traitements à la volée sur un DataLake pour les besoins d’une agence spatiale. Les masses de données brutes et les résultats de leurs analyses disponibles pour la prise de décision humaine sont un challenge pour les outils de visualisation. Ainsi si les masses de données actuelles permettent l’émergence des Jumeaux Numériques, pour la Dataviz elle peuvent parfois ressembler à Janus : Autrement dit et pour paraphraser René Char qui s’interroge quand même un peu sur ce qu’il vient faire là, pour les outils de Dataviz conduisant à une prise de décision, “l’essentiel est toujours menacé par l’insignifiant” . C’est en cherchant à dépasser cette ambivalence que nous tâchons de concevoir notre environnement d’exploration et de visualisation de la donnée : EXAMIND Playground dont nous faisons ici une petite revue d’inventaire. S’appuyant sur les capacités de notre socle logiciel à diffuser de large volume de données géospatiaux, le cas échéant en streaming, EXAMIND Playground est conçu comme un ensemble de modules de visualisation cartographique mobilisable et configurable à façon qui s’appuie sur un moteur de visualisation géographique 4D (3D plus la dimension temporelle) sur lequel viennent se greffer des outils d’exploration de la donnée. Ainsi à partir d’une vue d’ensemble contextuelle à son besoin, l’utilisateur va pouvoir se concentrer et zoomer sur des zones spécifiques et éventuellement en observer la dynamique temporelle (cf infra). L’utilisateur va également pouvoir forer sa donnée et examiner l’évolution de plusieurs variables dernière le long d’une trajectoire ou en un point donné. L’outil de visualisation interagit avec le serveur de données ainsi, si le cas d’usage le nécessite, l’utilisateur peut ajouter des objets à l’environnement cartographique et simuler leurs impacts. Comme ici, dans le cas de la simulation de l’impact de la circulation des flamands roses après un ajout de linéaire de haies. Enfin, la donnée géographique pouvant venir enrichir notre perception du monde réel, EXAMIND Playground est utilisable avec des casques de réalité augmentée afin de proposer à l’usager de voir directement son univers enrichi. EXAMIND Playground propose donc toute une panoplie d’outils de visualisation cartographique mobilisables en fonction du besoin et du cas d’usage traité afin de pouvoir explorer au mieux toute la richesse de ses données. Le seul risque à trop bien voir ses données étant d’ « avoir la surprise de trouver un lion dans un placard là où l’on était sûr [au départ] d’y trouver des chemises. »(Frida Kahlo)
Datalakes geospatiaux : Un pas de plus pour faire face à l’augmentation des volumes de données brutes

Datalakes geospatiaux : Un pas de plus pour faire face à l’augmentation des volumes de données brutes 20/05/2021 user Dans le cadre de ses activités pour les acteurs du domaine Spatial et de l’Observation de la Terre, Geomatys a structuré ses activités selon trois axes : La mise en place et l’exploitation de Datalakes Geospatiaux (basé sur des infrastructure Cloud et exploitant des volumes massifs de donnée) La (Geo)Datascience La visualisation de données incluant la 3D et la réalité augmentée Cet article présente un retour d’expérience sur la mise en place de traitements à la volée sur un DataLake pour les besoins d’une agence spatiale. Que l’on soit en charge de la production et la collecte de données où en charge d’un DataLake et de l’analyse ultérieure de ces mêmes données, force est de constater que la quantité d’information produite ne cesse d’augmenter. Les segments sols et centres de mission scientifiques, n’échappent pas à cette tendance, en raison notamment des nouveaux instruments scientifiques avec de très hautes résolutions, entraînant des volumes de données à produire, stocker et transmettre toujours plus conséquents. Cependant, combien de données seront réellement utilisées au regard du volume de données brutes acquises ? Si l’on prend le cas du satellite optique Sentinel 2, une recherche sur la plateforme SciHub sur l’année 2020, indique que, tous types de produits confondus, un peu moins de 11 Millions de produits ont été générés cette année là et qu’ environ 1,7 millions possèdent une couverture nuageuse supérieure à 95 % soit la quasi totalité de l’image. Il est donc probable que plus de 15% des données acquises en 2020 ne soient jamais utilisées. Ce pourcentage peut varier en fonction du capteur à l’origine de la mesure (radar, optique…) mais le constat reste valable pour tous, un nombre non négligeable de données brutes ne sera pas utilisé pour produire des analyses. A ce pourcentage de données “non utilisables” s’ajoutent les données pour lesquelles la mesure est exploitable mais qui ne seront simplement pas utilisées par manque d’utilisateurs pour la zone ou la période. Pour le producteur (et le gestionnaire de DataLake) cela représente une quantité de données non négligeable (environ 1,7 PetaOctet de données par an. dans le cas de Sentinel 2). Dans le cas de chaînes de production complexes telles que les segments sols de satellite ce nombre peut être multiplié par le nombre de post-traitements que subit la donnée depuis la mesure brute (L0 ou L1) jusqu’à devenir un produit prêt à l’utilisation (L2 à L4). Toujours dans le cas Sentinel 2, trois post-traitements sont appliqués (niveau L1A, L1B et L1C) à la donnée avant d’obtenir une donnée de niveau L2, produite systématiquement. Finalement, ce sont donc plusieurs dizaines de Po de données qui ont été traitées et stockées et qui ne serviront pas. Outre que cela ne s’inscrit pas vraiment dans une démarche “GreenIT”, cela impacte également le coût de l’infrastructure matérielle. Passer d’un traitement systématique à une donnée prête à l’emploi (dans la mouvance de la démarche Analysis Ready Data) et produite à la demande, permettrait d’éviter cette sur-production inutile (note pour l’aspect GreenIT : nous laissons au futur résultat d’une étude ACV le soin de déterminer le point d’équilibre entre traiter deux fois une même image ou mettre le résultat en cache après la première demande, l’un consommant plus d’énergie ou l’autre nécessitant plus de disque dur). Aujourd’hui, cette approche “à la demande” est de plus en plus mise en œuvre pour des traitements à partir des données post-traités (production à la demande d’occupation des sols, de taux d’humidité comme pour le projet européen Phidias sur lequel Geomatrys est impliqué au côté de nombreux partenaires dont le CNES le CINES et l’IRD …), évitant ainsi tout ou partie de la production systématique. Cependant, la plupart des segments sols (du niveau L0 au niveau L2 dans le cas de Sentinel 2) reste sur une approche systématique malgré les quantités de données inutiles. Pourquoi ? Une raison possible, sans doute pas la seule, est qu’un des post-traitements essentiels consiste à projeter sur une grille régulière les mesures dérivées du signal capté par le satellite. La projection des données consiste à associer des valeurs du signal (le signal pour chaque pixels) de manière directe ou indirecte à des coordonnées géospatiales distribuées selon une grille régulière. Cela rend les données beaucoup plus faciles à exploiter que des valeurs distribuées de manière irrégulière. Or, l’algorithme de re-échantillonage à partir de ces simples valeurs est complexe et peut s’avérer coûteux en termes de performances. Depuis 2018, RESTEC (Remote Sensing Technology Center of Japan) société affiliée à l’Agence Spatiale Japonaise (JAXA), travaille avec Geomatys sur l’application de cette projection à la volée pour les données issues des satellites GCOM-C et W. Exemple de sortie d’un service Analysis Ready Data – WMS via Examind Dans l’exemple du GCOM-W, la donnée brute à laquelle est appliquée la projection à la volée correspond à une partie conséquente de l’orbite du satellite. La position de chaque pixel est exprimée en latitude et longitude pour chaque pixel, ainsi de l’équateur au pôle existe t’il une très grande variabilité dans la taille des pixels. L’objectif est donc de fournir à l’utilisateur un accès à la volée à des données prêtes à l’emploi (approche Analysis Ready Data), moins dépendant de la structure initiale des produits et, dans le cas de GCOM-W, de l’orbite du satellite. Pour cela, l’ensemble des données est indexé comme une couche spatio-temporelle unique (ou cube de données). Ainsi l’utilisateur peut télécharger l’emprise spatio-temporelle des données qu’il souhaite via des services standards (WCS ici) indépendamment de la structure des données acquises par le satellite. Proposer un tel service à la volée nécessite de disposer d’une opération de projection efficace. C’est sur cet aspect que nous avons concentré le gros de nos travaux durant 2 ans. Il est assez facile de déterminer les coordonnées géographiques (latitude et longitude) de chaque pixel lorsque ces coordonnées sont déclarées dans le fichier. Il est beaucoup plus difficile d’effectuer
Intelligence Artificielle – du hasard et de la nécessité

Intelligence artificielle : Du hasard et de la nécéssité “Vivre, c’est transformer en conscience une expérience aussi large que possible”disait André Malraux. Nos Intelligences Artificielles contemporaines, souvent fantasmées pour leurs capacités, sont bien loin de ces considérations. Il ne s’agit pas ici de nier, les résultats spectaculaires obtenus depuis le tournant des années 2010, dans le domaine des algorithmes d’apprentissage ou Machine Learning, dû en partie, d’une part à la démocratisation des capacités de calcul nécessaires à ces algorithmes et d’autres part au verrou de la dimensionnalité qu’ont su, si ce n’est résoudre, au moins grandement dégripper les réseaux de neurones convolutifs (ou CNN). La libération de ces verrous a trouvé des applications pour tous et dans tous les domaines , qui plus est de manière si rapide, que les capacités nouvelles de ces outils, ainsi mis en lumière, peuvent se transformer pour certains en miroir aux alouettes. Qui n’a pas entendu ou lu depuis quelques années des récits prophétiques où les robots bientôt rêveraient. A Geomatys, peut être en partie car un de ses fondateurs possédait un retour d’expérience notable sur ces outils manipulés durant sa thèse au milieu des années 2000, de leurs avantages et de leurs limites, nous avons dans un premier temps, regardé ce bel objet qu’étaient les réseaux de neurones convolutifs comme un prolongement de nos activités plutôt que comme un axe d’activité à part entière. Ainsi l’avons nous mis en en œuvre très tôt pour des besoins de classification d’objet dans des d’image satellites, où à d’autres fins mais sans pour autant en faire l’alpha et l’oméga de nos activités futures. Il faut sans doute y voir ici, un hasard conjoncturel où la connaissance de l’outil nous a empêché d’adhérer à la mythologie collective se mettant en place. Ainsi avons-nous continué à consolider nos fondamentaux quant à la maîtrise de la gestion de l’information spatiale pour les grosses infrastructures de données, cet outil étant un parmi tant d’autres. Or aujourd’hui, à la ville comme à la campagne, force est de constater qu’il y a les entreprises qui en sont et celles qui n’en sont pas. Nécessité faisant loi, nous faisons donc ici notre coming out communicationnel et présentons ci-après nos activités dans le domaine pour affirmer que oui, nous en sommes! Aujourd’hui l’IMINT mobilise grandement les réseaux de neurones convolutifs pour automatiser très efficacement les tâches de reconnaissances d’objets dans une image, et avec force données d’apprentissage cela fonctionne très bien eu égard aux types de corrélations spatiales qu’un CNN est capable de capturer. De nombreuses sociétés se sont donc positionnées sur ce segment d’activité. Ayant raté le premier train, nous avons donc décidé de construire nous même notre locomotive et de nous positionner sur ce que nous pensons constituer le gros du potentiel encore sous exploité du Machine Learning, et avons démarré depuis un an trois projets distincts sur chacun des domaines. Couplé aux 15 années d’expertises de Geomatys dans le domaine de l’interopérabilité, du traitement et des infrastructures massives de données géospatiales, et de consolidations de cette expertise dans sa gamme logiciel Examind, nous oeuvrons désormais à transformer nos expériences dans le domaine du machine learning en des fonctionnalités facilement re-mobilisables pour nos client. Ce n’est pas Malraux mais ce n’est pas mal non plus.