Le Big Data et nous

Le Big Data

En à peine 10 ans, l’adoption généralisée d’Internet a engendré la constitution d’une quantité phénoménale de données dans des secteurs extrêmement variés. A cette émergence s’adjoins la génération de données provenant de l’activité même d’Internet. Et plus récemment de l’engouement croissant pour les objets connectés. Ces masses d’informations, associées aux capacités de stockage et de traitements proposées par les différentes infrastructures de Cloud-Computing, représentent ce que nous appelons désormais le Big Data.

Le Big Data et information géographique

Le monde de l’information Géographique n’est pas laissé à l’écart de cette mouvance. Environ 80% des données générées contiennent une information géoréférencée. L’information Géographique s’étend également à la notion de géolocalisation, nativement incorporée à de très nombreux objets connectés tel que des Smartphones, capteurs ou autres composants. A ceci vient s’ajouter une démarche OpenData de plus en plus populaire. Ainsi que des projets de CrowdSourcing tel qu’OpenStreetMaps. 

Le big data à geomatys

Ces projets collaboratifs génèrent des sources de données spatiales extrêmement variées. Proposant ainsi des bases de données extrêmement diversifiées. Cela apporte non seulement une grande richesse dans la mise à disposition d’objets spatiaux. Mais aussi une structuration propice à la mise en place de mécanismes d’analyse innovants. Aujourd’hui, les données satellitaires de la constellation de satellites SENTINEL, proposées par le programme européen Copernicus sont mis à disposition gratuitement. Ces données apportent une nouvelle dimension à cette problématique. Il devient maintenant possible d’exploiter des bases de données d’images radar, optiques et multidimensionnelles de plusieurs Péta-octets.

Geomatys et le Big Data

Geomatys possède depuis longtemps une sensibilité aux enjeux du Big Data géospatial. Nous menons depuis plusieurs années différentes actions de développements autour de la thématique d’Observation de la Terre. Ces actions nous ont familiarisé avec la gestion de flux massifs de données. Depuis plusieurs années, nos équipes font évoluer la plateforme EXAMIND. L’objectif est de réaliser un produit capable de répondre à des enjeux de prise en charge de fortes volumétries de données. Mais également d’adaptation à des demandes toujours croissantes en matière de calcul. C’est de cette démarche qu’est né le projet EXAMIND. Une infrastructure de données spatiales élastique, capable de pourvoir à l’analyse de très grands volumes de données.

Une infrastructure élastique et interopérable

EXAMIND a pour vocation de proposer une plateforme exploitant au mieux les infrastructures de cloud-computing des différents acteurs du domaine. Le projet se structure autour du concept de conteneurs. Il utilise le projet Docker pour proposer une offre modulaire, indépendante des spécificités de chaque solution Cloud, et simple à administrer. L’architecture du projet EXAMIND a été pensée afin d’exploiter de nouveaux standards de stockage tel que les entrepôts de stockage objet comme Amazon S3, ou bien pour adopter un comportement multi-tenant. Il est nécessaire à garantir une bonne résilience de l’infrastructure, ainsi que la capacité à répondre à de fortes montées en charge.

Big data et information géographique

Exploitation de flux d’information en temps réel

EXAMIND permet de traiter des flux d’information en temps réel. La plateforme utilise le standard OGC Sensor Web Enablement et le modèle O&M afin d’harmoniser tout type de données de capteur, dont celles provenant des objets connectés. Les données de sources hétérogènes peuvent être croisées et remonter en temps réel. EXAMIND fournit ainsi une capacité d’analyse particulièrement dynamique.

Capacité d’orchestrer des traitements hétérogènes

Compte tenu de la volumétrie des données offerte par la mouvance Big Data, il devient problématique d’envisager la réalisation de systèmes de traitements répartis. En effet, cela nécessiterait un transfert des flux d’informations, incompatibles avec les capacités des réseaux de communication actuels. 

Dans ce contexte, il devient pertinent de proposer la mise à disposition de traitements au plus près des sources de données. Afin de permettre l’exploitation de technologies de traitements hétérogènes, EXAMIND propose une infrastructure de containerisation de ses traitements. Ainsi qu’un environnement permettant d’orchestrer l’exécution des différents containers, afin d’élaborer des chaînes de traitements déportées.

Un moteur pour faire du Big Data Analytics

Geomatys développe un moteur de Big Data Analytics dans le cadre du projet EXAMIND. Il s’intègre de façon transparente à l’ensemble des services OGC proposés. Il intègre également des technologies distribuées d’analyse et de traitement de données. Les choix technologiques et architecturaux apportent au projet, une parfaite compatibilité avec les infrastructures de Cloud-Computing actuellement disponibles sur le marché.

Moteur big data analytics de Geomatys