Le Big Data et nous

Le big data

En à peine 10 ans, l’adoption généralisée d’Internet a engendré la constitution d’une quantité phénoménale de données dans des secteurs extrêmement variés. A cette émergence vient s’adjoindre la génération de données provenant de l’activité même d’Internet, et plus récemment de l’engouement croissant pour les objets connectés.
Ces masses d’informations, associées aux capacités de stockage et de traitements proposées par les différentes infrastructures de Cloud-Computing, représentent ce que nous appelons désormais le Big Data.

Big Data et Information géographique

Le monde de l’information Géographique n’est pas laissé à l’écart de cette mouvance puisque qu’environ 80% des données générées contiennent une information géoréférencée. L’information Géographique s’étend également à la notion de géolocalisation, nativement incorporée à de très nombreux objets connectés tel que des Smartphones, capteurs ou autres composants en tout genre. A ceci vient s’ajouter une démarche OpenData de plus en plus populaire, ainsi que des projets de CrowdSourcing tel qu’OpenStreetMaps.
Ces projets collaboratifs génèrent des sources de données spatiales extrêmement variées, proposant des bases de données extrêmement diversifiées. Cela apporte non seulement une grande richesse dans la mise à disposition d’objets spatiaux, mais aussi une structuration propice à la mise en place de mécanismes d’analyse innovants. Récemment, les données satellitaires de la constellation de satellites SENTINEL, proposées par le programme européen Copernicus ont été mises à disposition gratuitement. Ces données apportent une nouvelle dimension à cette problématique, puisqu’à terme il sera possible d’exploiter des bases de données d’images radar, optiques et multidimensionnelles de plusieurs Péta-octets.

Geomatys et le Big Data

Geomatys est depuis longtemps sensibilisé aux enjeux du Big Data géospatial. Nous menons depuis plusieurs années différentes actions de développements autour de la thématique d’Observation de la Terre. Ces actions nous ont familiarisé avec la gestion de flux massifs de données. Depuis deux ans, nos équipes font évoluer la plateforme Constellation-SDI pour réaliser un produit capable de répondre à des enjeux de prise en charge de fortes volumétries de données, mais également d’adaptation à des demandes toujours croissantes en matière de calcul. C’est de cette démarche qu’est né le projet EXAMIND, une infrastructure de données spatiales élastique, capable de pourvoir à l’analyse de très grands volumes de données.

Une infrastructure élastique et interopérable

EXAMIND a pour vocation de proposer une plateforme exploitant au mieux les infrastructures de cloud-computing des différents acteurs du domaine. Le projet a dès le départ été structuré autour du concept de conteneurs, et utilise le projet Docker pour proposer une offre modulaire, indépendante des spécificités de chaque solution Cloud, et simple à administrer. L’architecture du projet EXAMIND a été pensée afin d’exploiter de nouveaux standards de stockage tel que les entrepôts de stockage objet comme Amazon S3, ou bien pour adopter un comportement multi-tenant. Il est nécessaire à garantir une bonne résilience de l’infrastructure, ainsi que la capacité à répondre à de fortes montées en charge.

Exploitation de flux d’information en temps réel

EXAMIND permet de traiter des flux d’information en temps réel. La plateforme utilise le standard OGC Sensor Web Enablement et le modèle O&M afin d’harmoniser tout type de données de capteur, dont celles provenant des objets connectés. Les données de sources hétérogènes peuvent être croisées et remonter en temps réel. EXAMIND fournit ainsi une capacité d’analyse particulièrement dynamique.

Capacité d’orchestrer des traitements hétérogènes

Compte tenu de la volumétrie des données offerte par la mouvance Big Data, il devient problématique d’envisager la réalisation de systèmes de traitements répartis. En effet, cela nécessiterait un transfert des flux d’informations, incompatibles avec les capacités des réseaux de communication actuels.

Dans ce contexte, il devient pertinent de proposer la mise à disposition de traitements au plus près des sources de données. Afin de permettre l’exploitation de technologies de traitements hétérogènes, EXAMIND propose une infrastructure de containerisation de ses traitements, ainsi qu’un environnement permettant d’orchestrer l’exécution des différents containers, afin d’élaborer des chaînes de traitements déportées.

Un moteur pour faire du Big Data Analytics

Geomatys développe un moteur de Big Data Analytics dans le cadre du projet EXAMIND. Il s'intègre de façon transparente à l’ensemble des services OGC proposés, et intègre des technologies distribuées d’analyse et de traitement de données. Les choix technologiques et architecturaux apportent au projet, une parfaite compatibilité avec les infrastructures de Cloud-Computing actuellement disponibles sur le marché.

EXAMIND repose sur 3 principes :

  • Une large interopérabilité et connectivité
  • Capacité d’analyser des sources d’information hétérogènes, bien souvent confinées dans des entrepôts peu connectés.
  • Conforme aux standards en vigueur.
  • Utilisation de services web permettant de simplifier leurs mises en oeuvre au coeur de systèmes d’information existants.
  • Une distribution pertinente des données et des calculs
  • Distribution des masses d’information sur de multiples instances de serveurs.
  • L’objectif, rendre possible :
    • la répartition d’importants volumes de caches de données.
    • la distribution des calculs résultant de l’analyse multidimensionnelle.
  • Mise en place de structures élastiques des plateformes de cloud-computing.
  • Une diversité des structures à analyser
  • Intégration des traitements spatiaux à des environnements de calcul hautement distribués.
  • Environnements proposant le support d’analyse sous forme de graphes ou en mode flux.
  • Analyse en temps réel des données.