DATA SCIENCE FOR EUROPE

DATA SCIENCE FOR EUROPE

Infrastructure

L’infrastructure TeraLab intègre des technologies matérielles, logicielles, et des solutions à l’état de l’art pour permettre des traitements batch ou temps réel disposant d’un stockage de centaines de téraoctets de volume utile de données (hors réplication et compression).

 

Matériel

La configuration matérielle de la plateforme inclut des calculateurs physiques, des périphériques de stockage et des réseaux dont l’architecture est adaptée au Big Data. Sa mise en œuvre sera incrémentale pour faciliter le déploiement et répondre à la montée en charge des projets hébergés, et à leurs besoins.


Cette configuration, physiquement installée en France, est conçue pour offrir une très haute disponibilité de type 24/7/365 accessible localement ou à distance.
 

En outre, cette infrastructure  est conçue  pour apporter toute la confidentialité et l'intégrité attendues par les utilisateurs et propriétaires des données.

Elle est constituée en deux compartiments :  

  • un compartiment sécurisé, constitué de  deux types de serveurs rassemblés en deux blocs connectés entre eux
    • Serveur  avancé téra-memory (RAM  au-delà 15 TO)
    • Serveurs de commodité distribués en nuage élastiques (« Elastic cloud »).
      La  dimension est adaptable aux besoins des projets.
  • un compartiment ultra sécurisé (technologie CASD)

 L’infrastructure est dimensionnée pour accueillir plusieurs centaines de téraoctets de données « brutes » (hors compression et réplication) et traiter, en batch ou en temps réel, directement en mémoire plusieurs tera-octets.

Logiciel

Les ressources logicielles incluent principalement le middleware dédié Big Data permettant de d’accéder  de façon appropriée aux précieuses données.

Il s’agit des systèmes de bases de données NoSql (i.e. au-delà du SQL : relationnelle, colonne, clé-valeur, graphe, document…) , des modèles/moteurs de parallélisation (Map reduce par exemple), des systèmes de virtualisation, ainsi que des outils de management et monitoring. Les ressources intègrent en outre les outils collaboratifs et interfaces utilisateurs à la pointe de l’art.

Ces solutions logicielles viseront à supporter des traitements batchs mais aussi temps réel pour appréhender les flux de données,  et également autoriser des sessions interactives sur les données.

Les ressources généralement réclamées par les projets incluent Hadoop (dont les distributions Cloudera et HortonWorks), MongoDB, Neo4j, ElasticSearch, Parstream, Redis, ou MySQL.   

Le déploiement de cette infrastructure logicielle sera également incrémental pour répondre aux attentes des projets béta-testeurs et aux opportunités offertes par les nouvelles offres apparaissant à un rythme très soutenu.