DATA SCIENCE FOR EUROPE

DATA SCIENCE FOR EUROPE

Données

Le partenariat des deux groupes bénéficie de la technologie CASD et de l’apport de données riches notamment de l’INSEE pour créer un environnement fiable et souverain, unique en Europe. Les projets de recherche et d’innovation Big Data peuvent être expérimentés à échelle réelle, en toute sécurité.

Des corpus de données considérables seront collectés à partir de différentes sources, personnelle s ou professionnelles fournies par des industriels, l’administration ou des particuliers. Ils seront mis à disposition aux utilisateurs après traitement pour les rendre anonymes, ou après chargement dans le compartiment ultra-sécurisé.

TeraLab comprendra ainsi des corpus diversifiés de données  ouvertes structurées ou non structurées de plusieurs centaines de téra-octets, locales ou distantes :

  • Données de projets : les projets hébergés pourront fournir leurs jeu de données. Ces données peuvent être sensibles et non anonymes malgré leur niveau de détail et confidentialité. La topologie est habituellement éprouvée.
  • Données partagées : ces données seront collectées par l’écosystème de TeraLab ou fournies par des partenaires industriels. Elles peuvent être de plusieurs types :
    • Anonymes publiques collectées (ex. Common crawl, Million songs, Openstreetmap, ..)
    • Publiées ouvertes au public -« Open Data » notamment par. Etalab et le partenaire INSEE
    • Privées rendues anonymes (ex. fournies par industriels pour des challenges)

Le volume des corpus de données peut atteindre plusieurs centaines de téra-octets de données utiles pour des expérimentations à échelle réelle.