DATA SCIENCE FOR EUROPE

DATA SCIENCE FOR EUROPE

Métiers

Les nouveaux métiers du Big Data sont promis à un long et bel avenir. Selon les spécialistes de Harvard Business School, Data Scientist serait même LE métier le plus sexy du 21e siècle.

 

 

Architecte des systèmes d’information Big Data. Le concept d’une information exclusivement « propriétaire », sous un format rigide prédéfini et standardisé, stockée dans une data-warehouse et circulant en circuit très fermé, paraît aujourd’hui avoir vécu dans de nombreux domaines. Les « Big Data » ne prenant leur sens/valeur qu’au sein d’un « écosystème » et ne pouvant être dissociées des usages et services réalisés à partir d’elles et/ou qui les génèrent. L’architecte d’un système d’information permettant d’acquérir, de stocker, de nettoyer, de représenter et d’analyser des données très volumineuses, d’une grande variété (e.g. des grandes matrices de nombres, des séries temporelles, du contenu multimedia ou encore des graphes dynamiques décrivant l’évolution des réseaux sociaux) sous la contrainte de temps quasi-réel, pour reprendre le refrain désormais à la mode des trois « V », Volume/Variety/Velocity, est amené à assembler une multitude de briques technologiques (e.g. les systèmes de fichiers distribués, la parallélisation massive), aucun système ne permettant aujourd’hui à lui seul d’effectuer l’ensemble de ces tâches.

 

Chief-Data-Officer. Afin de saisir les enjeux stratégiques associés à la création possible de valeur à travers les Big Data et de mettre en place une organisation adaptée, il semble aujourd’hui indispensable de modifier la gouvernance de certaines entreprises et de recruter un « Chief-Data-Officer », une sorte de champion réconciliant IT et business au sein du groupe et percevant l’impact éventuel des données sur chacun des « métiers » de la société, y compris la trésorerie et le marketing, créant ainsi les conditions de l’innovation et du Big Business à venir des Big Data

 

Data scientist. A en juger par la hausse spectaculaire des offres d’emploi dédiées, le métier de data scientist semble avoir supplanté celui de statisticien. Est-ce un simple « réhabillage » visant à rendre plus attractif le métier de l’analyse statistique des données en vue de l’élaboration d’outils d’aide à la décision? Le Data-Mining ? La Business Intelligence ? Pas vraiment. Il est toutefois clair que l’exploitation analytique des données n’est pas une activité nouvelle, la gestion des risques (financiers, sanitaires, opérationnels, etc.), l’optimisation de processus industriels (e.g. contrôle de qualité, planification) ou le monitoring de systèmes complexes mobilisent depuis longtemps un corpus de connaissances et savoir-faire issu de différentes branches des mathématiques appliquées (e.g. probabilités et statistique, optimisation, analyse et calcul numériques) et une utilisation de solutions informatiques très encadrées.  La nouveauté provient du changement d’approche que nous imposent les Big Data. Il y a encore peu de temps, les données étaient exclusivement collectées d’après des plans d’expérience précis, aux coûts souvent élevés. En conséquence, la relative rareté de l’information impliquait nécessairement des étapes de prétraitement des données considérables, lors desquelles l’expertise humaine jouait un rôle déterminant, dans la perspective d’élaborer des modèles statistiques à vocation prédictive en particulier. La grande complexité des données disponibles aujourd’hui, leur dimension souvent explosive, la nécessité parfois d’automatiser le traitement en vue de satisfaire aux contraintes du temps réel, a conduit à l’essor du machine-learning, la discipline à l’interface des mathématiques appliquées et de l’informatique, visant à produire des algorithmes permettant d’apprendre automatiquement des données les représentations ou les modèles les plus performants. Avec la mise au point d’algorithmes très efficaces dès le début des années 90, l’intégration des contraintes computationnelles et le succès de logiciels fondés sur ce type d’approche (pour la reconnaissance vocale ou de caractères manuscrits par exemple), le machine-learning a progressivement remplacé la statistique traditionnelle dans de nombreux domaines. Ainsi, le data-scientist pourrait ne pas être seulement un statisticien mais un technicien capable d’articuler des compétences en mathématiques, en informatique et en droit tout à la fois, afin d’appréhender la chaîne de traitement des données dans sa globalité : de l’acquisition des données à la solution analytique, en passant par les étapes de stockage et de représentation. Le temps où les services informatiques  de l’entreprise transmettait un fichier « plat » au département en charge de la modélisation puis se voyait renvoyer un modèle statistique très parcimonieux encapsulé dans une structure spécifique et à recoder entièrement pour la mise en production semblant révolu à l’ère Big Data.

 

D’une façon générale, si le rôle croissant que sont amenées à jouer les données dans  presque tous les champs de l’activité humaine  fait aujourd’hui consensus,  des connaissances générales relatives à ce que permet aujourd’hui le traitement des données, aux technologies à mettre en œuvre pour en réaliser l’acquisition et l’exploitation, aux dangers afférents (e.g. la dépendance de certaines activités à l’égard des systèmes d’information, disparition de la vie privée) semblent absolument indispensables à presque tous les cadres et décideurs, dans presque tous les domaines. L’un des défis que pose le phénomène Big Data est ainsi la formation de cadres et de techniciens aux « métiers »  évoqués plus haut et plus généralement l’enseignement d’un corpus de connaissances articulant sciences, business et droit requérant de s’affranchir des carcans disciplinaires, sur le modèle de ce que propose aujourd’hui l’Institute for Data Sciences and Engineering de Columbia  par exemple. L’esquisse des futurs métiers du « Big Data » nous invite ainsi à réfléchir et à proposer de nouveaux programmes académiques pour les générations à venir.