Y-a-t’il un Data Scientist dans le Data Lab ?

Le Big Data est, paraît-il, une « vraie rupture culturelle » qui a « rendu les entreprises impatientes d’atteindre le Graal de la valeur tant vanté par les acteurs du Web », affirment les auteurs de cet ouvrage, Pirmin Lemberger (consultant chez SQLI), Marc Batty (co-fondateur de Dataiku), Médéric Morel (directeur général de Contexeo), Jean-Luc Raffaëlli (directeur de projets stratégiques à la DSI du groupe La Poste).

De fait, dans les entreprises et les organisations, les besoins sont forts et la volonté de maîtrise des données est affirmée.

Le Big Data permet de créer de la valeur dans au moins deux domaines : la conception de nouveaux produits et l’élargissement du champ d’investigation à des données qui n’étaient, jusqu’à présent, pas accessibles avec d’autres outils.

Les auteurs listent les champs d’application possibles du Big Data, et ils sont nombreux, qu’il s’agisse d’analyser les données en mouvement (surveillance, sécurité, suivi en temps réel de clients, pilotage de systèmes complexes, analyse de logs), d’analyser des données très variées (réseaux sociaux, santé, multimédia…), de traiter de grands volumes (détection de fraude, toxicité, analyse de risques, environnement…) ou d’expérimenter (impact de nouveaux produits, profilage de comportements…).

Une transformation de l’entreprise

Au-delà de ses promesses, le Big Data transforme trois domaines. D’abord, l’organisation de l’entreprise. « Ce mode de travail expérimental et agile des équipes de développement, qui n’est qu’une conséquence de l’absence de recul sur des techniques encore récentes, impliquera de repenser le rôle des managers opérationnels eu sein des DSI », assurent les auteurs.

Les « agents d’innovation » devront ainsi se substituer aux simples gestionnaires : « Valoriser la curiosité, instaurer une culture du prototypage et faire la place belle à l’apprentissage par l’erreur, tels seront les rôles que devrait assumer le manager agile », résument les auteurs. Ensuite, le Big Data transforme également les relations avec les fournisseurs, avec des modes de communication « plus ouverts et plus libres », de même qu’il fait évoluer les liens juridiques, par exemple pour l’usage des données ou leur localisation.

Big Data et nouvelles compétences

Enfin, le Big Data transforme les compétences. En effet, il nécessite de nouvelles compétences, en particulier pour appréhender de nouveaux modèles de traitement des données, maîtriser le déploiement de Hadoop, se familiariser avec de nouvelles méthodes de modélisation ou encore s’approprier les outils d’analyse de données, dont beaucoup sont relativement complexes.

D’un point de vue plus culturel, dans la mesure où la conception des systèmes de trouve transformée avec le Big Data, cela revient à remettre en cause ce qui est considéré comme acquis et relevant des bonnes pratiques : « La conception de systèmes qui exploitent des données Big Data exige parfois de remettre en question certaines priorités, au premier rang desquelles l’intégrité des données, au profit d’une très haute disponibilité », expliquent les auteurs.

Elle remet également en cause les compétences historiques des informaticiens, qui doivent, désormais, se familiariser avec de nouvelles architectures de bases de données (noSQL), l’algorithme MapReduce ou le framework Hadoop.

Big Data et machine learning, manuel du data scientist, par Pirmin Lemberger, Marc Batty, Médéric Morel, Jean-Luc Raffaëlli, Dunod, 2015, 219 pages.

Fédérer des équipes pluridisciplinaires

L’une des illustrations de cette évolution des compétences est l’émergence du nouveau métier de data scientist, apparu à la fin des années 2000. Cette fonction combine trois dimensions : une dimension mathématiques/statistiques, pour maîtriser les algorithmes, les tests et les probabilités, une dimension technologique, pour la programmation, et une dimension métier, ce qui différencie cette fonction de celle de simple statisticien.

« Comprendre le métier, analyser les enjeux commerciaux de son secteur et de son entreprise font partie des attributions du data scientist, expliquent les auteurs. Confronté à de nombreux chiffres et statistiques, il doit, en outre, être en mesure de comprendre les échelles utilisées, de saisir les subtilités pour en extraire les informations pertinentes pour l’entreprise. » Les auteurs suggèrent de créer un data lab, avec une ou plusieurs équipes travaillant en mode agile sur des projets stratégiques et créateurs de valeur à moyen ou long terme.

« Il est légitime de parler de data lab dès lors que deux ou trois profils complémentaires s’associent », conseillent les auteurs, par exemple des architectes logiciels, des analystes métier, des développeurs ou des designers Web, sous réserve que tous soient suffisamment curieux, ouverts et enthousiastes. Dans l’idéal, l’ensemble doit être rattaché au comité de direction.

Concrètement, le data scientist, ou l’équipe d’un data lab, dispose d’une feuille de route. Ce qui ressemble à un workflow se déroule en sept étapes : imaginer un produit ou service, orienté métier (et se préparer à échouer), collecter des données, les préparer (homogénéiser, croiser…), modéliser (choix des variables et des algorithmes), visualiser pour faire œuvre de pédagogie, optimiser les paramètres et déployer/industrialiser.

Le Big Data repose en grande partie sur le machine learning, défini par les auteurs comme « un ensemble d’outils, statistiques ou géométriques, et d’algorithmes informatiques qui permettent d’automatiser la construction d’une fonction de prédiction, à partir d’un ensemble d’observations que l’on appelle l’ensemble d’apprentissage. »

Un algorithme de machine learning, pour être performant, doit posséder plusieurs caractéristiques, mais, avertissent les auteurs, il convient d’être vigilant sur plusieurs points : la représentativité statistique, la compression de l’information pour traiter les phénomènes exponentiels en éliminant les données inutiles ou redondantes ou les corrélations fictives, qui aboutissent à « trouver ce qui n’existe pas »…

Les caractéristiques d’un bon algorithme de machine learning

  • La déployabilité, pour les utiliser sur un framework de distribution de calcul comme Hadoop.
  • La robustesse, pour gérer les données incohérentes ou incomplètes.
  • La transparence pour identifier rapidement les problèmes de performance.
  • L’adéquation aux compétences disponibles : un algorithme ne doit pas demander une expertise trop pointue pour être mis en œuvre.
  • La proportionnalité, de manière à adapter le temps investi au gain apporté.
  • La performance par rapport aux données utilisées.

 


Quelques idées à retenir

  • La frontière des volumes qui relèvent du Big Data se situe à partir du moment où les données ne peuvent plus être traitées en un temps raisonnable ou utile par des systèmes existants.
  • Le Big Data constitue une rupture d’approche dans l’analyse de l’information.
  • Les bases de données noSQL coexisteront encore pendant de nombreuses années avec les SGBRD.
  • Hadoop est particulièrement bien adapté pour le traitement batch de très grands volumes de données, comme le nettoyage ou la préparation d’un jeu de données en amont d’une analyse de type machine learning.
  • L’ambition du machine learning n’est pas de trouver des causes, mais d’identifier des corrélations utiles entre des variables prédictives et des variables cibles.
  • Nombre d’entreprises sont restées confiantes sur la valeur de leurs bases de données, considérant que leur seule taille constituait en soi un bon indicateur de leur valeur pour le marketing.
  • Il y a une fréquente confusion entre la donnée et l’information qu’elle contient, le contexte de la création de la donnée et celui de son utilisation, qui viennent enrichir à leur tour cette information : c’est là tout le champ d’investigation du Big Data.
  • La plupart des entreprises exigent des éditeurs de logiciels que l’utilisateur final puisse disposer de plus en plus de liberté dans la constitution de ses tableaux de bord.
  • L’utilisation et l’analyse de la donnée sont à relier avec une finalité.
  • Traiter d’énormes quantités de données non structurées exige non seulement de nouveaux algorithmes et de nouvelles infrastructures de calcul, mais impose également de repenser l’organisation des données elles-mêmes.

 


Quelques points de repère

  • Le volume des données transitant par le cloud va doubler : moins de 20 % des données numériques ont transité par le cloud en 2013. Elles seront 40 % en 2020 (IDC).
  • 37 % des projets Big Data sont initiés par les DSI (Gartner).
  • Entre 2012 et 2017, le trafic mondial dans les datacenters aura été multiplié par trois (Cisco Global Cloud Index).
  • 11 % des entreprises françaises ont déjà mené des projets Big Data, soit deux fois plus qu’en 2012, et 37 % mentionnent avoir des réflexions ou des projets en cours (Markess).
  • 34 % des entreprises françaises (38 % au niveau mondial) ne considèrent pas que le Big Data constitue une rupture (Capgemini – EMC).
  • 73 % des entreprises, au niveau mondial, investissent en projets pilotes ou prévoient d’investir dans les technologies Big Data (datawarehouses, cloud, Hadoop), contre 64 % en 2013 et 58 % en 2012. Seulement 13 % les ont déjà complètement déployées (Gartner).
  • 80 % des entreprises françaises indiquent manquer de compétences en interne pour mener à bien des projets de Big Data (Markess).
  • 88 % des entreprises françaises pensent que le Big Data est un facteur de changement d’approche en matière de stratégie de sécurité informatique, incitant 40 % à prévoir de nouveaux investissements (Fortinet Security Census).
  • 80 % des entreprises ne peuvent lancer des projets Big Data avec leurs seules compétences internes (IDC FutureScape).

Source : service de benchmarking Best Practices Spotlight.