Big Data : corriger le passé, modeler le présent, préparer l'avenir

Les projets Big Data répondent à plusieurs motivations et plusieurs classifications sont possibles. On peut, par exemple, privilégier une vision temporelle : globalement, les projets Big Data peuvent être regroupés, selon qu’ils permettent de corriger les tendances du passé, qu’ils modèlent le présent ou qu’ils préparent le futur (innovation).

Évidemment, ces trois dimensions sont présentes dans la plupart des projets Big Data. Plusieurs exemples illustrent cette classification.

1. La Poste Courrier : trouver un nouveau modèle de croissance

La branche Services-Courrier-Colis du groupe La Poste emploie 200 000 collaborateurs et représente un chiffre d’affaire annuel de 11 milliards d’euros. En raison de la diminution du volume du courrier classique, l’entreprise cherche de nouveaux modèles de croissance. Elle doit également prendre en compte l’évolution des attentes des clients, qui souhaitent aujourd’hui être livrés à tout moment et en tous lieux, et faire face à de nouveaux entrants, notamment sur le marché des colis.

Pour cela, l’entreprise peut s’appuyer sur ses données. La Poste n’en manque pas : données de production liées au pistage du courrier et au suivi des colis, données clients, ainsi que différentes données d’origine externe… Les événements collectés liés au courrier s’élèvent à 60 milliards, les événements liés aux colis à 5 milliards et les données clients concernent 15 millions de foyers. Pour les exploiter, La Poste Courrier a décidé d’adopter une approche globale du Big Data. L’entreprise a ainsi créé un département Données et Pilotage, dirigé par Jamila Bendjilali. « Le Big Data et l’analytique peuvent être des leviers de transformation », estime cette dernière. « Le Big Data, c’est à la fois un état d’esprit, des technologies et des méthodes », ajoute Kais Soltane, directeur de projet Data/BI à La Poste.

Le projet suscitait une attente forte tant en termes de délais que côté métier. Afin d’aller plus vite, le département Données et Pilotage a donc opté pour l’achat d’une solution packagée plutôt que pour le développement de sa propre plateforme. Son choix s’est tourné vers une appliance d’Oracle, X5-2, intégrant une distribution Hadoop Open Source, en l’occurrence celle de Cloudera. « L’administration et l’évolution d’un cluster Hadoop sont beaucoup plus complexes que la mise en œuvre initiale : tous les deux mois environ, il y a une évolution majeure de ces technologies, comme le passage de MapReduce à Spark », illustre Kais Soltane. « Le choix de Cloudera nous offrait des garanties sur l’évolution du produit, la gestion des patches et la rapidité de mise en œuvre. »

L’objectif en termes de délais a été tenu : le 22 juillet 2015, la Big Data Appliance d’Oracle a été livrée. Le 28 août, la plateforme était opérationnelle, et début septembre, les premiers cas d’usage métier ont pu démarrer. « Environ 120 millions d’événements sont produits chaque jour par les machines de tri, soit un volume de 60 Go. Ceux-ci rentrent directement dans le cluster. Pour le suivi du courrier, ce sont 20 millions d’événements par jour qui sont collectés, et 15 millions pour les colis », ajoute Kais Soltane.

Le département a décidé de centrer ses efforts sur les axes de travail qui représentent une valeur rapide pour le métier : excellence opérationnelle, prévention de la fraude, développement commercial, amélioration de l’expérience client et développement de nouveaux services. « Dans ce type de projet, il ne faut pas négliger ce que voit l’utilisateur, autrement dit tout ce qui concerne la visualisation des données », avertit Kais Soltane. Parmi les autres enjeux à ne pas oublier figurent également la sécurisation de la donnée et la résilience de l’architecture.

« Les premiers prototypes sur la plateforme ont montré qu’il était possible de travailler avec des historiques plus longs », note Jamila Bendjilali. « Auparavant, les analyses ne pouvaient se faire que sur vingt-et-un jours. » Pour 2016, l’objectif du département est de mettre en œuvre une logique de « Fast Data » : « Nous sommes victimes de notre succès, les utilisateurs veulent avoir les données rapidement, quasiment en temps réel », constate Kais Soltane.

Les composantes de la démarche Big Data de La Poste Courrier

Un ou deux sponsors, pour porter la démarche. Idéalement, « un côté IT et un côté business », conseille Kais Soltane, directeur de projet Data/BI à La Poste.
Un « data lab », pour tester différentes approches.
Des compétences, notamment à travers la constitution d’une équipe en interne.
Une gouvernance de la donnée, « à prévoir dès le démarrage, surtout dans un contexte où les systèmes d’information sont en silos. »

2. Crédit Mutuel Arkéa : l’analyse prédictive pour les conseillers

Groupe bancaire coopératif et mutualiste basé en Bretagne, le Crédit Mutuel Arkéa mise depuis longtemps sur deux éléments pour accompagner la transformation des usages bancaires : l’innovation, ancrée dans sa culture, et la mise en place d’un écosystème numérique. Dès 1995, la banque offre ainsi des services transactionnels sur le Web. En 2009, elle est parmi les premières à proposer une application mobile sur iOS et, en 2015, elle lance une application pour l’Apple Watch.

Dans ce contexte, rien d’étonnant à retrouver l’entreprise parmi les pionniers du Big Data. Dès 2010, le Crédit Mutuel Arkéa met ainsi en place une infrastructure Hadoop. A l’époque, celle-ci représentait 80 serveurs, 640 To de stockage et 2 560 Go de RAM. « En 2011, nous avons commencé à l’utiliser pour proposer des applications à nos clients, comme la mise en ligne de tous les relevés de compte », raconte Marc Chéreau, directeur des études informatiques de Crédit Mutuel Arkéa. Cette application permet de parcourir plus de deux milliards de lignes de compte. « En 2012, nous avons porté sur Hadoop une application pour le calcul d’actuariat pour notre filiale Suravenir, ce qui a fait passer le temps de traitement de 24 heures à 5 minutes. » En 2013, c’est une application de détection de fraude qui a suivi.

Néanmoins, « ces projets restaient très techniques », nuance Marc Chéreau. La banque souhaite alors raisonner différemment, en essayant de s’orienter vers la personnalisation de services. Dans ce but, elle s’intéresse à l’analyse prédictive, un bon complément de la démarche Big Data. « Il s’agissait d’inverser la démarche marketing classique. Nous voulions comprendre ce qui se passait dans nos campagnes en utilisant l’analyse prédictive au lieu de nous baser sur du scoring », explique Marc Chéreau. Pour ce projet, le Crédit Mutuel Arkéa retient une solution d’Oracle, Real-Time Decisions (RTD).

Un prototype est réalisé au cours de l’année 2014. « Nous avons d’abord testé la prédiction sur des bannières de publicité, mais personne ne cliquait », relate le directeur des études. En 2015, une deuxième phase de test est réalisée, cette fois-ci en ciblant les centres d’appels du groupe. Deux, sur les quatre existants, sont équipés de la solution d’analyse prédictive. « Nous avions une base de connaissance sur deux ans dans un fichier Excel, que nous avons inclut à RTD. »

Dans les centres dotés de la solution, le Crédit Mutuel Arkéa a constaté un gain de productivité de 30 % par rapport à ceux disposant simplement de l’outil Excel. « Nous avons également élargi la gamme de produits proposés par les téléconseillers. » 16,5 % des propositions basées sur les préconisations de RDT débouchent sur une vente, et 60 % d’entre elles sont déclarées pertinentes par les clients contactés.

Depuis novembre 2015, RTD a été mis à la disposition de tous les salariés du groupe. A l’heure actuelle, 450 l’utilisent, dont une vingtaine de téléconseillers. Ces derniers effectuent près de 20 000 propositions chaque mois, dont 4 000 se concluent par des ventes. Avec 125 jours/homme du côté du Crédit Mutuel Arkéa, 50 pour la maîtrise d’ouvrage et 90 pour l’intégrateur, la société de services Business & Decision, « cela reste un petit projet », estime le directeur des études. « Néanmoins, celui-ci a indéniablement démontré des retours positifs. »

« Les utilisateurs jugent l’outil utile et apprécient le gain de temps qu’il leur procure », indique Marc Chéreau. Par ailleurs, « aucun incident technique ou fonctionnel n’est à déplorer », ajoute-t-il. En 2016, la banque a d’ores et déjà prévu d’enrichir l’outil, en facilitant l’ajout et le retrait de produits, et en incluant certaines règles jugées essentielles.

Big Data : trois stratégies possibles
Stratégie	Pourquoi ?	Apport du Big Data
Corriger le passé	Inverser les tendances (par ex. baisse de CA)	Exploiter les données existantes pour comprendre les tendances passées et prévoir les scénarios d’évolution
Modeler le présent	Optimiser les processus (par ex. pour accroître la productivité)	Introduire le temps réel
Préparer le futur	Trouver des relais de croissance (par ex. inventer de nouveaux produits)	Expérimenter à partir des données et accroître la performance de compréhension de l’environnement
Source : Best Practices Systèmes d’Information.

3. SNCF : analyser les flux de visiteurs dans les gares

L’entité Gares et Connexions de la SNCF a la responsabilité de gérer le patrimoine immobilier, l’exploitation (14 000 trains, dix millions de visiteurs dans les gares) et les services pour les clients. « L’enjeu du numérique, en 2016, est de développer les services dans les gares, par exemple pour l’information des voyageurs ou les applications métier, et de mieux connaître les flux des visiteurs », explique Arnaud Krékounian, DSI de SNCF Gares et Connexions. Pour mieux comprendre l’écosystème des gares et de l’espace urbain qui les entoure, la SNCF a constitué un socle de donnés et élaboré des interfaces pour les métiers. « La rénovation et le développement des gares ne peuvent être efficaces et optimisés que sur la base d’informations et d’analyses complètes et justes, les informations sur les flux à disposition de Gares et Connexions étaient jusqu’à présent focalisées et limitées dans le temps et dans l’espace. Nous étions de ce fait limités, par exemple dans la possibilité de comparer deux gares entre elles, avec de surcroît pas ou peu de capacités, pour les directions, de disposer à volonté d’analyses ad hoc en fonction des besoins du moment », explique Georges Colin, expert Big Data au sein de la DSI Voyageurs en charge de la supervision du projet.

Les données disponibles sont variées : elles sont soit internes (usage des services, traces des téléphones et des connexions Wi-Fi…) ou externes (données météo, réseaux sociaux, données issues des bases Insee ou de l’Open Data…). L’initiative a vu le jour fin 2014 (avec une solution SAS). « Nous avons vu grand mais démarré petit », précise Arnaud Krékounian. Début 2015, les premières expérimentations et le dimensionnement sont réalisés, avec une industrialisation, dans le cadre du Big Data Fab de la SNCF. Les premiers cas d’usage sont développés en 2016, par exemple avec de nouvelles applications numériques pour les clients et les métiers, un tableau de bord pour analyser la performance de l’accueil. Plus de 5 Go de données sont analysés chaque jour, pour scruter les flux de visiteurs dans 3 000 gares (volumes et profils des visiteurs, flux de déplacements dans et hors des gares…). « Cela a permis, par exemple, d’identifier les commerces mal placés », note Arnaud Krékounian, qui assure « ne pas être soumis au diktat du ROI… »

4. Carrefour : scruter en temps réel les produits et les clients

Carrefour a lancé en 2014 un grand programme de transformation de son système d’information, visant à remettre la donnée au centre du SI et baptisé Phénix. Un programme qui a deux objectifs, résumés par Jean-Christophe Brun, directeur du centre de solutions BI et Big Data de Carrefour : « D’une part, moderniser le système d’information, hérité de multiples évolutions techniques, pour intégrer le temps réel, l’unicité de l’information et réduire le nombre de silos. D’autre part, accompagner la transformation numérique, exigée par la croissance des volumes de données et leurs variétés, il s’agit de modifier la chaîne de valeur autour de la donnée. »

En terme de données, la matière première de la grande distribution réside dans les informations issues des transactions et enregistrées par les caisses, ainsi que dans la chaîne logistique. « Il est toujours très difficile d’avoir une vision temps réel de l’état des stocks, mais, désormais, cela devient crucial », note Jean-Christophe Brun. L’un des enjeux est de réduire le nombre de silos et les volumes d’échanges de données. « Des données peuvent être cohérentes dans une application, mais incohérentes dès lors qu’elles sont consolidées », note-t-il.

Ce phénomène est accentué dans des contextes organisationnels très décentralisés, comme chez Carrefour, avec ses 5 600 magasins et ses centaines de milliers de références produits. « Nous avons également beaucoup d’informations que nous n’utilisions pas, par exemple le libellé des produits », ajoute Jean-Christophe Brun. Le projet Phénix, mis en œuvre avec un accompagnement du cabinet de conseil Sentelis, se compose de deux socles : un socle technique, pour les infrastructures, les logiciels et la sécurité, et un socle de données, pour gérer celles issues des magasins, de la logistique et des clients. « Phénix est un cluster de données partagées, historisées et en temps réel, les données des systèmes existants sont synchronisées et décloisonnées », résume-t-il.

L’industrialisation de Phénix s’est déroulée en 2015 avec, depuis juin 2015, des déploiements progressifs. « Dans ce type d’approche, il faut pouvoir coordonner trois roadmaps en parallèle : celle des usages, celle des données en temps réel et celle du socle technique », conseille Jean-Christophe Brun. Les premiers usages de Phénix concernent la vision en temps réel des stocks, des ventes, ainsi que la vision à 360° pour les produits, « c’est-à-dire prenant en compte la logistique, la concurrence, le marketing, l’opérationnel », ajoute Jean-Christophe Brun, qui suggère trois bonnes pratiques : « Dissocier le socle technique des usages, ces derniers devant être appréhendés en mode plus agile ; prendre conscience qu’il s’agit d’une nouvelle manière de fonctionner, notamment avec les équipes de production ; et attirer les compétences rares. »

5. Saint-Gobain : aider les métiers à imaginer les usages du Big Data

Le groupe industriel a développé une offre de services mutualisés. « Nous avons, dans ce domaine, quatre enjeux : aller vite (de l’idée à son expérimentation), sensibiliser aux concepts du Big Data, réduire les coûts et mieux intégrer, notamment pour éviter la dispersion des données », explique Eric Merlateau, en charge du design d’infrastructures chez Saint-Gobain. La DSI a mis en œuvre un cluster basé sur Hadoop utilisant la distribution Cloudera. « Hadoop présente l’avantage de couvrir la majeure partie des cas d’usages et n’est pas dédié à un usage particulier », précise Stéphane Saretta, responsable architecture des nouveaux services.

Trois types de services mutualisés sont proposés aux métiers : « Discover », « Explore » et « Travel ». « Nous couvrons tous les grands sujets : qualité des produits, maintenance, analyse prédictive, Business Intelligence, segmentation clients… Nous sommes là pour aider les métiers à imaginer des usages du Big Data », détaille Eric Merlateau. L’offre « Discover » propose des formations, sur deux jours, incluant l’étude de cas d’usages internes. « L’objectif est de donner des idées aux participants sur ce qu’ils peuvent faire avec le Big Data », résume-t-il. L’offre « Explore » permet aux métiers d’être accompagnés pour la réalisation de POC et d’expérimentations. « Nous apportons de l’expertise et une aide pour le choix des fournisseurs », assure Stéphane Saretta. L’offre « Travel » correspond à la mise en production, avec tout ce que cela implique en termes d’engagements de services, de monitoring et de management dans la durée. Une dizaine de POC ont déjà vu le jour, notamment pour la mesure de la qualité des produits et des alternatives aux solutions de BI existantes. « Notre expertise a été reconnue, ce qui n’était pas gagné dans la mesure où nous sommes un groupe très décentralisé et nos TCO sont compétitifs par rapport à des offres SaaS comparables », assure Eric Merlateau.

6. Air Liquide : dénicher les bonnes idées cachées

Pour un groupe tel qu’Air Liquide, la problématique de l’innovation est centrale. L’une des pistes est de s’ouvrir vers l’écosystème (start-up, laboratoires de recherche, fournisseurs, clients…) et de trouver la bonne information scientifique, notamment sur le Web. Problème : comment s’y retrouver dans les cent milliards de pages du Web public ? « Le Web est une mine d’or, mais il faut des outils pour aller dénicher les petites pépites », résume Athanasios Kontopoulos, directeur du laboratoire de mathématiques appliquées au sein de la R&D d’Air Liquide. Le groupe a utilisé la solution Proxem pour combiner la fouille du Web à large échelle et l’analyse sémantique de contenus, de manière à identifier les technologies et les tendances émergentes avant qu’elles ne soient devenues des évidences, grâce au repérage des signaux faibles, des acteurs naissants et de l’évolution des marchés. « Nous avons réussi à identifier une cinquantaine de produits, idées, thématiques ou partenaires potentiels qui nous intéressent », précise Athanasios Kontopoulos. •

Les témoignages ont été recueillis le 9 février 2016, à l’occasion de la conférence Oracle Analytique et Big Data et du salon Big Data (mars 2016).

Les entreprises et le Big Data : à l’action !

« On observe une surcommunication et une surmédiatisation du Big Data, ce terme commence à lasser, surtout le mot « Big » », affirme Reda Gomery, associé responsable Data et Analytics chez Deloitte. Sur le terrain, reconnaît le consultant, « La dimension « Big » du Big Data, parfois intimidante, semble avoir été intégrée par les organisations. Après quelques années de réflexion et d’expérimentations, les actions liées aux données se généralisent progressivement, les entreprises passent à l’action. » Selon une étude menée par Deloitte, 70 % des entreprises indiquent avoir déjà lancé des initiatives et six sur dix estiment avoir une bonne compréhension des apports du Big Data pour leurs organisations. Celles-ci expriment un vif intérêt pour l’usage de données externes issues du Web, des réseaux sociaux, de partenaires… Ainsi, près de 50 % d’entre elles estiment qu’il devient prioritaire d’acquérir de plus en plus de données externes et 64 % qu’il faudrait favoriser leur croisement avec des données internes. « Cette évolution illustre donc l’extension du spectre d’utilisation des données et d’une vision désormais plus globale au sein des entreprises », précise Reda Gomery.

Les Français et le Big Data : bof…

Selon une étude Harris Interactive pour Quantmetry, publiée à l’occasion du dernier salon Big Data, les Français expriment une certaine distance, voire de la méfiance, vis-à-vis du Big Data. Ainsi, six sur dix ne savent pas ce que signifie ce terme, seulement un sur 3 indique avoir entendu parler de « Big Data » au cours des six derniers mois qui précédent le sondage, la plupart du temps de façon peu fréquente. « Conscients de leurs limites sur ce sujet, les Français se définissent très majoritairement (87%) comme mal informés concernant l’utilisation du Big Data par les entreprises et les organismes publics d’une manière générale (59% se disant même « très mal informés ») », notent les auteurs de l’étude.

Big Data : corriger le passé, modeler le présent, préparer l’avenir