A l’occasion du salon Big Data 2017, de multiples cas d’usages ont été présentés. Nous en avons sélectionné neuf, révélateurs de la diversité des initiatives des entreprises dans ce domaine.
Développer la recommandation en ligne : l’exemple de Voyage Privé
Les offres proposées par Voyage Privé se caractérisent par deux spécificités : d’une part, la récurrence de ventes flashs, qui se renouvellent toutes les semaines, avec une importante dimension de saisonnalité ; d’autre part, des offres de séjours proposées à un prix relativement élevé, rendant leur achat très ponctuel, voire rare, ce qui réduit le volume de données disponibles sur les clients. Pour Christophe Duong, data scientist de Voyage Privé, « les données peuvent alimenter un moteur de recommandations, dont la fonction est de reproduire un conseil personnalisé, tel que celui que pourrait donner un commercial dans un magasin. »
Un workflow a été imaginé, afin d’établir un modèle de prévision des ventes et du trafic des utilisateurs. Le modèle a été testé sur deux groupes d’utilisateurs : l’un auquel on présente les recommandations établies par la machine et l’autre auquel aucune recommandation n’est fournie. Deux approches peuvent être distinguées pour mettre au point un tel moteur de recommandation. La première donne priorité à la logique collaborative, tandis que la seconde se focalise sur un seul utilisateur à la fois, en analysant son historique de visite et les ventes afférentes.
Plusieurs modèles ont été élaborés selon cette méthode. « L’enjeu consiste, sur cette base, à bâtir un « méta-modèle » établissant, pour chaque produit, un score final correspondant à la probabilité d’achat du produit par le client. Les produits peuvent ensuite être réagencés ou priorisés en fonction de la probabilité d’achat », explique Christophe Duong. Résultat : les recommandations, rafraîchies chaque nuit, ont permis une augmentation du chiffre d’affaires de 7 % dans le groupe au sein duquel elles ont été utilisées, par comparaison avec le groupe témoin.
Créer un magasin de données : l’exemple de Covéa
« La donnée externe est peu accessible, en raison notamment de la présence de silos organisationnels et historiques qui existent dans un groupe « ancien » tel que Covéa », souligne Soumaya Ben Hassine, data scientist et responsable du projet XDStore au sein de Covea. Pour simplifier et démocratiser l’usage de la donnée au sein du groupe, l’idée est née d’une sorte de « magasin de la donnée », le XDStore.
« Notre idée était d’intégrer des données externes dans le quotidien des statisticiens du groupe en leur proposant un magasin partagé et intelligent de la donnée », résume Soumaya Ben Hassine. Celui-ci constitue un catalogue unique contenant des données traitées, qualifiées, mises à jour et prêtes à l’emploi. L’utilisateur peut, parmi d’autres fonctionnalités, naviguer dans le XDStore, télécharger des jeux de données et en consulter le détail.
Une autre utilisation du XDStore, tournée plutôt vers les statisticiens et data scientists, consiste à obtenir la liste de tous les jeux de données externes disponibles pour enrichir son propre jeu de données, via le « XD Miner ». Celui-ci peut même fournir la liste des variables externes qui, ajoutées à un modèle, permettent d’augmenter les performances de celui-ci.
Au quotidien, un data scientist s’efforce de construire des fonctions à partir de données clients (âge, département, etc.) afin d’entraîner la machine à déterminer si un client sera acheteur de telle ou telle offre, à partir d’une ou plusieurs variables. La technologie de matching permet de rapatrier de nouvelles informations, depuis des jeux de données externes, afin de comparer un grand nombre de modèles et déterminer en quoi ces données exogènes peuvent rendre le modèle de prédiction plus performant.
Les principes de l’eXternal Data Store de Covea | |
Caractéristiques | Avantages |
Un catalogue unique pour les données externes | Un réceptacle unique et partagé de données externes de sources diverses, composé d’environ 2 700 jeux de données issues de l’Open Data |
Des données traitées, qualifiées, mises à jour, prêtes à l’emploi | Des jeux de données préparés, mis à jour, certifiés, prêts à l’emploi avec une note qualité qui permet d’estimer leur valeur |
Une plateforme de e-shopping de la donnée externe | La donnée externe devient une ressource disponible, accessible et facile d’utilisation |
Des infos clés pour les data scientists et data analysts | Un service d’exploration automatique de la donnée externe, qui permet aux data scientists une valorisation immédiate de son apport |
Source : Covea. |
Optimiser les investissements marketing : l’exemple de Trainline
Trainline (ex-Capitaine Train) est un distributeur indépendant de billets de train dans 24 pays d’Europe avec une seule interface. Un tel dispositif suppose d’exploiter les données de multiples opérateurs (SNCF, Ouigo, TGV Lyria…). Lancée en 2015, la première initiative data de Trainline consistait à analyser toutes les données dont disposait l’entreprise, en s’appuyant sur un data scientist et deux développeurs. La plupart des projets consistait à extraire les données intéressantes pour les analyser, en tirer des prédictions de grandes tendances, afin d’anticiper les flux de voyageurs.
« En réalité, avec une si petite structure, l’extraction de données s’est avérée extrêmement chronophage. De plus, si les analyses étaient fiables, chacune dépendait de la source retenue, ce qui les rendait peu réutilisables et a augmenté le temps requis par les analyses, au détriment de la prédiction », précise Cédric Raud, Lead Developer Marketing de Trainline.
Le département marketing souhaitant principalement mettre en valeur l’offre de l’entreprise en vue de l’acquisition de nouveaux clients, il utilisait différents outils, tels que les bannières de Google, les réseaux sociaux, les réseaux d’affiliation et la communication. Plusieurs solutions (création de pipelines pouvant générer des reporting automatisés, outils de data science, etc.) ont été passées au crible des besoins de Trainline. « Les solutions de reporting se sont avérées coûteuses. Elles présentaient aussi l’inconvénient d’être génériques, avec le risque de limiter les analyses possibles. De même, le développement ad hoc de pipelines de données entrait en contradiction avec l’objectif visant à rendre autonome le data scientist de l’entreprise », ajoute Cédric Raud.
Trainline s’est tourné vers une solution de Dataiku, avec pour objectif d’accélérer le processus d’analyse de l’efficacité des campagnes marketing. « Il a fallu pour cela consolider les données afin de rendre leur extraction facile et rapide, tant pour les données d’activité (nombre de billets de train, utilisateurs, etc.) que pour les données « métier ». La base offre aujourd’hui une vue unique du parcours du client et a été complétée par un outil de visualisation, permettant à quiconque dans l’entreprise de tirer parti de la richesse de la base », détaille Cédric Raud.
Améliorer la connaissance client : l’exemple d’Air France KLM
« La donnée constitue l’ADN d’une compagnie aérienne et les clients s’attendent à être pris en charge de bout en bout », assure Gauthier Le Masne de Chermont, Chief Customer Data Officer chez Air France KLM. Une première étape implique de reconnaître les clients de la compagnie, même s’il ne s’agit pas de clients fidélisés. Une plateforme Big Data a été construite, afin de fournir une vision « 360 degrés » à l’entreprise, de manière contextualisée, en temps réel, pour l’ensemble des points de contact (dans les aéroports, mais aussi dans les salons et à bord des avions). La compagnie aérienne a distribué 5 000 tablettes à ses équipes au sol et est en train de faire de même avec ses équipes en vol, pour qu’elles disposent d’informations sur les clients qui se trouvent face à elles.
Une application a consisté à développer les recommandations personnalisées : des moteurs de recommandations ont ainsi été construits autour de prédictions de la prochaine destination à laquelle le client pourrait être sensible. Cet outil s’avère efficace, puisque les taux de réservation faisant suite à ces campagnes d’e-mailing ont dépassé de 5 % ceux constatés pour les campagnes classiques.
Un autre exemple est celui du suivi des aléas, question sensible pour toute compagnie aérienne, puisque près de 30 % des clients sont soumis à un aléa (bagage égaré, changement de porte, grève des contrôleurs aériens…), toujours source de stress. L’objectif est d’aller de plus en plus vers une gestion proactive des aléas, déclenchant de manière anticipée un certain nombre de décisions permettant d’en réduire les conséquences.
Détecter les incidents : l’exemple d’Orange Business Services
Orange a mis en place un Data Lake temps réel, qui visait d’abord à accélérer la résolution des incidents survenus chez les clients. « Les techniciens devaient ainsi avoir une visibilité sur l’état des réseaux des sociétés clientes. L’objectif était aussi de remonter dans le temps pour savoir ce qui s’était produit avant l’incident (parfois même quelques semaines ou quelques mois auparavant) », souligne Laurent Herr, vice-président Operations Support System au sein d’Orange Business Services. Enfin, OBS souhaitait rendre cet outil accessible aux clients, via le Web, afin qu’ils puissent eux-mêmes disposer d’un certain nombre d’informations sur les incidents qu’ils subissent.
La première étape consiste à collecter, en temps réel, le statut des équipements réseau, informations de petite taille, mais très nombreuses, qui alimentent le Data Lake. Pour « faire parler » ces informations, parfois difficilement interprétables, des indicateurs métier (par exemple, les taux de disponibilité ou les taux de respect d’un engagement contractuel) ont été élaborés, avec l’objectif de les rendre disponibles à tout instant, sur n’importe quelle période de temps et dans n’importe quelle configuration pour les techniciens. Environ deux millions d’indicateurs sont ainsi collectés chaque minute, soit 80 To compressés, avec près de 30 milliards de lectures par jour sur l’ensemble du Data Lake.
Scorer les prospects : l’exemple d’Axa
« L’enjeu essentiel d’une compagnie d’assurance réside dans la gestion de la relation client et de ses sinistres, tout au long de sa vie », résume Juliette Berger, directrice informatique, organisation et Big Data au sein d’Axa Global Direct France (Direct assurance). Schématiquement, les compagnies d’assurance sont passées d’un modèle d’usage des chiffres issus de « données froides » à l’exploitation de « données chaudes » (centres d’appels, etc.). Outre le recrutement de data scientists, qui ont permis de constituer une « Data Family », l’entreprise a mis à disposition de cette communauté interne un Data Lake pour des activités de R&D.
« L’industrialisation de la data science suppose de réunir un certain nombre de conditions, en particulier la qualité des données, l’existence de solutions de stockage, ainsi que des sources internes et externes de données », explique David Pierson, data scientist au sein d’Axa Global Direct France. En termes de projets, le Data Innovation Lab a notamment conçu un algorithme attribuant un score à toutes les demandes de devis reçues, ceux assortis des scores les plus élevés étant traités en priorité. Une autre application est la détection de la fraude, sur la base de règles métier précises, à travers une interface indiquant, outre un récapitulatif du sinistre, des données clés permettant une première détection de fraudes possibles.
Exploiter les données des objets connectés : l’exemple de Vestas Wind Systems
Pure player de l’éolien, Vestas exploite plus de 33 000 éoliennes dans le monde. Plus de 500 signaux sont transmis chaque seconde par les éoliennes, auxquels s’ajoutent de multiples données liées aux prévisions météo ou au prix de l’électricité. C’est en 2011 que l’entreprise a commencé le stockage systématique des données grâce à de nouvelles solutions aux capacités accrues. Le Smart Data Computer, dont s’est doté Vestas en 2016, basé sur une plateforme d’analytique avancé Hadoop, comporte 8 112 cores pour 6 petabits de stockage, avec une vitesse de traitement de 100 gigabits par seconde.
La plateforme de Vestas est aujourd’hui utilisée par trois principales catégories d’usagers : d’abord, les data sharks, une vingtaine de personnes qui développent la plateforme cœur autour des solutions Tibco Spotfire. Ensuite, la playzone, à partir de laquelle les utilisateurs développent des applications, pour eux-mêmes et pour d’autres utilisateurs internes à l’entreprise qui ont besoin d’être autonomes vis-à-vis des données. Enfin, la zone de libre-service, où des utilisateurs internes viennent ponctuellement piocher des données ou des traitements en fonction de leurs besoins. « Une prochaine étape résidera dans le développement du Spotfire App Store, c’est-à-dire un ensemble de tableaux de bord analytiques et d’applications business accessibles à l’échelle de l’entreprise, qui doit offrir à la fois un moteur de recommandations et constituer une rampe de lancement pour de nouveaux projets », prévoit Lars Christian Christensen, vice-président de Vestas Wind Systems.
Proposer des services en temps réel : l’exemple de la Sacem
La Sacem a vocation à collecter et répartir les droits d’auteur et la musique dématérialisée représentant désormais 95 % des données traitées par l’entreprise. « Le montant des collectes a plus que quadruplé en six ans, tandis que les volumes de données analysées connaissaient une croissance exponentielle, en raison, notamment, du volume de téléchargements, qui double chaque année », précise Xavier Costaz, directeur de projets d’innovation à la direction des ressources et de la stratégie de la Sacem.
Celle-ci s’est associée à IBM pour créer, après un POC, la plateforme Urights, qui doit permettre de mieux capter la valeur associée à la musique en ligne et d’optimiser l’identification des droits. Après croisement avec des contrats et identification des droits, le système génère la facturation. Techniquement, un Data Lake est matérialisé dans une plateforme Hadoop, complétée par une solution Spark, afin de raffiner les données.
« Le Big Data crée une vision exhaustive de l’ensemble de ces données tout au long du processus, en fournissant une vision en temps réel des actions conduites », souligne Xavier Costaz. La Sacem va également pouvoir initier des activités de simulation, afin de mieux valoriser son répertoire. Enfin, de nouveaux modèles d’identification pourront être expérimentés. Grâce à l’ensemble des données et aux nouvelles technologies d’apprentissage de deep learning, la Sacem a lancé un programme de recherche avec l’Ircam (Institut de recherche et de coordination acoustique/musique) qui vise, à long terme, à se passer des méta-données, en étant en mesure de reconnaître derrière chaque enregistrement (officiel ou non) l’œuvre jouée. La Sacem a commencé à conduire des analyses prédictives avec la société QuantMetry sur le parcours d’une œuvre, ce qui va permettre de proposer de nouveaux services aux auteurs et compositeurs.
Mieux spécifier les produits : l’exemple d’Airbus
« La construction d’un avion passe toujours par une phase critique de définition de l’architecture. L’architecte doit la définir de façon optimale assurant à la fois une cohérence fonctionnelle et tenant compte de multiples contraintes rendant indispensables des arbitrages », explique Hugo Falgaroen, research manager chez Airbus. L’approche actuelle reposant sur des milliers de modèles de données stockées en de multiples lieux au sein des bureaux d’étude, l’architecte se trouve confronté à un environnement très hétérogène, dans lequel il doit rechercher les données pertinentes pour prendre la bonne décision.
C’est cette approche que le projet Big Data cherche à simplifier, en regroupant les données détenues par les bureaux d’étude, afin de construire des visualisations permettant de vérifier, de façon beaucoup plus simple, la cohérence des spécifications. Le système multivues dédié aux architectes, baptisé Gaia, doit permettre de faciliter le suivi de la définition de l’avion dans sa globalité, en distinguant quatre types de vues : les fonctions à remplir et les solutions correspondantes, les produits et systèmes retenus, les processus et le découpage du travail de conception en « work packages », l’évaluation et la prise de décision.
Les cinq dimensions d’un projet Big Data
- La vision, qui évalue la stratégie Big Data mise en place et l’implication de la direction générale de l’entreprise.
- Les compétences internes et externes pour le Big Data, le recrutement, la formation et l’ouverture de postes d’experts de la donnée (data analysts, data architects, chief data officer, data scientist, data protection officer).
- Les processus, qui intègrent les aspects budgétaires, la diversité et le niveau d’implication des différents départements de l’entreprise dans les processus d’évaluation et de sélection des projets Big Data.
- La technologie, en prenant en compte le niveau d’adoption des solutions Big Data et les technologies mises en place en termes de volumétrie, variété et vélocité des données.
- Les données, pour prendre en compte la variété des sources utilisées (internes et externes) et les différents formats utilisés à des fins d’analyse (structurées, semi-structurées, non structurées).
Source : Quelle maturité du Big Data dans les entreprises françaises ? IDC, Atos.
Big Data : les raisons des échecs
- Un manque de vision métier (60 % des échecs).
- Le manque de culture de la donnée (60 %).
- La difficulté de déployer le Big Data dans les processus existants (50 %).
- La résistance du management (40 %).
- Le manque de planification (40 %).
- Le manque de compétences (30 %).
- Le manque de financement et d’outils (30 %).
- L’incapacité à démontrer le retour sur investissement (30 %).
- Des imprévus non liés à la technologie (30 %).
Source : Gartner Big Data adoption, 2016.
Big Data : une définition
Selon la cabinet Barc-CXP : le Big Data est l’ensemble des méthodes et technologies utilisées pour charger, stocker et analyser des volumes importants de données polystructurées de manière évolutive. Les Big Data aident les entreprises à gérer des volumes importants de données, à effectuer des analyses complexes et à intégrer en temps réel les données issues d’un grand nombre de structures et de sources.
Selon IDC : le Big Data regroupe l’ensemble des technologies, d’outils, des processus et procédures qui permettent à une organisation de créer, manipuler et gérer de très larges quantités de données variées, afin de faciliter une prise de décision rapide.