Big data et valorisation des données : du POC au cas d’usage

A l’occasion du salon Big Data 2018, la problématique des Proofs of Concept a été abordée. Avec une intégration plus poussée des usages.

«Quand j’entends le terme Big Data ou intelligence artificielle, je sors mon Proof of Concept », pourraient affirmer tous ceux qui souhaitent s’approprier une technologie, mais qui ne savent pas par quoi commencer. Lors du salon Big Data 2018, une table ronde a abordé ce thème, mettant en exergue le fait que ce serait la « fin de l’usine à POCs » et l’avènement des approches « Use Cases Driven ». Il y a effectivement une évolution des pratiques, au plus proche du terrain des usages.

« Un POC commence par un cas d’usage spécifique, mais n’a pas de solution claire ou prédéfinie au problème business concerné : en effet, c’est précisément ce que vous allez rechercher lors du POC. Creuser dans vos données et itérer peut déboucher sur des résultats intéressants », explique Florian Douetteau, CEO de Dataiku, qui conseille de suivre plusieurs principes : choisir un cas d’utilisation réel et concret, s’en tenir à un calendrier raisonnable, définir clairement les livrables, impliquer les bonnes personnes, anticiper la phase de production, rester flexible et concentré. « Nous rassemblons sur un même plateau les data scientists, les ingénieurs et les chefs de projet de la DSI, ils travaillent ensemble jusqu’à l’industrialisation et même au-delà », explique Guillemette Picard, directrice vision client, Big Data et intelligence artificielle chez Allianz.

Prendre en compte le degré de maturité des métiers

Vincent Champain, directeur général de GE Digital Foundry Europe, espace conçu pour favoriser l’émergence de nouvelles idées et co-créer des solutions, distingue trois niveaux de maturité des métiers. D’abord, ceux qui ont élaboré des uses cases précis, par exemple, dans le cas de GE, un système pour éviter les pertes de matière première dans le domaine de l’exploration pétrolière.

Ensuite, les métiers qui se positionnent dans une logique d’exploration. « Ils souhaitent mieux comprendre les enjeux du numérique avant d’élaborer une stratégie, nous les aidons dans cet objectif et leur fournissons les outils adaptés, car s’ils n’ont pas les bonnes cartes ils ne peuvent guère avancer », précise-t-il. Enfin, les métiers qui sont en recherche de talents et de ressources. « Nous nous inspirons de la démarche Lean Start-up et pouvons livrer entre quatre et six mois après la formulation d’une idée », ajoute Vincent Champlain, qui privilégie deux critères : la performance de la solution et les aspects techniques sur la valeur des données.

Chez Allianz, plusieurs indicateurs sont régulièrement suivis pour mesurer la maturité de la culture de la donnée : le nombre de cas d’usage Big Data en portefeuille (à différentes étapes de développement), le nombre de projets en production, le temps de mise en production, des indicateurs spécifiques sur la performance de chaque projet, le nombre de data scientists ou de data ingénieurs et d’utilisateurs des données.

Stop… ou encore ?

L’une des questions, d’ailleurs récurrente pour tous les projets IT, est de savoir à quel moment il convient d’arrêter pour passer à autre chose. Pour Vincent Champlain, il convient « d’avoir une vision claire dès le départ, avec une roadmap et une équation de valeur. Si ces éléments sont remis en cause, par exemple pour une question d’infrastructures ou d’adoption difficile, il est préférable d’arrêter. »

Fabrice Otano, Chief Data Officer d’AcorHotels, explique que, pour les projets Big Data, « On pitche le Comex et, tous les six mois, on revoit le projet pour décider si on continue ou pas, on co-design les applications avec les managers d’hôtels. Nous appliquons un « Usage dogma »: l’usage d’une application est mesuré, post-déploiement : si elle n’est pas utilisée ou si elle est mal notée, cela signifie qu’elle ne vit plus et qu’il faut l’arrêter. »

Mais avant d’arrêter un projet ou une application, autant minimiser les risques de dérapage. Quelles sont les erreurs à éviter ? « Il ne faut pas croire que c’est facile, qu’il existe une « pensée magique » de l’intelligence artificielle, ni croire que c’est difficile, ce qui conduit à ne jamais rien entreprendre au lieu de progresser avec des petits projets », estime Guillemette Picard. Pour sa part, Vincent Champlain conseille de « ne pas passer trop de temps en contemplation : c’est la différence entre l’Europe et le monde anglo-saxon, dans lequel on travaille plus vite pour trouver la bonne solution, qui ne naît qu’après avoir essayé les mauvaises ! ». En outre, précise-t-il, il est indispensable « d’avoir toujours une vision claire de la valeur. » Pour Fabrice Otano, deux erreurs sont à éviter : oublier la co-construction et réaliser des solutions trop complexes.

 

Proof of Concept du Big Data : les questions à se poser
Phases du POC Exemples de questions à se poser
Visualisation et analyse
  • Quels types d’algorithmes analytiques vous faudra-t-il exécuter (par exemple, statistique de base ou avancée, analyse prédictive, apprentissage automatique) ?
  • Quel est le format des données utilisées par les outils de visualisation et d’analyse ?
  • Pour un accès en libre-service, quels sont les types de visualisation dont les utilisateurs ont besoin ?
 Intégration
des données
  • Procéderez-vous à l’ingestion de données de flux en temps réel ?
  • À partir de quels systèmes sources l’ingestion se fera-t-elle ?
  • Quels sont les types de données qui vous intéressent ?
 Qualité
et gouvernance
  • Vos utilisateurs finaux auront-ils besoin d’un niveau de qualité des données de type Business Intelligence ?
  • De quels outils les utilisateurs finaux disposeront-ils pour préparer eux-mêmes les données ?
  • Devrez-vous enregistrer la provenance des données aux fins de documentation, d’audit ou de sécurité ?
 Sécurité
  • Savez-vous quels ensembles de données contiennent des données sensibles et dans quels systèmes ils sont hébergés ?
  • Aurez-vous besoin de règles de masking de données différentes en fonction des environnements (p. ex., développement et production) ?
  • Quelles techniques utiliserez-vous pour protéger les données sensibles (masking, chiffrement et/ou tokénization) ?
Stockage
  • Quels systèmes utiliserez-vous pour stocker vos données (par exemple, data warehouse, Hadoop, Cassandra, autres plateformes NoSQL) ?
  • Quel type de données comptez-vous stocker dans chacun de ces systèmes ?
  • Comment prévoyez-vous de répartir les données entre ces systèmes s’il y en a plus d’un ?
  • Utiliserez-vous Hadoop pour le prétraitement, avant de transférer les données vers votre data warehouse ?
  Source : Comment procéder à un POC de Big Data en six semaines, Informatica.

 

Projets Big Data : à faire… A ne pas faire
Domaine A faire A ne pas faire
Formation et ressources humaines
  • Recruter avec un maximum de diversité en externe et en interne et collaborer avec divers partenaires
  • Penser que c’est seulement une affaire d’experts en data science.
Cadrage organisationnel
  • Démontrer la valeur d’un nouvel usage de la donnée
  • Commencer par développer des cas d’usage auprès de tous les métiers de l’entreprise grâce à des équipes agiles
  • Commencer par concentrer des ressources pour collecter et fiabiliser toutes les données
  • Sélectionner les meilleurs outils.
Outils de traitement de la donnée
  • Libérer la donnée et ses utilisateurs, et intégrer la réglementation sur les données personnelles by design
  • Préserver le cloisonnement des données et des équipes qui les utilisent et oublier le client
Animation
  • Communiquer, communiquer et communiquer
  • Ne pas survendre, développer de tels projets et une telle culture prend du temps !
Source : The data literacy box office, Allianz.