Est-ce une bonne idée de surdimensionner une infrastructure pour le big data ?

Dans le big data, la tendance dans les entreprises est de se concentrer sur les aspects d’analyse de la donnée, sans beaucoup se préoccuper du « moteur ». Pourtant, l’infrastructure est un élément tout à fait essentiel pour qui entend réussir sur le long terme.

Mais cette infrastructure doit-elle forcément se montrer la plus véloce, la plus puissante, absorbant les plus gros volumes de données en des temps très courts ? En big data aussi, l’approche doit être raisonnée, pour des raisons évidentes de coûts, de ROI, mais également d’apprentissage et d’adoption progressive.

Des échecs qui refroidissent les ardeurs

Les constats d’échecs sont nombreux dans le big data. Il est aisé d’ailleurs de désigner les coupables, ils sont légion : gouvernance déséquilibrée, manque d’information à destination des équipes, données de piètre qualité, sponsoring peu engagé, objectifs mal définis… A croire que le big data est un puits sans fond d’erreurs et d’errances.

Face aux déceptions, les entreprises hésitent à se lancer, en particulier celles de taille intermédiaire. Elles savent que le Big Data présente des opportunités, mais aussi un coût et le risque d’une traversée du désert numérique. En d’autres termes, elles optent souvent pour le statu quo, ce qui ne présente pas que des avantages dans une économie construite sur des écosystèmes ouverts.

Il y aurait certainement à blâmer un certain marketing agressif et l’illusion des solutions misant sur l’hyper performance, qui dissimulent l’exigence d’une réflexion longue assortie de prévention. Car les projets big data sont d’une extrême diversité et n’ont en commun que leur nom. Et encore… Beaucoup d’entre eux relèvent moins du big que de la data et concernent plus volontiers de petits jeux de données, traités à vitesse moyenne, sans grande variété de formats. Ils n’en sont pas moins pourvoyeurs d’informations importantes pour l’entreprise.

Du seul point de vue du volume, la sur-multiplication de la donnée n’est d’ailleurs pas forcément gage d’une bonne gestion et se montre parfois synonyme de dispersion et de visibilité partielle de son patrimoine informationnel. Le risque commun à toute entreprise, en revanche, est de vouloir s’équiper en fonction d’un projet dit «  big data », qui supposera alors des ressources et des performances bien au-delà des besoins réels.

Le surdimensionnement de l’infrastructure, la plaie des entreprises

On arguera que le choix de technologies puissantes est fait dans une optique d’évolution des besoins, en prévision d’une couverture plus large des cas d’usages à venir. Que dans une dynamique d’innovation, il y a lieu de ne pas contraindre les équipes avec un environnement IT limitant. C’est un argument effectivement recevable, dans la mesure où lesdites équipes sont capables d’embrasser la complexité d’un système destiné à de la data science ou du deep learning et maîtrisent les bonnes pratiques conditionnées par la démarche. L’expérience démontre le contraire, ce qui ne devrait surprendre personne. Le big data fait partie de ces paradigmes technologiques requérant une expérience construite progressivement. En d’autres termes, au même titre que l’on exige le permis B avant d’apprendre à conduire un poids lourd, il demeure indispensable de vérifier la réalité des compétences et des expertises disponibles dans l’entreprise avant de s’équiper de l’artillerie lourde.

Cette démarche prudente est pertinente quelle que soit la taille de l’entreprise. Pourtant, les organisations les plus concernées par un projet big data avorté sont souvent celles qui disposent d’importants budgets. Parce qu’elles ont déjà en vue la valorisation de leurs dépenses à travers de nouveaux modèles économiques, parce que leurs équipes y sont fortement incitées, elles prennent le risque du sur-dimensionnement. Cette décision initiale se traduit par des coûts annuels de licences et d’exploitation monumentaux, assortis de lourdes prestations de consulting et de mise en œuvre. Or, le résultat le plus explicite de la démarche reste surtout la constatation d’une sur-estimation des prévisions d’évolution, en coût de serveurs notamment.

Dans le même ordre d’idées, l’expression «  big data » rejoint presque toujours la notion de cloud public dans l’esprit des équipes et du Comex. Dans un sens, c’est effectivement chez les hyperscalers que l’on trouvera toute l’élasticité, la scalabilité et les ressources de calcul nécessaires à un traitement massif. Mais, avant de chercher à satisfaire d’éventuels orgueils à coup de dizaines de milliers d’euros mensuels, il est bon de se souvenir que le mieux est souvent l’ennemi du bien.

Une infrastructure big data doit être justifiée

Pouvoir correctement travailler sur un ou plusieurs jeux de données disponibles, effectuer quelques recoupements pertinents entre départements producteurs, explorer un, deux ou trois cas d’usages identifiés en interne, par les équipes sur le terrain les plus à même de signaler leurs besoins, est une démarche pragmatique. Elle donne des résultats exploitables, compréhensibles, endossables ensuite par les collaborateurs.

Prendre la mesure de ses progrès, choisir d’aller plus loin et pour cela faire évoluer en douceur son infrastructure, au rythme des montées en compétences et de l’imprégnation culturelle de l’approche data science, est une deuxième étape constructive. La suite logique consiste à conduire l’industrialisation des projets réalisés, à maîtriser ses coûts en réévaluant ses choix d’infrastructure, à infuser la stratégie pour accélérer une collecte de données dans un objectif précis.

Bref, se lancer dans un projet big data est d’abord et surtout une histoire de cadrage initial. Bien choisir ses données, apprendre à les collecter et à les qualifier, savoir les exposer, relève d’une étape fondamentale. Dès lors, l’entreprise est en mesure de valider l’expérience à petite échelle. Si dès le départ, il apparaît que le projet requiert plus de ressources, il faudra alors adapter l’infrastructure. Mais tant que le volume considéré, le type de données et les temps de traitement restent parfaitement absorbés, il est inutile de se ruiner en ressources technologiques.

Un projet (big) data s’apprivoise et grandit avec l’expertise des équipes. Elles auront en effet beaucoup à apprendre, accompagnées ou non : découvrir toutes les subtilités de certaines requêtes trop gourmandes en ressources, apprendre à utiliser correctement la puissance d’un cluster, effectuer des scans réguliers des datasets, surveiller et modifier l’usage de codes peu ou mal optimisés dans de trop nombreuses solutions d’entreprise, etc… Bien souvent, les bonnes pratiques en big data ne sont pas maîtrisées et cette situation conduit en général à l’altération de performances pourtant achetées au prix fort et, in fine, à l’abandon d’un projet qui présentait du potentiel.

Cet article a été écrit par Hadrien Puissant est responsable Big Data chez Cyrès.


Quelle maturité des entreprises françaises ?

Selon une étude de Idaia-Cartégie, la maturité des entreprises en matière de données est liée à la taille, même si le niveau des PME remonte. Aujourd’hui 58 % des entreprises data-driven (qui utilisent les données comme base de la croissance de leurs activités) disposent et exploitent leur base de données clients : là encore l’effet Covid-19 a pu jouer en poussant les entreprises à se concentrer sur leur capital clients. Selon l’étude, « en période difficile, lorsque les budgets sont restreints et que les perspectives sont bouchées ou incertaines, les chefs d’entreprises, les commerciaux et les marketeurs se concentrent sur leurs clients : par exemple par la mise en place d’une segmentation marketing pour travailler en priorité ses meilleurs clients, ou la mise en place d’actions de fidélisation, le travail sur la relation client et la mise en place de services spécifiques (clic & collect notamment). »

En matière de digitalisation de l’activité, il y a encore de la marge de progression pour les TPE/PME : alors que 95 % des profils d’entreprises les plus avancées en matière de data exploitent les données issues de leur site Web, seules 32 % des TPE/PME ont franchi le pas, même si on peut constater une augmentation encourageante sur ce point (+35 % par rapport à 2019).