S’il ne fait plus aucun doute que les entreprises ont désormais l’obligation d’exploiter leurs données pour assurer leur croissance, voire leur survie, la mise en œuvre d’un tel chantier est en revanche complexe. L’objectif premier est, en effet, de parvenir à maîtriser les données brutes de l’entreprise pour en tirer de l’information.
Ces dernières années ont ainsi vu naître un boom des projets big data, renforcé plus récemment par les chantiers liés à l’IA. Des plateformes big data ont donc été déployées massivement dans les entreprises, toutes étant liées pour des raisons historiques à la technologie Hadoop. Mais, alors que celles-ci constituaient à une époque le prérequis technologique nécessaire, ce n’est plus du tout vrai aujourd’hui.
Des plateformes Hadoop omniprésentes mais souvent inadaptées
Si les plateformes Hadoop peuvent différer en termes de taille de nœuds et d’usage selon les organisations, on constate toutefois qu’une seule plateforme de production est souvent utilisée pour toute l’entreprise.
Cela s’explique, en premier lieu, par le fait qu’une plateforme n’est efficiente qu’à partir d’une dizaine de nœuds, entraînant un besoin de mutualisation des usages et donc une rationalisation des coûts. Par ailleurs, étant donné la complexité technique des plateformes et leur spécificité, la DSI, qui porte le plus souvent les projets Big Data, a tendance à déployer ces outils selon un modèle architectural global. Enfin, de nombreuses entreprises optent pour des plateformes Big Data uniques, car elles ne réfléchissent pas au préalable aux usages applicables à leur business model, cédant parfois aux mirages de la mode.
Les plateformes Hadoop se sont donc généralisées, mais elles n’en souffrent pas moins d’inconvénients importants :
- La complexité d’exploitation : étant constituées par l’agrégation de composants Hadoop liés par la surcouche d’un éditeur et auxquels s’ajoutent des frameworks entreprise, une dépendance aux technologies Java et Linux et des clusters souvent déployés sur des machines virtualisées, il est difficile d’assurer une cohérence d’ensemble de ces plateformes au fil des mises à jour.
- Un faible retour sur investissement : 60 % des projets big data ne dépassent pas le stade de l’étude ou du POC, tandis que parmi les 40 % déployés, seul un tiers dégage un ROI positif. L’origine du problème est à trouver du côté de la gouvernance, des projets d’une part, lors de l’industrialisation des modèles de data science sur la plateforme de production, et des données d’autre part, par manque de connaissance du patrimoine informationnel de l’entreprise et des méthodes pour les rendre exploitables.
- Un manque d’agilité : plus une plateforme rencontre le succès dans l’entreprise, moins son usage devient souple, du fait de la nécessité de valider une mise à jour pour l’ensemble des traitements exploités sur le cluster. De plus, ces différents traitements n’ayant pas les mêmes besoins en terme de configuration selon leur consommation de mémoire ou de CPU, un cluster agnostique n’est optimal pour personne et la plateforme mal ou sous-exploitée.
Le marché des plateformes Hadoop est dominé depuis plusieurs années par deux éditeurs majeurs ayant récemment fusionnés, Cloudera et Hortonworks, la place des autres acteurs demeurant anecdotique, comme MapR qui a failli disparaître avant d’être racheté par HP. Ces mouvements sur le marché ne sont pas sans lien avec l’arrivée d’éditeurs plus généralistes sur le terrain du Big Data.
De nouvelles solutions aux usages spécifiques
La plupart des utilisateurs des distributions Hadoop packagées se sont rendus compte qu’ils n’avaient pas besoin de l’intégralité des services qu’elles proposent. Ces solutions ont effectivement été conçues par des experts pour des experts, alors que les utilisateurs de la donnée sont potentiellement tous les acteurs de l’entreprise. Si l’on ajoute à cela des investissements lourds et un ROI rarement atteint, l’heure est aujourd’hui à la rationalisation technologique.
Pour faire face aux inconvénients constatés à l’usage des plateformes Hadoop, les fournisseurs de solutions cloud se sont mis à proposer des services spécialisés permettant d’assembler des plateformes dédiées répondant chacune à un usage particulier. On peut citer par exemple :
- Le stockage de volumes importants de données avec de bonnes performances d’entrées/sorties (Azure Datalake Store, AWS S3, Google Cloud Storage…).
- Des capacités de calcul à mise en place rapide et ajustables (AWS EC2, K8S…).
- Des outils de business intelligence (BI) dédiés au Big Data (Redshift, Azure Synapse, Snowflake, BigQuery…).
- Des outils d’ingestion, transformation et modélisation haute vélocité (Databricks…).
- Des plateformes Hadoop louées en mode cloud (HD Insight, EMR…).
Ces solutions offrent ainsi des parties spécifiques de services proposées par les plateformes Hadoop traditionnelles, mais sans leur complexité d’administration. Si les performances brutes s’en trouvent amoindries, les avantages sont nombreux : simplicité d’usage et rapidité de prise en main propres aux services managés en cloud, coûts rationalisés à l’usage des services seulement consommés, meilleure agilité et maîtrise par les équipes IT.
Les clusters Hadoop ont ainsi perdu leur domination sur les technologies big data, d’autant que certains produits on premise (SQL Server, Oracle…) ont comblé également leur retard dans le domaine.
Le revers de la médaille du SaaS
Les solutions Data déployées en mode cloud ayant maintenant atteint une certaine maturité, il est possible de tirer quelques enseignements de leur mise en œuvre :
- Elles sont simples à utiliser mais difficiles à intégrer : bien que les nouveaux outils aient permis un gain de temps et d’énergie non négligeable dans le démarrage de nouveaux projets, leur intégration dans un SI sécurisé, ainsi que leur interopérabilité, sont parfois problématiques.
- formés au pilotage financier des plateformes cloud et le rôle de FinOps est souvent ignoré, ou limité à l’ajustement des charges de production. Il n’est pas rare de trouver des plateformes qui ont consommé dès l’été leur budget annuel.
- Une insuffisance dans la propriété des données : tout est fait par les éditeurs pour attirer les usages sur leur plateforme et les y faire rester. Rares sont les outils compatibles sur plusieurs plateformes et le retour des données dans les datacenters « traditionnels » reste très cher à mettre en place. De plus, la sécurisation de ce type de plateforme est beaucoup plus complexe et les fuites de données ne sont pas rares.
- Il y a peu d’expertise sur le marché : ces outils sont relativement récents et les ingénieurs capables de les utiliser correctement sont rares. Face à la pénurie de ressources, de nombreuses personnes se lancent vers ces technologies sans avoir le niveau de formation requis, ce qui impacte le ROI des plateformes : budgets de développement et d’exploitation beaucoup plus importants, stabilité de la production plus faible…
Face à ces problématiques, des réflexions sont menées pour trouver un juste équilibre entre, d’une part, la souplesse et l’agilité des services cloud et, d’autre part, la stabilité, la robustesse et la sécurité (technique et financière) des solutions on premise.
Adapter les outils big data aux besoins des métiers plutôt que l’inverse
Avant de choisir ses outils technologiques, le plus important demeure d’établir une stratégie big data claire et adaptée à ses propres besoins. Celle-ci peut s’établir selon quatre principes :
- Les usages métiers priment sur la technologie : en gardant en tête le « pourquoi » d’un projet, on évite de choisir des plateformes déconnectées du métier de l’entreprise. Il est alors plus logique de trouver « comment » le faire, plutôt que de chercher des cas d’usage qui justifient une plateforme existante.
- Des services spécialisés et réactifs plutôt que des monolithes mutualisés : pour que les projets big data réussissent, la DSI se doit de fournir un service adapté à chaque besoin, également en termes de roadmap et de time to market. Au risque de voir les métiers avancer sans elle et développer du Shadow IT.
- Une gouvernance transverse plutôt que des initiatives en silos : il n’est pas non plus idéal que chaque métier dispose de sa propre plateforme. Il est important de garantir une bonne communication entre les acteurs autour de la donnée de l’entreprise (IT, métiers, CDO, RSSI…), afin de trouver un équilibre entre la souplesse nécessaire aux métiers et la stratégie globale de l’entreprise.
- Un pilotage fluide plutôt qu’une stratégie unidirectionnelle : les technologies évoluent de plus en plus rapidement, tout comme les changements stratégiques des éditeurs. Il est donc nécessaire de maintenir une veille constante sur toutes les activités autour de la donnée et d’intégrer ce qui doit l’être dans la stratégie data de l’entreprise
Cet article a été écrit par Yann Carpentier-Gregson est Practice Manager « Data Architectures » chez Umanis.