Data Hub, Data Lake, Datawarehouse : quelles différences ?

De nombreuses entreprises étudient les différentes solutions de Data Hub cette technologie est encore parfois considérée comme une alternative aux Data Warehouses (ou entrepôts de données) ou aux Data Lakes. Mais il y a encore beaucoup de confusion autour de ces trois concepts, car ils semblent similaires. En réalité, ils présentent des différences fondamentales, selon l’éditeur Semarchy.

1. Le Data Warehouse (entrepôt de données)

C’est un dépôt central de données intégrées et structurées provenant de deux ou plusieurs sources différentes. Ce dispositif est principalement utilisé pour le reporting et l’analyse des données, et est considéré comme un élément essentiel de la Business Intelligence. Les entrepôts de données permettent de réaliser des modèles d’analyse prédéfinis et reproductibles, distribués à un grand nombre d’utilisateurs dans l’entreprise.

2. Le Data Lake

C’est un dépôt unique de toutes les données structurées et non structurées de l’entreprise. Il héberge des données brutes avec une faible qualité et exige, de la part de l’utilisateur, un traitement et une valorisation manuelle des données. Les Data Lakes constituent, en général, une base solide pour la préparation des données, les rapports, la visualisation, l’analyse approfondie, la Data Science et le Machine Learning.

3. Le Data Hub

C’est à la fois un système de gestion de données, une source de données fiable et un système de référence pour les processus opérationnels et analytiques.

En fait, les Data Warehouses et les Data Lakes sont des dispositifs de collecte de données qui existent pour soutenir l’analyse de données dans l’entreprise, tandis que les Data Hubs servent de médiateurs et de points de partage des données. Ces derniers ne sont pas uniquement axés sur les utilisations analytiques des données.

Les Data Warehouses, les Data Lakes et les Data Hubs ne se substituent pas les uns aux autres. Néanmoins, ils sont complémentaires et, combinés, ils peuvent soutenir les initiatives Data Driven et la transformation digitale des entreprises (Cf. tableau ci-dessous).

Les différences entre un Data Hub, un Data Warehouse et un Data Lake
Data Hub Data Warehouse Data Lake
Usage primaire Processus opérationnels Analytique et reporting Analytique, reporting et Machine Learning
Type de données Structurées Structurées Structurées et non structurées
Gouvernance Pilier fondamental pour toutes les règles d’application de la gouvernance des données Gouvernance «après coup» du fait de l’utilisation des données opérationnelles existantes
  • Une approche à utiliser aux risques et périls de l’organisation
  • Peu ou pas de gouvernance
Qualité de la donnée Très haute Haute Moyenne / faible
Intégration avec les applications d’entreprise
  • Bi-directionnelle, en temps réel
  • Intégration avec les processus métiers existants via des APIs
  • Mono-directionnelle, ETL ou ELT en mode batch
  • Les données transformées et traitées sont rafraîchies à fréquence basse (heure, jour ou semaine)
  • Mono-directionnelle, ETL ou ELT en mode batch
  • Les données sont déversées sans contrôle dans le Data Lake en attendant que le consommateur les traite manuellement
Interactions des utilisateurs métier
  • Peut être la principale source de production de données clés, telles que les données master et les données de référence
  • Offre des interfaces ergonomiques pour la création, la gestion et la recherche de données
Propose un accès en lecture seule à des données agrégées et rapprochées par le biais de rapports, de tableaux de bord analytiques ou de requêtes ad-hoc
  • Nécessite un traitement / une préparation des données avant leur utilisation
  • L’accès aux utilisateurs métier est principalement assuré par des rapports, des tableaux de bord ou des requêtes ad-hoc
  • Utilisé pour préparer des ensembles de données pour le Machine Learning
Processus opérationnels de l’entreprise
  • Référentiel principal pour les données fiables provenant des processus d’entreprise
  • Peut être le coordinateur principal des processus opérationnels de l’entreprise
Sert principalement aux processus analytiques Sert principalement aux processus analytiques et au Machine Learning
Source : Semarchy.

Cet article a été écrit par Youssra El Harrab, directrice marketing Global chez Semarchy.