De nombreuses entreprises étudient les différentes solutions de Data Hub cette technologie est encore parfois considérée comme une alternative aux Data Warehouses (ou entrepôts de données) ou aux Data Lakes. Mais il y a encore beaucoup de confusion autour de ces trois concepts, car ils semblent similaires. En réalité, ils présentent des différences fondamentales, selon l’éditeur Semarchy.
1. Le Data Warehouse (entrepôt de données)
C’est un dépôt central de données intégrées et structurées provenant de deux ou plusieurs sources différentes. Ce dispositif est principalement utilisé pour le reporting et l’analyse des données, et est considéré comme un élément essentiel de la Business Intelligence. Les entrepôts de données permettent de réaliser des modèles d’analyse prédéfinis et reproductibles, distribués à un grand nombre d’utilisateurs dans l’entreprise.
2. Le Data Lake
C’est un dépôt unique de toutes les données structurées et non structurées de l’entreprise. Il héberge des données brutes avec une faible qualité et exige, de la part de l’utilisateur, un traitement et une valorisation manuelle des données. Les Data Lakes constituent, en général, une base solide pour la préparation des données, les rapports, la visualisation, l’analyse approfondie, la Data Science et le Machine Learning.
3. Le Data Hub
C’est à la fois un système de gestion de données, une source de données fiable et un système de référence pour les processus opérationnels et analytiques.
En fait, les Data Warehouses et les Data Lakes sont des dispositifs de collecte de données qui existent pour soutenir l’analyse de données dans l’entreprise, tandis que les Data Hubs servent de médiateurs et de points de partage des données. Ces derniers ne sont pas uniquement axés sur les utilisations analytiques des données.
Les Data Warehouses, les Data Lakes et les Data Hubs ne se substituent pas les uns aux autres. Néanmoins, ils sont complémentaires et, combinés, ils peuvent soutenir les initiatives Data Driven et la transformation digitale des entreprises (Cf. tableau ci-dessous).
Les différences entre un Data Hub, un Data Warehouse et un Data Lake | |||
Data Hub | Data Warehouse | Data Lake | |
Usage primaire | Processus opérationnels | Analytique et reporting | Analytique, reporting et Machine Learning |
Type de données | Structurées | Structurées | Structurées et non structurées |
Gouvernance | Pilier fondamental pour toutes les règles d’application de la gouvernance des données | Gouvernance «après coup» du fait de l’utilisation des données opérationnelles existantes |
|
Qualité de la donnée | Très haute | Haute | Moyenne / faible |
Intégration avec les applications d’entreprise |
|
|
|
Interactions des utilisateurs métier |
|
Propose un accès en lecture seule à des données agrégées et rapprochées par le biais de rapports, de tableaux de bord analytiques ou de requêtes ad-hoc |
|
Processus opérationnels de l’entreprise |
|
Sert principalement aux processus analytiques | Sert principalement aux processus analytiques et au Machine Learning |
Source : Semarchy. |
Cet article a été écrit par Youssra El Harrab, directrice marketing Global chez Semarchy.