Les pipelines de données, également appelés ETL ou intégrations de données, vous aident à charger les données de vos applications et bases de données dans un data warehouse central. Mais choisir son fournisseur peut vite devenir un casse-tête. Voici une liste de points à considérer :
- La configuration et la maintenance. Lorsque vous étudiez les options de pipeline de données, tenez compte des ressources dont vous disposez. Vos développeurs n’ont pas vocation à consacrer la majeure partie de leur temps à réparer des fuites de données. Lorsque les entreprises construisent leur propre stack ETL, elles ont généralement une équipe d’au moins 4 à 5 ingénieurs data. D’autre part, un fournisseur de pipeline entièrement géré ne nécessite aucune intervention de la part des développeurs. Au milieu du spectre, il existe de nombreux fournisseurs qui vous permettent de faire la moitié du chemin.
- Le schéma standard. Les entreprises n’ont jamais utilisé autant d’applications et de source de données qu’aujourd’hui. Pour la configuration d’un stack ETL personnalisé, au lieu de vous débattre avec vos pipelines, utilisez des connecteurs normalisés qui reflètent la structure de vos sources. Assurez-vous que votre fournisseur propose des schémas bien documentés afin que votre équipe ne perde pas de temps à dépanner et à valider ses données.
- Les données supprimées. Le traitement des données supprimées est un facteur de différenciation important entre les fournisseurs de pipeline. Par exemple, certains systèmes ne sont pas capables de détecter lorsque les données sont supprimées de votre source. Cela signifie que vous aurez des données non marquées et supprimées dans votre data warehouse, ce qui peut avoir un impact sur les analyses.
- Les modifications des schémas. Les schémas peuvent changer. Par exemple, les utilisateurs de votre application peuvent ajouter un champ personnalisé à une matrice source ou le fournisseur de l’application que vous utilisez peut modifier un type de données. Les connecteurs des solutions les plus avancées s’ajustent lorsque les types de données changent et mappent les nouveaux éléments afin que vous n’ayez pas à surveiller et à effectuer ces modifications.
- L’intégrité des données. De nombreux choix effectués lors de la conception des connecteurs de données peuvent avoir un impact important sur l’intégrité des données. Assurez-vous de comprendre comment votre fournisseur se reconnecte à la source, afin de ne pas vous retrouver avec des données perdues ou dupliquées. Un autre point à prendre en compte est la façon dont votre fournisseur gère les mises à jour. Assurez-vous que ses connecteurs se mettent à jour de manière incrémentielle.
- La tarification. Les fournisseurs de pipelines de données proposent deux modèles de facturation : par service et par volume. Alors que les fournisseurs par service peuvent être plus chers au départ, les fournisseurs par volume deviennent plus chers avec le temps. Il peut être difficile d’estimer l’évolution de votre volume de données. N’oubliez pas de tenir compte des exigences de développement interne dans votre analyse des coûts.
- Le support. Votre fournisseur est-il un partenaire de votre réussite commerciale ou un produit de base ? Si vous n’avez qu’un seul connecteur, l’assistance peut ne pas être cruciale, mais dans un environnement de données toujours plus complexe, il est bon d’avoir quelqu’un à vos côtés. Les fournisseurs de pipelines offrent une variété de forfaits support, alors trouvez celui qui répond le mieux à vos besoins.
Cet article a été écrit par Irina Slavitch, experte en Data Integration chez Fivetran.