Le cycle de vie de la donnée, lorsqu’elle se transforme en information, en connaissance, puis en savoir, est soumis à plusieurs types de risques de non-qualité qui doivent être maîtrisés pour ne pas altérer la chaîne de valeur.
La qualité des données apparaît en deuxième place parmi les préoccupations des DSI, selon une enquête européenne réalisée par Capgemini auprès de 1 100 DSI dans douze pays. En tête, figurent les problématiques de sécurité (pour 61 % des DSI), mais la qualité des données (43 %) se classe devant la complexité du système d’information (40 %), la modernisation et la gouvernance (34 %). Les analystes de Gartner, pour leur part, vont jusqu’à prévoir une « crise de l’information » à l’horizon 2017. Ils affirment en effet que pas moins d’un tiers des cent premières entreprises américaines subiront cette situation de crise, sous l’effet de la croissance des données et d’un faible niveau de maturité dans la gouvernance de l’information.
Au-delà des volumes : gérer les flux
Mais, au-delà des volumes, il s’agit aussi, et surtout, de gérer les flux d’informations. Ce thème a été abordé lors d’une matinée organisée par Gouvinfo (Observatoire de la gouvernance du flux d’information) et OpenText en octobre 2013. Jean-Pascal Perrein, responsable de Gouvinfo, a rappelé qu’il y a « un besoin urgent de management des flux d’informations, car ce sujet commence à interpeller les directions générales. » Selon Jean-Louis Ermine, président du club Gestion des connaissances, il s’agit, « au sein des flux d’informations, d’organiser la distillation progressive des données et des informations en un capital de connaissances, assimilé en compétences individuelles et ensuite collectives. »
L’un des participants à la matinée Gouvinfo, DSI dans un grand groupe industriel a également rappelé que « la mauvaise gestion des flux d’informations constitue la première cause d’inefficacité dans les entreprises. » Certes, il existe de nombreux outils dédiés à la qualité des données dont les fonctionnalités concernent essentiellement la mesure de qualité, le formatage, le contrôle d’intégrité, l’identification des liens croisés, le monitoring par rapport aux règles métiers, la gestion des métadonnées et l’enrichissement. La plupart des grands éditeurs de logiciels occupent ce créneau et figurent en bonne place dans le quadrant de Gartner : Informatica, IBM, SAS, SAP, Talend, Information Builders, Uniserv…
Au-delà des flux : maîtriser la chaîne de valeur
Si l’on synthétise les zones de risques liés à la non-qualité des données (voir tableau ci-dessous), on s’aperçoit que les faiblesses sont présentes tout au long du cycle de vie de l’information et de sa transformation. On assiste en effet à la conjonction d’au moins quatre types de risques, qu’il convient de maîtriser :
- les risques liés à la collecte des données, avec la diversification des sources de collecte et la conjonction d’informations structurées et non structurées,
- les risques liés à la croissance des volumes, dont les multiples études sur le big data montre que la tendance s’accélère,
- les risques liés à la complexification des flux, dès lors que se conjuguent des volumes importants de données et de multiples sources de collecte,
- les risques liés à l’altération de la chaîne de valeur, dès lors que les trois autres types de risques ne sont pas maîtrisés.
Face aux risques de non-qualité des données, plusieurs leviers d’action peuvent être actionnés (Cf. tableau ci-dessous).
Déplacer les niveaux de responsabilité
Dans un article paru en décembre 2013 dans la Harvard Business Review, le consultant Thomas Redman, auteur de l’ouvrage Data driven, Profiting From Your Most Important Business Asset, suggère trois bonnes pratiques, face à la non-qualité des données. Tout d’abord, mettre en relation les créateurs de donnés avec leurs « consommateurs », en partant du principe que la qualité de la donnée est fixée lors de sa création, mais qu’on ne juge celle-ci que lorsqu’elle est « consommée ». Faire travailler ensemble les créateurs et les consommateurs permet, en principe, d’identifier les sources de non-qualité, surtout si le créateur d’une donnée sait comment elle est utilisée.
Ensuite, l’auteur conseille de se focaliser sur la qualité des nouvelles données produites, de manière à améliorer durablement le processus, et non pas sur le stock existant, alors qu’il est tentant de vouloir tout corriger. Enfin, il préconise de confier la responsabilité de la qualité des données aux managers opérationnels, et non pas uniquement aux DSI, à charge pour eux de tout régler… Ce qui, généralement, conduit à des échecs, faute de temps, d’investissement… et de motivation. Thomas Redman rappelle d’ailleurs que la DSI n’est pas toujours partie prenante du processus de création des données… alors que c’est pourtant le moment crucial où se détermine la qualité ou la non-qualité !
Qualité des données : les leviers d’action | ||||
Domaine | Donnée | Information | Connaissance | Savoir |
Type de risques | Diversification des sources | Croissance des volumes d’information | Complexification des flux | Altération de la chaîne de valeur |
Levier d’action | Modes de collecte | Cohérence des informations | Cartographie des flux et analyses d’impact | Analyse de la valeur, processus de prise de décision |
Source : Best Practices. |
Point de vue – Olivier Martin (Atep Services) : Comment (re)construire une chaîne de valeur
Cette segmentation se traduit généralement par un fonctionnement des organisations en silos, éludant les effets possibles d’un évènement ou d’une décision sur le service ou le produit final, par une réactivité inadaptée aux évènements internes et externes, et par une évaluation théorique des axes d’amélioration, de compétitivité et de rentabilité. L’évolution de cette connaissance chaotique vers une première marche de maturité commence nécessairement par la capitalisation des informations opérationnelles existantes. De nombreux projets ont été ou sont mis en œuvre pour répondre à ce besoin, mais les investissements réalisés, les délais et les moyens utilisés expliquent les phénomènes de périmètre restreint, d’échec, d’effet tunnel et de non-pérennité des approches. Le secret réside dans la capitalisation des sources d’information opérationnelles. Contrairement aux idées préconçues, l’expérience montre que plus de 90 % des informations nécessaires à la reconstitution de la chaîne de valeur existent déjà dans l’entreprise sous une forme dématérialisée. Ceci est lié à l’obligation des opérationnels de maîtriser leur environnement et leur contexte de travail. En utilisant ce que nous appelons la technique du voisinage, nous pouvons reconstruire rapidement les chaînes de valeur.
La réconciliation des données se déroule en quatre phases :
- La collecte, afin de récupérer les données des systèmes opérationnels.
- La mise en cohérence pour rapprocher des données provenant de systèmes différents. C’est là que les vraies difficultés commencent. Bien que basés sur des solutions communes, les conventions, les procédures, les paramétrages et le quotidien font que les données sont globalement incohérentes.
- L’alimentation d’un modèle de données, de manière à répartir les informations dans les objets respectifs de la chaîne de valeur.
- Le traitement des incohérences, avec une gestion des exceptions pour fiabiliser et maîtriser l’ensemble des données réconciliées.
Il est préférable de commencer une telle démarche par des questions opérationnelles du quotidien qui permettront d’aborder des sujets simples, d’utiliser l’effet de masse et d’être proche des acteurs propriétaires des données.