Le décisionnel et les idées reçues font bon ménage. Joseph Glorieux, directeur général d’Octo Technology Suisse, explique comment faire et par quoi commencer, notamment pour la qualité des données, les cas d’usage, les tests, le datawarehouse, les approches liées au Big Data ou le reporting.
« Aujourd’hui les projets décisionnels et big data restent des sujets très importants pour les DSI, d’autant plus qu’ils représentent souvent une part importante de leur budget », observe Joseph Glorieux. « Malgré cela, il reste très difficile d’obtenir des preuves de retour sur investissement sur ces architectures. Par ailleurs, la satisfaction des utilisateurs demeure un peu un mythe. » Une fois ce constat posé, la nécessité de changer relève de l’évidence. Néanmoins, cela implique d’affronter un certain nombre d’a priori et d’idées reçues.
S’adapter ou mourir
Selon Joseph Glorieux, « les fondements des architectures utilisées aujourd’hui ont vingt ans. » Pourtant, alors que le mainframe s’est adapté pour survivre, les systèmes décisionnels restent, pour la plupart, basés sur des concepts devenus obsolètes. Ainsi, les entreprises se retrouvent face à un mille-feuille décisionnel qui mêle couches physiques, datawarehouses, datamarts, ETL (Extract Transform Load), ODS (Operating Data Store), staging areas, systèmes d’archivage, etc. On ne sait plus ce qui reste pertinent ou pas.
L’archivage, par exemple, date d’une époque où le stockage coûtait trop cher pour garder toutes les données en ligne, alors même que, dans le domaine décisionnel, les utilisateurs souhaitent mener des analyses sur les plus grosses bases possibles. De la même façon, les datamarts ont été imaginés pour répondre à des problèmes de performance et de présentation des données, en proposant une vue plus « métier ». Cependant, les contraintes qui ont présidé à leur apparition sont en train de disparaître avec les approches actuelles.
Un autre parti pris courant concerne la fraîcheur des données. Souvent, les systèmes décisionnels accèdent au mieux à celles de la veille, d’une part pour ne pas surcharger les systèmes opérationnels et, d’autre part, car ils doivent attendre que les données soient réconciliées. Or, aujourd’hui, les systèmes d’information sont de plus en plus orientés services et savent transmettre des événements en temps réel, ce qui peut être utilisé dans certains cas où les données doivent être les plus fraîches possibles.
- Envisager les approches de type « commodity storage », souvent associées aux projets Hadoop, permettant d’avoir un espace de stockage moins onéreux et en ligne.
- Tester les solutions in memory, qui changent considérablement le point de vue sur les performances.
- Attaquer directement les systèmes de production en s’appuyant sur une approche de virtualisation complète.
- S’appuyer sur des middlewares pour permettre au système décisionnel de consommer des services et ’actualiser certaines données au fil de l’eau.
One size does not fit all
« Je ne crois pas qu’un système unique puisse répondre à tous les besoins », affirme Joseph Glorieux. Il préconise pour sa part d’identifier les grands cas d’usage du décisionnel (analyse, intelligence opérationnelle, statistiques, projet d’innovation…) et de proposer pour chacun la solution la mieux adaptée, sachant qu’une solution recouvre à la fois une architecture, un logiciel et un mode projet (agile, cycle en V, etc.). Par exemple, les solutions de reporting classiques répondent à certains cas d’usage, comme le reporting réglementaire, le reporting régulier à large diffusion (de masse) ou la construction de rapports financiers de type balanced scorecard. D’autres solutions, orientées vers l’exploration de données, s’apparentent plus à des laboratoires, répondant à des cas d’usage comme la prédiction de tendances ou les analyses spécifiques de type segmentation. L’archivage en ligne répond, quant à lui, à un besoin d’archivage des données anciennes avant de purger le datawarehouse.
Casser les murs
« L’informatique décisionnelle a pris du retard en termes de bonnes pratiques par rapport à la production et au développement », pointe Joseph Glorieux. Pour illustrer ce constat, on peut citer notamment la politique de tests : il existe tout un panel de solutions pour les tests de performance, d’interfaces, les tests unitaires et fonctionnels, les tests d’intégration ou de recette, mais elles sont très rarement mises en œuvre dans les projets décisionnels.
Un autre exemple concerne les software factories, ces usines logicielles mises en place pour industrialiser le développement d’applications. Elles intègrent des frameworks de test, des gestionnaires de sources et de build, des espaces documentaires… Elles procurent des gains de productivité en automatisant de nombreuses tâches pénibles, elles renforcent la qualité, en testant de manière systématique, et la coopération entre les différents acteurs impliqués dans le processus de développement, en définissant un cadre de travail commun.
Java est le nouveau paradis
Beaucoup de solutions pour le Big Data sont open source et écrites en Java à quelques exceptions près, comme le système de base de données non SQL MongoDB, écrit en C++ ou la base pour les applications Web et mobiles CouchDB, écrite en Erlang. Joseph Glorieux cite ainsi le système de datawarehouse Hive, le framework de traitement de données Hadoop/MapReduce, les bases orientées colonnes Cassandra et Hbase, la base de données orientée graphes Neo4J ou encore le framework de recherche Elasticsearch. Pour être à même de tirer le meilleur parti de ces outils, des compétences avancées en Java sont donc plus que souhaitables.
Et du côté des éditeurs ? « La mise à niveau est en cours chez tous les grands acteurs du marché, comme IBM, Teradata, EMC Greenplum, Oracle ou Informatica », observe Joseph Glorieux. « Ils parviennent à cacher la complexité de ces technologies, néanmoins cela a un coût. » Il note également que les éditeurs sont plutôt en position de suiveurs par rapport aux innovations introduites par les bases non SQL.
Un datawarehouse agile, c’est possible !
Dans une enquête menée par TDWI et Ceregenics en 2012 auprès d’entreprises anglo-saxonnes, plus de la moitié des répondants avait expérimenté les approches agiles pour leurs projets décisionnels depuis plus d’un an. L’enquête montrait aussi que les entreprises ayant passé un premier cap avaient tendance à conserver et à étendre l’usage de ces méthodes. Elles observaient des résultats plus intéressants en termes de qualité et de productivité qu’avec les approches traditionnelles comme le développement en cascade. Dans sa carrière, Joseph Glorieux n’a, pour sa part, « pas encore trouvé de projets où l’agilité était une mauvaise idée. »
- Agile Data Warehousing, de Ralph Hughes, Ed. Morgan Kaufmann, 2012, 366 pages.
- Refactoring databases: Evolutionnary Database Design, de Scott Ambler et Pramodkumar Sadalage, Addison-Wesley, 2006, 384 pages.
- Agile DW design, de Lawrence Corr et Jim Stagnitto, DecisionOnePress, 2011, 328 pages.
Les statistiques, c’est chic
Pour Joseph Glorieux, « le retour sur investissement des projets décisionnels ne se matérialise pas dans le reporting de masse, mais par les approches de type analyse statistique et exploration de données. » Néanmoins, il concède que le profil de data scientist, tel qu’il est présenté, relève du « mouton à cinq pattes ». En effet, il faut que ce dernier soit féru de mathématiques et de statistiques, qu’il possède la connaissance du métier pour la définition des axes d’analyses, mais aussi qu’il connaisse le système d’information de l’entreprise pour des questions de qualité des données ou de maîtrise des outils et langages nécessaires.
Dans ce domaine, il estime qu’aujourd’hui deux grandes approches s’affrontent, telles « David contre Goliath ». D’un côté figurent des éditeurs comme SAS, possédant une expertise historique en analyse statistique ; de l’autre, l’environnement d’analyse open source R, alternative au départ, adoptée par le monde académique, mais qui perce dans les entreprises.
- Trouver (ou former) les bonnes personnes est peut-être le plus difficile, mais de plus en plus de jeunes diplômés en mathématiques/statistiques ont une expérience avec R (logiciel libre de traitement des données et d’analyse statistiques).
- Si vous ne le faites pas déjà, jouer avec R peut être un moyen de découvrir des usages innovants de vos données.
« Si vous n’avez pas de problème, ne changez rien »
« Mais c’est parce que vous n’avez pas assez cherché », ajoute Joseph Glorieux. Il cite ainsi le cas, certes un peu extrême, d’un client chez qui le responsable décisionnel affirmait que tout allait bien, alors qu’en réalité le système n’était plus utilisé depuis un an. Ces situations, dans lesquelles les utilisateurs contournent le système en place, sont malgré tout assez fréquentes. Quand une entreprise y est confrontée, il faut avant tout restaurer un climat de confiance, « en allant sur le terrain et en s’appuyant sur du factuel », conseille le directeur général d’Octo Suisse, car « on ne peut améliorer que ce qu’on mesure. » Comme l’activité des utilisateurs sur les rapports, par exemple.
Il préconise ensuite de laisser une certaine autonomie aux utilisateurs, quitte à remettre en question quelques pratiques. « Il s’agit de faire du système décisionnel une source de valeur pour l’entreprise, une véritable aide à la décision. »
Points de repère
ODS (Operating Data Store) et staging area désignent des espaces intermédiaires pour stocker les données extraites des bases opérationnelles avant les étapes de transformation nécessaires pour les intégrer aux systèmes décisionnels.
Les bases NoSQL recouvrent un ensemble d’approches dans lesquelles les données sont stockées autrement qu’avec le modèle relationnel (basé sur des tables et relations) et interrogées avec des langages non dérivés du SQL. Les systèmes de base de données relationnels ne s’avèrent pas forcément les mieux adaptés pour l’exploration de grands volumes de données ou pour l’interrogation de données non structurées (lire article pages 7 à 11).
Erlang est un langage de programmation conçu pour bâtir des systèmes distribués, en temps réel et avec une haute disponibilité.
Il paraît, si l’on en croit une étude d’IBM publiée fin novembre 2013, que nous sommes entrés dans l’ère du « Client-directeur général ». Cette étude analyse les trois principaux axes d’investissement des dirigeants : « Accepter l’influence des clients qui sont connectés, activer l’intégration physique et digitale, et articuler l’expérience client. » Sur ce dernier point, souligne l’étude, « tous les dirigeants perçoivent la nécessité de considérer le client comme un individu unique prenant part à une véritable expérience multicanal de la marque, et non pas comme une simple catégorie ou un segment marketing. » Mais pour atteindre cet objectif, trois stratégies s’avèrent pertinentes. D’abord, reconsidérer les aspects technologiques, qu’il s’agisse des infrastructures ou du stockage, à la lumière des nouvelles possibilités de traitement des données (big data, In-memory…). Ensuite, rationaliser tous les outils décisionnels existants, les entreprises ont souvent surinvesti. Les études menées par les cabinets spécialisés (par exemple, le CXP en France ou BARC en Allemagne) révèlent régulièrement que les entreprises sont équipées de multiples solutions décisionnelles sans nécessairement avoir pensé à assurer une cohérence entre les différents outils. Enfin, il s’agit de prendre en compte l’enjeu de la personnalisation, ce qui suppose d’adapter les solutions existantes. Une étude européenne menée par le cabinet BARC en 2012 a ainsi montré que les solutions décisionnelles utilisées souffrent de trois problèmes : de qualité des données, de performance dans les temps de réponse et d’une intégration insuffisante avec les directions métiers. Au moment où les exigences de décisionnel en temps réel et de personnalisation deviennent majeures, la refonte des approches décisionnelles devient urgente. D’autant que, selon Gartner, l’objectif des directions générales des grandes entreprises est clairement d’augmenter le chiffre d’affaires, ce qui ne peut se faire sans stratégie de fidélisation des clients.