Analyse prédictive : les fondamentaux

L’avenir à portée de clic ? Les promesses de l’analyse prédictive sont souvent mises en avant par les fournisseurs. Néanmoins, un certain nombre de prérequis sont souvent passés sous silence, le recrutement de data scientists étant présenté comme le principal enjeu. Qu’en est-il réellement ? Cet article présente les principaux concepts sur lesquels s’appuient ces technologies et les enjeux associés.

Faire parler les données : la vieille promesse du data mining connaît, depuis quelques années, un renouveau, porté par plusieurs facteurs. Parmi ceux-ci figure, notamment, la numérisation croissante de l’information et son corollaire, la multiplication des données exploitables.

Il faut également citer l’accroissement des capacités de traitement, porté par des évolutions tant matérielles (la mémoire flash par exemple) que logicielles, avec toutes les technologies associées à la manipulation des Big Data. Enfin, le développement de la data visualisation a lui aussi contribué à cette nouvelle appétence pour l’exploration des données, en rendant les analyses plus interactives et les résultats aisément lisibles et partageables.

Parmi les ambitions associées à ce retour en force du data mining figure celle de « prédire l’avenir », appelée analyse prédictive : il s’agit d’utiliser l’information dont on dispose pour déterminer parmi plusieurs possibilités les plus probables ou choisir le scénario le plus pertinent, afin d’anticiper une menace ou de maximiser l’efficacité et l’efficience des actions envisagées.

De telles capacités étaient auparavant réservées à quelques acteurs privilégiés, comme les services météo ou les ministères en charge de la sécurité. Elles sont dorénavant accessibles à un public nettement plus large et peuvent être mises en œuvre pour explorer des questions très diverses, comme le montrent ces quelques exemples :

Quels produits seront les plus susceptibles de plaire à un client (recommandations) ?
A quel tarif une offre se vendra le mieux ?
Quels types d’actions seront les plus efficaces à privilégier lors d’une campagne électorale (marketing politique mis en œuvre, notamment lors de la deuxième campagne du président Obama) ?
A quelle association de médicaments cette personne atteinte d’un cancer répondra le mieux (médecine prédictive) ?
Comment va évoluer une épidémie de grippe dans les semaines à venir (épidémiologie) ?
Quelle machine risque de tomber en panne prochainement (maintenance prédictive) ?
À quelles périodes la consommation d’énergie ou de bande passante sera maximale (le « Bison Futé » des réseaux) ?

En raison de ses promesses, l’analyse prédictive suscite l’intérêt de nombreuses organisations, dans des fonctions et secteurs aussi divers que la vente et le marketing, la recherche, la médecine, l’industrie, la finance ou la sécurité intérieure. Néanmoins, sa mise en œuvre n’est pas sans écueils.

1. Présentation de la technologie

Tout d’abord, précisons ce que n’est pas l’analyse prédictive : celle-ci n’est pas synonyme de Big Data, même si les deux concepts sont souvent associés dans le discours des fournisseurs, entretenant une certaine confusion. Comme l’a précisé Olivier Grisel, chercheur à l’INRIA, lors d’une présentation à l’USI (Unexpected Sources of Inspiration), « le Big Data renvoie à tout ce qui est suffisamment grand pour être difficile à traiter avec les systèmes traditionnels. L’analyse prédictive, quant à elle, peut parfaitement s’effectuer sur des jeux de données qui tiendraient sur une disquette. »

Celle-ci n’est pas non plus synonyme de data visualisation, même si les deux vont généralement de pair. La représentation graphique permet, en effet, de faciliter l’interprétation des données. Elle est d’autant plus nécessaire que celles-ci sont nombreuses, nul œil humain ne pouvant extraire du sens d’un tableau de 100 000 lignes ou plus. Néanmoins, la prédiction, en tant que telle, nécessite des calculs et une modélisation en amont.

En quoi consiste précisément l’analyse prédictive ? Il s’agit d’une application des sciences statistiques consistant à chercher des relations entre différentes variables à travers la modélisation, ceci dans le but de prédire l’évolution de certaines de ces variables. Thomas Miller, auteur du livre Modeling Techniques of Predictive Analytics, distingue deux types de variables : celles que l’on essaie de prédire sont les réponses ; celles qui influencent les réponses, identifiées par l’observation et l’expérimentation, sont appelées les prédicteurs. Ce sont ces dernières qui sont ensuite manipulées pour évaluer leurs effets sur les réponses.

Il existe deux grandes familles de techniques utilisées pour l’analyse prédictive :

Les techniques de modélisation statistique, et notamment les modèles de régression et de classification. Selon Thomas Miller, les premiers permettent de prédire une réponse avec une magnitude pertinente (quantité vendue, cours d’une action…), tandis que les seconds consistent à prédire une catégorie de réponse (quelle marque sera achetée, est-ce que le client achètera ou non le produit ?…).
Les techniques de machine learning, qui incluent par exemple les réseaux bayésiens et les réseaux de neurones. Dans ce cas, c’est un programme informatique qui passe en revue les données et les utilise pour apprendre, en les classant, en identifiant, puis en reconnaissant des patterns et des variantes significatives. Ce sont plutôt ces techniques qui sont privilégiées pour l’exploration du Big Data, car il est plus difficile de tester des modèles élaborés sur un grand volume de données.

Dans les deux cas, ces techniques partent des données, mais, dans le premier cas, les modèles peuvent aussi inclure des règles métier préexistantes.

Dans la pratique, comment cela se passe-t-il généralement ? Olivier Grisel décrit « un flot de données brutes, toujours les mêmes, que l’on va utiliser pour essayer de prédire une variable donnée. De ces données brutes on extrait des vecteurs (une sélection d’attributs), afin d’aboutir à des représentations intermédiaires sur lesquelles sont testés différents modèles statistiques. » À l’issue de ces étapes, les modèles validés doivent pouvoir s’exécuter sur de nouvelles données.

Il existe également une troisième approche prédictive, utilisée notamment dans les domaines scientifiques et la R&D : la simulation. Dans ce cas, il faut d’abord élaborer un modèle qui représente un certain nombre de règles (les lois physiques par exemple), et celui-ci génèrera ensuite les données. Dans ce cas, les réponses à prédire peuvent être le comportement d’un véhicule, la résistance d’un nouveau matériau, la structure ou les propriétés d’une molécule…

2. Regard critique

Si l’analyse prédictive est assez simple à mettre en place dans certains domaines matures, ce n’est pas le cas partout. La réussite des projets dépend, en effet, de plusieurs facteurs, parmi lesquels la complexité du modèle étudié. Plus il y a de variables à inclure, plus le modèle sera susceptible de contenir des erreurs ou de fournir des résultats peu exploitables.

« C’est le nombre de prédicteurs potentiels dans le business, le marketing et les analyses d’investissement qui provoque le plus de difficultés », avertit ainsi Thomas Miller, ajoutant que « les modèles simples sont meilleurs que les modèles complexes », et que « ceux qui s’adaptent bien aux données sont préférables à ceux qui s’y adaptent mal. » Sur son blog, John Foreman, data scientist chez MailChimp.com, renchérit : « La complexité doit être justifiée. »

Récemment, en cherchant à déterminer les prédicteurs indiquant qu’un client était susceptible de payer pour leur service, il a identifié un seul paramètre véritablement pertinent, et un second pouvant entrer en compte : nul besoin, dans un tel cas, d’un modèle avec cinquante variables.

La qualité des données, encore et toujours

La pertinence des résultats dépend également fortement de la qualité et de la fiabilité des données disponibles. Des données incomplètes, redondantes ou faussées impacteront les résultats obtenus. Il est illusoire, en effet, d’espérer tirer beaucoup de valeur de données qui n’auront pas, au préalable, été préparées et nettoyées, des étapes que John Foreman décrit comme « le travail oublié du data scientist ».

Il faut également se demander si les données dont on dispose sont adaptées à ce que l’on cherche à prédire et, si ce n’est pas le cas, où et comment collecter les données nécessaires. Pour Thomas Davenport, professeur et auteur de plusieurs livres autour du Big Data, « le manque de bonnes données est la barrière la plus commune pour les organisations cherchant à employer l’analyse prédictive. »

La plupart des modèles nécessitent également un environnement stable, ainsi que quelques cycles de données historiques pour pouvoir apporter de la valeur, comme le rappelle John Foreman. Inutile donc de se précipiter et de collecter des données au hasard.

La volumétrie peut changer la donne

Une autre difficulté potentielle est liée à la volumétrie et à l’hétérogénéité des données, qui ajoutent de la complexité. La masse de données disponibles va s’accroître encore plus avec l’Internet mobile, les objets connectés et la « digitalisation » de nombreuses activités, offrant davantage de possibilités d’analyse. Néanmoins, les approches classiques de modélisation ne sont pas forcément les plus adaptées sur de très grands corpus de données, comme l’explique une tribune d’Alon Halevy, Peter Norvig et Fernando Pereira, chercheurs chez Google, intitulée « la déraisonnable efficacité des données ».

Celle-ci aborde le traitement sémantique du langage naturel, une forme de prédiction complexe, puisqu’il s’agit de déterminer le sens des mots. Les experts de Google promeuvent le machine learning, basé sur l’analyse des occurrences de mots et de leur contexte, qui gagne en pertinence avec le nombre de contenus analysés, plutôt qu’une modélisation complexe des règles de grammaire ou l’hypothétique généralisation des technologies du Web sémantique.

Une maintenance coûteuse

D’autres chercheurs de Google évoquent enfin la dette technique liée au machine learning, un synonyme pour des coûts de maintenance qui vont grimper au fil du temps, dans un article intitulé Machine Learning:The High-Interest Credit Card of Technical Debt. Cette dette dépend fortement de la dépendance aux données, un facteur dont il est difficile de faire abstraction dans le cas de l’analyse prédictive. Mieux vaut donc être conscient des risques en amont, afin de les prévenir autant que possible.

Outre ces facteurs liés à la démarche d’analyse prédictive elle-même, il existe également des barrières organisationnelles qui entravent la mise en œuvre de tels projets.

Des freins à l’adoption

Entre 2012 et 2013, la proportion d’entreprises ayant adopté une approche d’analyse prédictive est passée de 18 % à 25 %, selon une étude du cabinet Aberdeen (Predictive Analytics : Breaking through the barriers of adoption). En revanche, celles-ci ne représentaient plus que 20 % de l’échantillon interrogé en 2014, traduisant un certain ralentissement.

Pour l’auteur de l’étude, Peter Krensky, analyste Analytics et Business Intelligence, cette stagnation peut s’expliquer par plusieurs hypothèses : la difficulté pour les promoteurs de ces technologies d’en montrer les applications possibles à leurs collègues, l’aversion au changement de certaines organisations ou encore l’incertitude concernant les compétences nécessaires à la mise en place de ce type de démarche.

Quelques solutions généralistes pour l’analyse prédictive
Solutions	Commentaires
Coheris SPAD Data Mining	Solution issue du rachat de SPAD en mai 2007
Dataiku Data Science Studio	Start-up française fondée en 2013. Sa solution est basée sur plusieurs technologies Open source (Hadoop, Elasticsearch…).
Dell StatSoft Statistica	Solution issue du rachat de StatSoft en mars 2014
HP Haven Predictive Analytics	Solution basée sur Distributed R, un moteur d’analyse dérivé de R
IBM SPSS	Solution issue du rachat de SPSS en juillet 2009
Information Builders WebFOCUS RStat
KNIME	Open source
Langage Python et ses librairies dédiées comme Scikit-Learn	Open source
MathWorks MATLAB Statistics Toolbox	Solution basée sur le langage et l’environnement MATLAB
R	Open source
RapidMiner
SAP Predictive Analytics	Solution issue du rachat de KXEN en septembre 2013
SAS Enterprise Miner, Model Manager…
Tibco Spotfire	Solution issue du rachat de Spotfire en mai 2007
Source: Best Practices.

3. Que faire ? Quelques pistes de solutions

Pour Eric Siegel, auteur de Predictive Analytics, The Power To Predict Who Will Click, Buy, Lie or Die, chaque application de l’analyse prédictive est définie par deux éléments :

Ce qui est prédit, c’est-à-dire le type de comportement (action, événement…) à prédire pour chaque individu, titre financier ou autre élément.
Ce que l’on fait de cette prédiction, autrement dit, quelles sont les décisions sur lesquelles joue la prédiction, les actions initiées par l’organisation en réponse ou grâce aux prédictions ?

Ne pas se perdre dans les données…

…Mais garder en tête les leviers sur lesquels on souhaite agir. Le second point cité par Eric Siegel est incontournable dans une entreprise, où il vaut mieux partir de problèmes concrets et bien identifiés. Il est souvent plus simple de poser la bonne question que de jouer avec des données en espérant trouver des prédicteurs intéressants pour l’organisation, même si les deux démarches peuvent aboutir. Lors du Congrès Big Data 2015, Jean-Michel Batto, expert IT à l’INRA, a présenté le programme européen MetaHIT, un projet d’analyse du métagénome de la flore présente dans le système digestif humain. Celui-ci a permis d’identifier de nouvelles espèces de micro-organismes par l’exploration des données, mais il a également pour objectif de répondre à des questions plus précises, comme le lien entre la diversité de la flore et l’obésité ou le diabète.

Mettre sans cesse les gains potentiels en perspective

Selon Evan Miller, spécialiste du langage Erlang et de l’analyse statistique, « l’analyse prédictive, en dehors du secteur de l’assurance, n’est pas ce qui fera ou détruira une entreprise. Elle peut offrir une avance compétitive et ouvrir de nouvelles opportunités, mais ce n’est pas la seule épée qui coupe. » Pour lui, les meilleurs cas d’usage de l’analyse prédictive peuvent se résumer à deux grandes catégories : les recommandations et la prévention de tout type de problème : pannes, maladies, fraudes… Le second cas est, pour lui, la « véritable « killer application », au moins aussi importante que le traditionnel exemple présenté en étendard, « les clients ont également acheté… « . »

Par ailleurs, comme le souligne John Foreman, la réponse doit garder de l’intérêt pour l’organisation, ce qui doit conduire régulièrement à orienter ou réorienter les efforts vers les cas d’usage où la valeur est clairement identifiable. « L’hypothèse centrale de l’analyse prédictive est que le futur continuera d’être comme le passé », prévient Thomas Davenport. Néanmoins, les comportements étudiés peuvent changer au fil du temps. Les modèles utilisés pour les prédire ne sont alors plus valides, d’où la nécessité de les réévaluer régulièrement.

Comprendre le rôle des data scientists

Aberdeen a examiné les facteurs favorisant la réussite des projets autour de l’analyse prédictive. Parmi les entreprises ayant adopté cette approche, 79 % avaient un sponsor parmi le comité exécutif, et pour 72 % d’entre elles les projets découlaient de cas d’application proposés par les utilisateurs. Le rôle du data scientist n’était cité que dans 54 % des cas.

Est-ce à dire que les entreprises peuvent se passer de cette fonction, relativement récente ? Pour y voir plus clair, il est nécessaire de bien comprendre en quoi consiste le rôle du data scientist.

Thomas Miller les décrit ainsi : « Les data scientists, ceux qui travaillent dans le domaine de l’analyse prédictive, parlent le langage du métier. Ils connaissent l’informatique, incluant les structures de données, les algorithmes et la programmation orientée objet. Ils comprennent la modélisation statistique, le machine learning et la programmation mathématique. Les data scientists sont méthodologiquement éclectiques, puisant dans de nombreuses disciplines scientifiques et traduisant les résultats de recherches empiriques en des termes et des représentations que le management peut comprendre. »

Pour celui-ci, ce que font les data scientists peut être résumé en sept grandes activités :

Trouver et collecter des informations sur un sujet.
Regarder les données.
Prédire le « combien ».
Prédire un « oui ou non ».
Tester ces prédictions sur d’autres ensembles de données.
Jouer avec des hypothèses « que se passe-t-il si ? ».
Traduire les observations dans un langage que le métier peut comprendre.

La variété des compétences requises et la diversité des tâches ne doivent pas être un frein aux projets, car ces écueils peuvent souvent être contournés par la mise en place d’une équipe pluridisciplinaire, dès lors que les activités sont bien réparties et que la collaboration fonctionne.

Comment évaluer un modèle d’analyse ?

Pour prévenir les différents biais et écueils évoqués, Thomas Davenport, dans un article publié dans la Harvard Business Review, mentionne cinq questions à poser aux data scientists :

Pouvez-vous me parler des sources de données utilisées dans votre analyse ?
êtes-vous sûrs que l’échantillon choisi est représentatif de la population ?
Est-ce qu’il existe quelques anomalies dans la distribution des données? Comment affectent-elles les résultats ?
Quels sont les présupposés derrière votre analyse ?
Existe-il certaines conditions qui rendraient ceux-ci invalides ?

Les sept étapes d’une démarche d’analyse prédictive classique

Préparer les données (collecte, nettoyage, amélioration de la qualité).
Construire le modèle.
Tester le modèle sur les jeux de données préparés.
Implémenter les modèles validés en les alimentant avec de nouvelles données.
Rendre les analyses accessibles aux utilisateurs métier, notamment grâce à la data visualisation.
Évaluer régulièrement le modèle.
Si nécessaire, le faire évoluer ou le remplacer par un autre plus pertinent.