Rencontre avec Ian Ayres, professeur à l’université Yale, auteur de « Super Crunchers, How Anything can be predicted » (éditions Bantam, 2007).
Vous annoncez l’avènement du « super crunching », autrement dit le règne de l’analyse statistique. Comment cela se manifeste-t-il ?
Ian Ayres Lorsque l’on essaie de prédire la valeur de marché de produits qui ne sont pas testés et qui ne sont pas arrivés à un stade de maturité suffisant, la question est de savoir s’il faut se baser sur l’expertise des individus ou sur des données quantitatives.
Plusieurs cas montrent qu’une telle tentative suscite des critiques, par exemple lorsqu’il faut prédire le succès d’un film, la qualité d’un vin ou des résultats sportifs. Mais ces domaines ne sont pas isolés : en réalité, nous sommes dans une période dans laquelle l’intuition et l’expertise perdent régulièrement du terrain face à la puissance des analyses statistiques.
Depuis longtemps, beaucoup de décisions sont simplement basées sur un mélange d’expérience et d’intuition. Les experts étaient reconnus comme tels après des années d’essais et d’erreurs successifs. On pouvait les croire car ils connaissaient le meilleur moyen de faire les choses, puisqu’ils l’avaient fait de nombreuses fois auparavant.
Désormais, nous sommes dans un autre contexte. Les entreprises et les pouvoirs publics se fondent de plus en plus sur les bases de données pour prendre leurs décisions. En d’autres termes, les analyses statistiques impactent les décisions du monde réel, avec des aspects liés à la taille, à la vitesse et au périmètre.
Les tailles des bases de données sont vraiment imposantes, à la fois pour le nombre d’informations mais également pour le nombre de variables. On ne mesure plus en méga ou gigaoctets, mais en teraoctets (1 000 gigaoctets) ou petaoctets (1 000 teraoctets). Pour donner un ordre de grandeur, l’ensemble des ouvrages de la bibliothèque du Congrès des états-Unis représente environ vingt teraoctets de textes.
L’entrepôt de données de Wal-Mart, le numéro un mondial de la grande distribution, atteint 570 teraoctets. Rappelons que téra est un préfixe grec qui signifie « un monstre » ! Autre exemple : une société comme Axciom, aux Etats-Unis, dispose d’une base de données d’habitudes de consommation sur quasiment chaque foyer américain.
Cette société, qui a été dénommée « l’une des plus grandes entreprises dont vous n’avez jamais entendu parler », gère vingt milliards d’éléments sur les habitudes de consommation, soit l’équivalent de 850 teraoctets de données. De quoi remplir un milliard de disquettes…
De même, la vitesse d’analyse s’est considérablement accélérée, elle est aujourd’hui proche du temps réel. Par conséquent, l’impact des analyses statistiques est lui aussi, plus important dans la prise de décision.
Bien sûr, toutes les décisions ne peuvent faire l’objet d’un test. Pour certaines, c’est un choix oui/non, par exemple pour lancer une satellite ou pour investir 100 millions de dollars dans une nouvelle technologie.
Pour d’autres, il n’existe pas de séries statistiques historiques suffisamment longues. Et même s’il existe des exemples répétés d’un phénomène, cela ne suffit pas à en tirer des séries statistiques.
Qu’est-ce que cela change pour les entreprises ?
Ian Ayres Ces analyses statistiques ne changent pas seulement la façon dont les décisions sont prises, elles changent les décisions elles-mêmes. La base de ces analyses est formée par la méthode de la régression, inventée en 1877 par Francis Galton, un cousin de Charles Darwin. Cette approche produit une équation, qui représente les corrélations entre différentes variables.
Non seulement cette équation rend compte de ce qui s’est produit dans le passé mais peut être également utilisée pour prévoir ce qui va se passer. La première régression de Francis Galton portait sur le lien entre la taille des enfants et celle de leurs parents. Une autre approche célèbre, celle de Orley Ashenfelter, estime la qualité future d’un vin à partir de la température et du niveau des précipitations.
On conçoit dès lors que les régressions statistiques changent les décisions puisqu’elles améliorent les prévisions. Et, par exemple, permettent de réduire les coûts. Pour reprendre le cas de la grande distribution, l’enjeu financier est important dès lors qu’ils s’agit, avec de meilleures prévisions, d’ajuster le niveau des stocks à la demande.
De même, si l’on peut mieux prévoir la probabilité de défection d’un consommateur au profit d’un concurrent, l’impact est réel sur le chiffre d’affaires, notamment dans les secteurs où les coûts d’acquisition des clients est élevé.
L’émergence du tera mining signifie que les entreprises vont de plus en plus délaisser la stratégie selon laquelle les consommateurs les plus profitables subventionnent ceux qui le sont moins, pour cibler les clients qui rapportent le plus, ce qui va conduire à une hypersegmentation. Et, de fait, à facturer un prix différent à chaque client.
Le tera mining procure donc un avantage décisif à l’entreprise, en lui permettant de prévoir le comportement de ses clients, cela même mieux que les individus concernés. Ce ne sont pas seulement les stratégies marketing des entreprises qui vont se trouver bouleversées par l’analyse prédictive mais aussi les modes de gouvernement.
On le voit par exemple avec les administrations fiscales, capables de prévoir, grâce à leurs milliards d’informations et leurs énormes bases de données, comment vont se comporter les contribuables.
Qu’est-ce qui est le plus crédible : l’analyse statistique ou l’expert ?
Ian Ayres On se pose la question depuis des dizaines d’années. Beaucoup d’individus veulent savoir s’ils peuvent croire une prévision issue d’une équation de régression statistique. En réalité, si la prévision est imprécise, par exemple parce que la qualité des données n’est pas suffisante, la régression sera la première à indiquer qu’il ne faut pas croire ses résultats : voyons-nous beaucoup d’experts qui vous indiquent le degré de précision de leurs prévisions ?
Les individus estiment que les variables qui sous-tendent leurs propres décisions ne peuvent être mises en boîte dans les algorithmes. Les experts perdent du terrain pour une raison simple : le cerveau humain souffre d’un certain nombre de failles cognitives et de biais qui distordent notre capacité à prévoir correctement.
En d’autres termes, nous attribuons davantage de poids à des éléments rares. Cela conduit par exemple à penser que l’on a plus de risques de mourir de mort violente que d’accidents domestiques… Non seulement nous produisons des prévisions erronées, mais nous accordons beaucoup de confiance à nos prévisions et sommes réticents à changer de point de vue en face de l’évidence.
Lors de la prise de décision, on surestime beaucoup le pouvoir de ses propres intuitions, parce qu’elles font sens pour chacun d’entre nous. Et plus la prévision est complexe, plus ces éléments auront de l’influence, dès lors que les variables ont un poids différent. C’est aussi pour cette raison que l’on fait appel aux experts.
Le problème est que cette distorsion de la confiance dans les prévisions ne se résume pas à des discussions académiques. La prise de décision devient biaisée. Les analyses statistiques sont meilleures parce que le poids des différentes variables dans le résultat final est correctement estimé.
Et à la différence des experts, les statistiques n’ont pas d’émotion, de sentiments et, surtout, d’ego ! Et elles fournissent la qualité de leur prévision, rappelons-le. Cela dit, si les statistiques n’ont pas d’émotions et n’affichent pas de préférences, il n’en est pas de même pour ceux qui les interprètent.
Bien sûr, les données qui servent aux analyses statistiques peuvent comporter des erreurs. Mais quelle que soit leur qualité, les prévisions réalisées de manière statistique sont, au pire, au moins aussi bonnes que celles produites par le cerveau humain.
Peut-on combiner les deux : les statistiques et les experts ?
Ian Ayres Au lieu de laisser de côté le savoir des experts, on peut envisager de l’associer dans le cadre d’une coexistence pacifique, dans la mesure où les experts sont meilleurs lorsque leurs analyses reposent sur des statistiques précises.
Mais le problème est que, même avec toutes les données nécessaires, les humains ne prévoient jamais aussi bien que les analyses statistiques. L’une des solutions consiste à intégrer les analyses des experts comme une variable supplémentaire dans les analyses statistiques.
Ce qui reste à l’individu, c’est d’utiliser son intuition pour identifier quelles sont les variables qui doivent être intégrées aux analyses statistiques. Celles-ci peuvent déterminer s’il existe une relation de cause à effet entre plusieurs variables et en estimer l’importance, mais l’intervention humaine est nécessaire pour spécifier les hypothèses.
Sans intuition, il y a une infinité de possibilités de causalité entre une infinité de variables. L’intuition est précurseur de l’analyse statistique. Celle-ci permet de tester les intuitions, non pas de façon ponctuelle, mais en permanence.
Pourquoi ce débat surgit maintenant alors que les techniques statistiques sont connues depuis longtemps ?
Ian Ayres Essentiellement parce de plus en plus d’informations sont numérisées. Et même lorsque l’information est d’abord produite sur un support papier, les technologies de moins en moins coûteuses de dématérialisation permettent de la transformer dans un format numérique.
Autre tendance : la possibilité de relier entre elles des informations qui, auparavant, étaient isolées. Au sein d’une même entreprise, les données sont organisées en silos qu’il est désormais possible de relier, d’exporter et d’importer dans un format standard, car les contraintes liées aux incompatibilités technologiques s’estompent.
De fait, la donnée devient une marchandise banale, et on est d’autant prêt à payer pour l’acquérir qu’il est possible de l’intégrer avec d’autres préexistantes dans des bases de données. De même, il est plus tentant de « capturer » des données de toutes sortes si l’on sait qu’il est possible et plus facile de les vendre.
En fait, l’analyse de données est davantage une question d’évolution technologique que d’évolution des techniques statistiques, qui existent depuis des siècles. Ce n’est d’ailleurs pas tant l’effet de la loi de Moore, qui pose que la puissance des processeurs double tous les dix-huit mois, que l’accès à des capacités de stockage plus importantes et moins coûteuses, qui favorise l’engouement pour les analyses statistiques.
On connaît bien la loi de Moore mais on connaît moins la loi de Mark Kryder, directeur technique de Seagate Technology : la capacité de stockage des disques durs double tous les deux ans. Et les prix du stockage baissent de 30 à 40 % par an, tandis que la croissance de la quantité des informations stockées n’impose pas pas une augmentation parallèle de la puissance des serveurs nécessaires au traitement de ces informations.
Vous pouvez avoir un teraoctets pour votre PC pour quelques centaines de dollars : de quoi stocker l’équivalent de 66 millions de pages de textes ! Il n’y aucune raison de penser que ces évolutions technologiques vont s’arrêter.
Ne va-t-on pas assister à des mouvements de résistance ?
Ian Ayres Nous observons en effet une lutte entre, d’un côté, l’intuition, l’expérience personnelle et, d’un autre côté, la puissance des statistiques.
En fait, le statut et le pouvoir vont de pair et l’émergence du « super crunching » fragilise le statut et la crédibilité de beaucoup de professions traditionnelles, par exemple les salariés qui, dans les banques, sont chargés d’accorder les prêts. Auparavant, ils avaient un certain pouvoir discrétionnaire et étaient plutôt bien payés.
Aujourd’hui, les décisions d’accorder les prêts sont prises par des algorithmes statistiques. Et les salariés concernés sont devenus des super-secrétaires qui cliquent sur un écran. On assiste à une disparition du pouvoir discrétionnaire des salariés de front-office au profit de structures centralisées, de la périphérie vers le centre.
Et ces super-algorithmes jouent un rôle dans le mouvement d’externalisation dans la mesure où ces salariés de front-office n’ont plus besoin d’être très qualifiés.
Autre effet pervers : lorsque les entreprises utilisent les analyses statistiques pour améliorer la qualité de leur service client, c’est plutôt bénéfique. Mais si elles y ont recours pour ajuster leurs prix, elles vont chercher à savoir jusqu’où elles peuvent aller pour augmenter leurs marges avant que le consommateur n’achète le produit concurrent. Avec une discrimination entre des clients aux profils identiques.
Se pose également le problème du respect de la vie privée, récurrent dans les univers numériques tant il est facile de copier une information.
La sphère privée s’amenuise : avec un simple moteur de recherche, on peut trouver beaucoup d’informations sur un individu. Le problème est que le tera mining ne se contente pas de déterminer où vous avez passé vos vacances l’été dernier, mais de prévoir où vous passerez les prochaines… même si vous ne le savez pas vous-même !
Le droit à la vie privée concerne la passé et le présent : mais on ne s’est pas intéressé à l’avenir ! On devrait donc voir apparaître des mouvements de résistance, par exemple des produits certifiés « sans data mining » à l’image des produits sans matières grasses…