Le Big Data s’impose dans les réflexions sur la transformation numérique mais, au-delà d’une évolution naturelle des possibilités technologiques, trois tendances se dessinent : un contexte de forte incertitude, avec de nouveaux acteurs qui bousculent les positions établies et la manière de traiter des données, la prééminence des algorithmes pour mesurer tout et n’importe quoi, et la question du sens des données.
Le Big Data est un domaine où, selon l’expression employée par les experts de l’Académie des technologies, on peut craindre « les attaques de barbares » et un risque de « disruption ordinaire ». Ils distinguent trois grandes ruptures. D’abord, avec l’apparition de nouveaux services et métiers autour des données.
C’est la base de l’économie de l’intention : « Il est maintenant possible de proposer au consommateur le produit ou le service dont il a envie, au bon moment, en capturant son intention à partir des traces numériques. » Ce qui pose d’emblée deux problèmes : la divulgation des informations collectées et « la nature des inférences qu’on a le droit de faire. »
La deuxième rupture correspond à une nouvelle façon d’utiliser les statistiques, avec les interrogations sur les différences entre la corrélation (base du Big Data) et la causalité. Et l’on a tendance à confondre les deux. Or, soulignent les experts de l’Académie des technologies, « les corrélations qui sont obtenues par la fouille des données n’ont pas d’intérêt en soi, elles servent à agir. »
Ainsi, les deux sont indissociables : « Le risque d’erreur est important si l’on sort la détection des corrélations de ce contexte dynamique et que l’on souhaite en faire une méthode prédictive. »
Big Data : un changement de paradigme peut en cacher un autre, Académie des technologies, EDP Sciences, 54 pages.
À quoi rêvent les algorithmes ? Nos vies à l’heure des Big Data, par Dominique Cardon, Éditions du Seuil, 106 pages.
Big Data, Big Cata ? L’effet Snowden, par Yannick Chatelain, Éditions Kawa, 179 pages.
Enfin, le Big Data est aussi une nouvelle manière de programmer, avec le principe : Data is the new code, autrement dit, « le code est conceptuellement moins important que la donnée sur laquelle il s’applique, parce qu’il change constamment, qu’il est composé d’algorithmes simples et est le résultat d’une boucle d’apprentissage. »
Avec le Big Data, les ruptures, par des « nouveaux barbares », remettent en cause les manières de travailler, l’effet de deux mécanismes : l’exécution numérique d’un processus existant et une ré-implémentation numérique pour obtenir une meilleure satisfaction client.
Nous sommes dans l’ère des algorithmes, que l’on trouve partout et qui ont remis au goût du jour le métier de statisticien, avec des nouveaux habits de data scientist ou, encore plus prestigieux, de chief data officer. Il est devenu très tentant, et très tendance, de tout mesurer, de tout quantifier et de tout comparer, grâce à de multiples capteurs, et l’Internet des objets renforcera ce besoin.
Dominique Cardon, sociologue au Laboratoire des usages d’Orange Labs et professeur associé à l’université de Marne-la-Vallée, souligne que « comme l’invention du microscope a ouvert une nouvelle fenêtre sur la nature, les capteurs numériques sont en train de jeter leurs filets sur le monde pour le rendre mesurable en tout. (…) Une nouvelle vague d’extension de la calculabilité est en marche, son ampleur est inédite et ses conséquences, bien qu’encore difficiles à évaluer, sont considérables. »
Quel est le sens des données ?
L’auteur pose bien sûr la question du sens : « Le principal défi que doivent affronter les Big Data est de donner du sens à ce magma de données brutes. » Hélas, les modes de traitements des Big Data restent, pour la plupart, obscurs et il convient, suggère Dominique Cardon, « d’ouvrir la boîte noire », et « d’encourager la diffusion d’une culture statistique vers un public beaucoup plus large que celui des seuls spécialistes. »
Une telle ouverture est d’autant plus pertinente que, poursuit l’auteur, « la révolution des Big Data se trouve moins dans l’accumulation des données que dans la manière de les calculer. » Yannick Chatelain, professeur associé à Grenoble école de management, s’interroge, lui aussi, sur le sens des données : « Aussi puissants que les outils analytiques soient-ils, aussi agiles que nous le soyons, qu’adviendra-t-il de leurs modalités d’usage et de nos pratiques si nous devons faire face à une paupérisation croissante de données fiables ? Le réveil va être difficile si nous devons faire face à des données ne cessant de perdre du sens, de façon exponentielle. »
Notamment dans le domaine du marketing, l’un des premiers consommateurs de données et de Big Data. Car, ajoute l’auteur, « la gourmandise des données d’autrui est un vilain défaut, le marketeur digital pourra répéter à l’envi que c’est pour le bien de l’utilisateur, il sait pertinemment que c’est un mensonge grossier. »
Par rapport à l’ancien monde des statistiques, deux tendances sont à l’œuvre, selon Dominique Cardon. D’une part, le fait que « les catégories parviennent moins bien à représenter des individus qui se singularisent de plus en plus. (…) Alors que les statistiques n’ont jamais été aussi présentes, elles sont de plus en plus fréquemment contestées. »
D’autre part, « les corrélations statistiques ne vont plus de la cause vers la conséquence, mais remontent des conséquences vers une estimation des causes probables. (…) Les corrélations n’ont pas besoin de causes. (…) Les capacités de calcul sont désormais si puissantes qu’elles permettent de tester toutes les corrélations possibles sans en épargner aucune au prétexte que l’hypothèse y conduisant ne serait jamais faite. » Mais, précise l’auteur, « les données ne parlent qu’en fonction des questionnements et des intérêts de ceux qui les interrogent. (…) Rendre la machine « intelligente » ne sert à rien si elle ne sait pas adapter son raisonnement à chaque situation. »
Des algorithmes biaisés ou idiots… ou les deux ?
Si les machines manquent d’intelligence, est-ce à dire que les algorithmes sont biaisés et idiots ? À cette question, Dominique Cardon remarque que « plus les individus sont transparents, plus ceux qui les observent sont opaques » et, « parce qu’ils fonctionnent comme de purs automatismes procéduraux, les algorithmes donnent souvent des résultats statistiques imparfaits, stupides ou choquants. »
Les algorithmes sont ainsi accusés de déformer, voire de trahir, la réalité, et ceux qui les contournent, avec de faux profils ou des robots, renforcent le doute. Mais il est difficile de mesurer le biais, ce qui suppose de disposer d’une représentation juste de la réalité. « Si la neutralité des algorithmes est impossible à vérifier, il est en revanche important de demander aux plateformes du Web de respecter leurs utilisateurs en faisant réellement faire à leurs calculateurs ce qu’elles disent et prétendent leur faire faire », affirme Dominique Cardon.
Le risque majeur est de perdre « le paysage au profit de la carte », à l’image des GPS qui se sont inscrits dans les pratiques banales des conducteurs, de sorte que « ceux-ci ont parfois perdu toute idée de la carte, des manières de la lire, de la diversité de ses chemins de traverse et des joies de l’égarement. (…) Les algorithmes contribuent aussi à assujettir l’internaute à cette route calculée, efficace, automatique, qui s’adapte à nos désirs en se réglant secrètement sur le trafic des autres. »
Les quatre familles de calcul numérique
- À côté du Web : pour mesurer l’audience des sites et leur popularité, en comptant les nombres de clics des visiteurs. Selon Dominique Cardon, « il est très facile de manipuler ces mesures d’audience. »
- Au-dessus du Web : pour enregistrer les échanges entre internautes, c’est le principe de Google qui mesure « la force sociale d’une page Web dans la structure du Web. L’algorithme du moteur de recherche ordonne les informations en considérant qu’un site qui reçoit d’un autre un lien reçoit en même temps un témoignage de reconnaissance qui lui donne de l’autorité », précise Dominique Cardon. Cette approche est biaisée parce qu’elle « produit de puissants effets d’exclusion et de centralisation de l’autorité et que ne participent au classement de l’information que ceux qui publient des documents comportant des liens hypertextes. »
- À l’intérieur du Web : pour mesurer la réputation du Web social, selon le principe des « like » de Facebook. Hélas, souligne Dominique Cardon, on observe « un décalage de plus en plus important entre ce que les individus disent faire et ce qu’ils font réellement. Les réseaux sociaux ont installé sur le Web une immense usine de production de signes expressifs, qui creuse un écart entre la multiplicité des désirs d’être et la réalité des existences quotidiennes. (…) En préférant les conduites aux aspirations, les algorithmes nous emprisonnent dans notre conformisme. »
- Au-dessous du Web : pour enregistrer les traces de ce que font les internautes. « Le futur de l’internaute est prédit par le passé de ceux qui lui ressemblent », résume Dominique Cardon.
Source : À quoi rêvent les algorithmes ? Nos vies à l’heure des Big Data, par Dominique Cardon, Éditions du Seuil, 106 pages.