Maîtriser les flux de données : entre performance et éthique

Il sera bien difficile d’échapper au monde des données, univers en expansion régulière. Ce que les auteurs, Serge Abiteboul, chercheur à l’Inria et Valérie Peugeot, chercheuse à Orange Labs, nomment la « Terra Data, terre de données immense, aux contours mal définis, qui reste encore à explorer. »

La problématique des données n’est certes pas nouvelle : les scribes faisaient déjà du reporting sur des tablettes, qui n’étaient évidemment pas numériques, et les savants mésopotamiens accumulaient des données d’observation sur la Lune.

Qu’est-ce qui a changé ? Avant tout, notent les auteurs, « une déferlante de données qui se retrouvent dans nos maisons. » Et nous sommes passés des données (descriptions élémentaires d’une réalité) à l’information (structuration des données pour donner du sens), puis à la connaissance (compréhension du sens de l’information). « Les outils dont nous disposons ne cessent de progresser pour raccourcir le chemin entre données et connaissances », observent les auteurs. Encore faut-il pouvoir traiter et analyser les données.

14 biblio DBR
  • LinkedIn
  • Twitter
  • Facebook
  • Gmail

Terra Data, qu’allons-nous faire des données numériques ? par Serge Abiteboul et Valérie Peugeot, Éditions Le Pommier, Cité des Sciences et de l’Industrie, 338 pages.

Si les progrès technologiques ont permis de réelles avancées dans ce domaine, algorithmes et Big Data souffrent de plusieurs limites. D’abord, avec le data mining, il n’est pas facile d’intégrer les connaissances humaines, qui contiennent de nombreuses irrégularités : « Il n’est pas simple d’indiquer à une machine quelles sont les connaissances dont nous disposons déjà et quels sont les nouveaux savoirs susceptibles de nous intéresser », déplorent les auteurs.

Ensuite, on confond souvent corrélation et causalité, un phénomène de plus en plus courant avec l’engouement pour les Big Data, qui oblige à nettoyer les données. « Les raisons des échecs, ou de la médiocre qualité de certaines analyses de données, viennent souvent soit de la phase amont, la préparation des données, soit de la phase aval, l’interprétation des résultats », observent les auteurs. Même le machine learning est sujet à caution, car l’algorithme n’apprend qu’à partir des données qui lui sont fournies et il est souvent opaque quant à son mode de raisonnement.

Pour les auteurs, les scénarios restent à écrire, tant les imbrications entre les technologies, les données et les usages sociaux sont étroites et imprévisibles, par exemple dans les domaines des villes connectées, de la santé, de la réduction des inégalités sociales ou des expérimentations scientifiques. Il restera, de toute façon, une place pour l’intelligence humaine, « indispensable pour savoir où et quoi chercher », rassurent les auteurs, en particulier pour les principales étapes des approches Big Data : le choix des données, du problème, des calculs et l’interprétation des résultats.

Retrouver le contrôle de l’individu sur ses données personnelles

Le problème reste le contrôle des individus sur leurs données, surtout pour les accès aux services gratuits, « qui rendent la relation entre l’utilisateur et les entreprises toujours plus asymétrique, qui a peu d’équivalents dans l’économie traditionnelle », soulignent les auteurs. Avec les risques de surveillance et de profiling qui en découlent. « Avec la surveillance de masse, tout le monde est suspect a priori », assurent-ils. Serge Abiteboul et Valérie Peugeot plaident pour une analyse responsable des données, autour de cinq principes : la neutralité des réseaux, la loyauté des plateformes, la diversité (par exemple pour les moteurs de recherche), la transparence des algorithmes et l’équité du traitement d’un individu par rapport aux autres.

De fait, pour les auteurs, la réglementation sur les usages des données personnelles va dans le bon sens, en particulier le règlement européen (RGPD), applicable dès mai 2018. « Ce texte vise à réduire l’asymétrie de pouvoir qui existe entre les citoyens et les entités publiques ou privées qui manipulent leurs données tout en simplifiant la vie des entreprises », résument les auteurs. Bien évidemment, la situation n’est pas figée et, dans ce domaine, on assiste toujours à une « course-poursuite entre le droit, les technologies et les usages. »

Les auteurs abordent les différentes options techniques pertinentes pour protéger les individus, avec le chiffrement et les PIMS (Personal Information Management System), dont l’idée n’est pas nouvelle (on en trouve trace dès 1945). « Chaque utilisateur disposerait ainsi de son propre système de stockage des données liées aux applications qu’il utilise. Les données lui seraient disponibles et accessibles en permanence », expliquent les auteurs.

Quelle que soit la solution, il restera toujours un problème « qui n’est pas près de disparaître » : celui de l’abondance de l’information. « Avec le numérique, nous sommes passés d’une culture de relative rareté à une culture de surabondance », affirment les auteurs, pour qui « nous sommes mariés aux données numériques… pour le meilleur et pour le pire » !