L’Insee s’est intéressé aux Big Data, dans un numéro spécial de sa revue Économie & Statistiques. En particulier, puisque c’est l’une des missions de l’Insee, dans le domaine de la production des statistiques. Philippe Tassi, DGA de Mediamétrie, propose une intéressante synthèse de la genèse des Big Data en matière d’études statistiques.
Il rappelle notamment que le Big Data n’a rien de nouveau : « la collecte de données nombreuses, et même exhaustives, ne date pas de l’ère numérique ; cette activité a suivi de près l’apparition de l’écriture, qui était une condition nécessaire. La majorité des historiens et archéologues considèrent que celle‑ci est apparue en Basse Mésopotamie, l’actuel Irak, environ 5 000 ans avant notre ère. » Avec, à l’époque, deux applications : l’astronomie et le comptage des population. En Chine, il existait même l’ancêtre de nos Chiefs Data Officer, baptisés à l’époque les « directeurs des multitudes ». De même, l’intelligence artificielle est un concept très ancien : « Il serait peut‑être possible de remonter à Babylone ou l’Empire chinois, tant il semble naturel d’avoir très tôt cherché à modéliser le comportement du cerveau humain et à représenter l’homme comme une machine pour pouvoir ensuite concevoir des machines apprenantes », rappelle Philippe Tassi.
En matière de statistiques, le XXème siècle a plutôt privilégié les méthodes d’échantillonnage, notamment pour les sondages qui fleurissent régulièrement, alors que les recensements exhaustifs étaient plutôt rares, car très coûteux. Pour Philippe Tassi, « depuis la fin du 20e siècle et le début du 21e, la convergence numérique a favorisé le recueil automatique de données observées sur des populations de plus en plus grandes, créant des bases de données avec une masse croissante d’informations, annonçant par conséquent le retour en grâce de l’exhaustif. En outre, le passage au numérique a permis de mettre sous la même forme des informations historiquement distinctes et hétérogènes. »
Outre les problématiques de confiance et de conformité réglementaire, se pose la question de la confidentialité des données, en particulier des données personnelles. « On ne peut pas faire l’économie d’une certaine vigilance, car les Big Data et leurs usages peuvent avoir des effets sur les individus, leurs libertés et la préservation de leur vie privée », estime Philippe Tassi.
C’est tout l’enjeu de la protection des données personnelles. Il existe principalement quatre moyens de les préserver : l’anonymisation (retirer de la base de données toutes les variables permettant d’identifier une personne particulière), la destruction ou l’agrégation de données, l’obscurcissement des données (préserver la confidentialité des données en les « altérant » de façon volontaire) et la « confidentialité différentielle. » Cette approche « repose sur des hypothèses probabilistes et statistiques. L’idée est de quantifier le risque d’une éventuelle faille de confidentialité, tout en mesurant l’effet d’une protection efficace des données sur la vie privée, en termes statistiques », résume Philippe Tassi.
Ce numéro d’Économie & Statistiques aborde également les apports du Big Data pour les enquêtes de conjoncture, notamment en se basant sur les Google Trends, la possibilité d’exploiter les données issues de la téléphonie mobile pour mesurer le tourisme international ou estimer une population résidente, ou le recours au Big Data pour mieux mesurer l’audience de la télévision. Mais tout est loin d’être parfait.
Par exemple, précise François Robin, « Le modèle Google Trends est parcimonieux et stable, en termes de sélection et de coefficients. Cependant, les résultats des modèles utilisant les Google Trends sont sensibles à l’échantillonnage opéré par Google pour leur construction. Néanmoins, leur utilisation nécessite une analyse préalable des thèmes de recherche adéquats, l’automatisation de la correction des valeurs aberrantes et la multiplication des recherches de termes identiques pour en fiabiliser les résultats. »
De même, concernant l’apport du Big Data pour établir des prévisions macroéconomiques, « les résultats sont toutefois assez mitigés, reflétant à la fois la simplicité relative des modèles utilisés et les limitations importantes en termes de qualité, de forme, de taille d’échantillon et de leur nature qualitative », souligne Pete Richardson, consultant chez Leewellyn Consulting. Quant au comptage de population résidente ou du tourisme, c’est également complexe.
En théorie, « les données issues de la téléphonie mobile fournissent des enregistrements avec une résolution spatiale élevée et à une haute fréquence temporelle. Elles sont considérées comme une source prometteuse pour mesurer la mobilité des personnes et la fréquentation des territoires à des niveaux spatiaux ou temporels très fins. Leur utilisation à des fins statistiques soulève un certain nombre de questions (qualité des informations collectées, représentativité des données disponibles, retraitements nécessaires) », expliquent les auteurs de l’étude sur ce sujet. Ils ont constaté que les estimations de population résidente à partir de téléphonie mobile s’écartent significativement de la population de référence fournie par la source fiscale.
Pour les auteurs, « l’exploitation des données mobiles pour des comptages de population soulève plusieurs questions méthodologiques. La modélisation de la zone de couverture des antennes, le choix de la maille d’analyse et la localisation des événements sur cette maille jouent un rôle déterminant, tout comme les méthodes. » Quant à la mesure d’audience, c’est, là encore, un domaine où beaucoup reste à faire : « Les données massives ne doivent pas être vues comme une alternative aux mesures d’audience traditionnelles basées sur des enquêtes par sondage, mais comme une opportunité de les améliorer », concluent les analystes de l’Insee.
Big Data et Statistiques, Economie et Statistique, n° 505-506, avril 2019.