Avant de vous présenter les résultats de mes travaux d'évaluation, je tiens à remercier les différentes personnes qui ont pris de leur temps dans le cadre des auditions afin d'éclairer ce travail. Je remercie tout spécialement les services de l'Insee et madame Sylvie Lagarde, qui m'a permis d'orienter ma réflexion au sein de cette politique particulièrement large qui est celle de l' open data vers l'accès aux données de nature privée. Je remercie également la direction interministérielle du numérique, les syndicats de l'Insee, qui ont su m'apporter des éléments d'information concrets sur la production de statistiques publiques en France, ainsi que les acteurs de la société civile, représentants d'établissements bancaires ou d'associations que j'ai eu l'occasion d'entendre.
La crise sanitaire a sonné le glas pour nos concitoyens et concitoyennes, mais également pour nos services administratifs, d'une activité que l'on pourrait qualifier de normale. La réactivité et l'adaptabilité de nos structures à l'urgence ont largement été mises à l'épreuve. À cet égard, l'Institut national de la statistique et des études économiques, l'Insee, a plus que jamais su assurer son rôle d'aiguillon de l'action publique dans cette période troublée par les incertitudes. Frappé d'une attrition de ces ressources, il s'est tourné vers une donnée de nature nouvelle, la donnée privée.
Pour réaliser ce rapport, j'ai pu m'appuyer sur l'important travail réalisé deux ans plus tôt par notre collègue Éric Bothorel, qui avait produit un rapport, à la demande du Premier ministre, relatif à la politique publique de la donnée. Ce travail conséquent m'a permis d'appréhender la politique de la donnée en France, ses réussites, ses atouts, mais aussi ses faiblesses. Pour ce rapport d'information, le thème retenu, d'abord destiné à s'intéresser à la politique d' open data et à la manière dont l'Insee traite et accède aux données, s'est métamorphosé, comme une évidence, vers un domaine plus circonscrit de l'accès aux données privées pour l'Insee à des fins de production statistique. Il me revient dès lors de vous expliquer les raisons de ce choix de thématique qui peut sembler un peu dissonant pour la commission des finances. J'ai été marqué, lors de l'examen du projet de loi de finances et des auditions, de voir à quel point le monde de la donnée, qui pourtant tend aujourd'hui à régir une importante partie de notre vie, m'était inconnu. En tant que responsable de l'évaluation du programme 220 de la mission Économie finançant les activités de l'Insee, j'ai décidé de m'intéresser à cette politique publique d'ampleur au travers des travaux de statistiques que produit l'Institut. Si aujourd'hui, tout le monde connaît l'Insee pour la qualité de ses travaux, de ses indicateurs et de ses prévisions macroéconomiques, peu sont ceux à être familiers avec la production statistique et surtout avec la manière dont celle-ci est réalisée.
Lorsque l'on évoque l'Insee, on pense bien sûr à certaines grandes études et grands indicateurs sans en connaître parfois les sous-jacents. Nous nous appuyons sur des indicateurs comme celui de l'indice des prix à la consommation (IPC), mais la réalisation de ce dernier, pour être fiable et objective, doit s'appuyer sur une étendue particulièrement forte de données. Par exemple, près de 500 000 relevés de prix sur internet, la collecte de données des caisses des enseignes de la grande distribution et près de 150 000 relevés de prix dans des points de vente sont réalisés chaque mois pour façonner cet indicateur. Ces chiffres permettent de prendre la mesure de ce que représente aujourd'hui la masse de données disponibles. Pour pouvoir exploiter ces données à des fins de production statistique, l'Insee s'appuie sur un texte promulgué en 1951, qui continue de faire figure d'autorité en définissant la notion de secret statistique. Cela peut étonner, à l'heure où les sociétés s'accélèrent et deviennent hyper modernes, de voir que l'encadrement juridique semble en inadéquation avec son époque. La notion de secret statistique n'en demeure pas moins la pierre angulaire de l'activité statistique. Or trois remarques peuvent être émises à son égard. Premièrement, la définition du secret statistique n'est pas uniforme dans la lettre du texte de loi. Elle connaît en effet une triple définition, qui dépend de la nature de la donnée exploitée par les services statistiques. Ce faisant, elle est lourde et peu lisible pour les services statistiques et l'Insee, ce qui peut brider son activité statistique. Deuxièmement, la définition de ce secret statistique est particulièrement restrictive. Elle limite le recours aux données de nature privée à des cas précisément identifiés, ce qui ne permet pas aujourd'hui de tirer l'avantage de la variété de celles-ci. Troisièmement, comme le relevait l'association Ouvre-boîte que j'ai pu auditionner, le secret statistique serait également employé comme un paravent administratif, une vague de procédures qui me pousse à formuler des critiques, comme d'autres avant moi, sur cette culture du secret persistante au sein des administrations.
En sus de cette activité de production d'études et d'indicateurs, l'Insee est désormais sommé d'ouvrir ses bases de données. La loi pour une République numérique d'octobre 2016 a transposé en droit français la logique d' open data, qui a eu pour effet une ouverture large et gratuite des données produites par l'Institut. Sur un plan budgétaire, la mise en œuvre de cette politique s'est matérialisée par la perte de la redevance perçue précédemment par la revente des données, soit une perte de onze millions d'euros annuels pour l'Institut. Sur un plan pratique désormais, l' open data induit la mise à disposition d'une information gratuite, facilement réutilisable. Or un tel exercice est parfois périlleux puisqu'il pourrait conduire, en cas de divulgation d'informations trop fines et précises, à connaître l'origine de la donnée.
La variété des données de nature privée est presque infinie. On peut donc aisément imaginer la quantité d'informations utiles pour l'action publique que celles-ci peuvent contenir. Près de 100 000 milliards de giga-octets de données ont été collectés en 2022. Google, par exemple, traite près de 3,5 milliards de requêtes d'utilisation chaque jour. Outre la richesse pour les services statistiques que peut représenter cette masse, j'attire l'attention sur les risques inhérents à la protection de la vie privée.
Enfin, j'ai fait le choix de m'intéresser à cette thématique pour sa dimension prospective et pour l'actualité forte qui entoure cette question. Tout d'abord, les partenariats tissés dans le cadre de la crise sanitaire avec des acteurs privés ont révélé une plus-value forte à l'usage de cette matière inexplorée. Le partenariat établi entre l'Insee et La Banque Postale, mis en place durant la crise sanitaire afin de suivre les effets économiques du confinement sur la population, s'est révélé prometteur. Cette convention a été déterminée d'un commun accord entre les deux acteurs et a reposé sur un échantillon déterminé de données composé d'environ 300 000 clients sélectionnés aléatoirement. Je tiens ici à souligner le caractère vertueux de ce partenariat, qui a permis aux services de l'Insee de réaliser des études novatrices. Mon regard est plus nuancé en revanche sur le partenariat établi entre l'Insee et le service de téléphonie mobile, notamment Orange. Ce dernier a consisté, dans le temps circonscrit de la crise sanitaire, à fournir aux services de l'Insee des données de localisation mobile, pour être en mesure de suivre les mouvements physiques de la population sur le territoire. On peut toutefois déplorer le manque de transparence dans la méthodologie employée par les opérateurs pour mettre à disposition des données agrégées et la réticence de ceux-ci à partager des informations, a fortiori lorsque les opérateurs disposent d'une offre commerciale.
Ensuite, l'actualité entourant cette question de l'utilisation des données privées a particulièrement attiré mon attention. Au niveau européen, plusieurs propositions des textes ont été présentées et portent spécifiquement sur cette thématique de la donnée, avec une incidence plus ou moins importante sur la production statistique. Dans le cadre de la stratégie européenne pour les données présentées le 19 février 2020, les textes Data Gouvernance Act et le Data Act ont constitué un point d'attention pour les services de l'Insee. Pour autant, ces deux textes n'apportent que des modifications marginales à l'exploitation des données privées, en prévoyant par exemple une utilisation des données privées en cas d'urgence publique pour le Data Act. Le règlement numéro 223, dit aussi loi statistique européenne de 2009, fait l'objet d'une proposition de révision, mais qui n'est encore qu'au stade de la discussion. J'attire l'attention sur la nécessité de demeurer attentifs à cette révision réglementaire, qui pourrait avoir une incidence notable sur les services statistiques. Le rapport Jean Pisani-Ferry paru la semaine dernière a consacré un rapport thématique à la donnée et aux indicateurs à des fins environnementales. Il relevait notamment que des ressources de nature privée, comme des relevés de compteurs de gaz ou d'électricité, pouvaient être utilement exploitées à des fins de production statistique pour orienter le décideur public.
Fort de ces constats, j'ai formulé un certain nombre de propositions qui visent à intensifier les flux de données entre les acteurs privés et les acteurs publics, mais également à rendre plus lisible un cadre normatif que je trouve ancien et peu propice à ce nouveau monde de la donnée. Je vous remercie de votre attention.