Le manifeste du réseau des data scientists du service statistique public

Un document produit collectivement pour s’accorder sur les objectifs et les moyens du réseau

Ce document, issu de délibérations collectives, propose, de manière non exhaustive, quelques éléments sur les objectifs du réseau, les moyens mis en oeuvre et la gouvernance de celui-ci.

Published

April 11, 2022

Note

Ce manifeste est une production collective. Pour proposer des modifications à celui-ci, qui seront discutées collégialement, vous pouvez suivre ce lien vers .

Contexte institutionnel

La data science est un domaine interdisciplinaire combinant des techniques issues des mathématiques, de la statistique et de l’informatique pour produire de la connaissance utile à partir de données.

Les innovations récentes dans le domaine de la data science ont beaucoup à offrir à la statistique publique pour simplifier et accélérer certains processus de production, faciliter l’exploitation de sources de données non traditionnelles ou volumineuses, automatiser certaines tâches, communiquer auprès de publics plus larges avec des visualisations réactives ou encore, entre autres, réduire le hiatus entre statisticiens et informaticiens.

L’importance de la data science pour la sphère publique, a été soulignée dans différents rapports successifs. Le rapport public sur l’« Évaluation des besoins de l’État en compétences et expertise en matière de donnée » ainsi que le rapport de l’Inspection Générale de l’INSEE « Les corps de l’INSEE et les carrières des data scientists »1 recommandent la création de réseaux de data scientists pour répondre aux besoins dans ce domaine.

La pratique de la data science nécessite cependant l’expérience de nouvelles compétences, environnements et méthodes de travail. Cet article dans la Harvard Business Review, qui revient 10 ans plus tard sur le titre provocateur “Data Scientist: Sexiest Job of the 21st Century”, illustre les changements rapides au cours de la dernière décennie du rôle du data scientist dans l’écosystème de la donnée. Cette multiplication des compétences rend utile un réseau de praticiens partageant régulièrement ensemble leur expérience, les ressources jugées utiles et échangeant sur les innovations récentes pouvant amener à des évolutions de la production de statistique publique.

Thématiques

Le réseau regroupe les agents volontaires du Service Statistique Public (SSP)2. Ce réseau a vocation à diffuser dans l’ensemble des administrations de la statistique publique les thématiques pouvant amener à des évolutions de la production statistique.

Dans le cadre d’une démarche ouverte, les membres du réseau ont mis en oeuvre un site web, nommé « SSP Hub », permettant de diffuser les projets et les connaissances acquises, qu’elles soient produites par des membres du réseau ou non. Ce site relaye à la fois les actions du réseau (posts de blog, projets menés, événéments organisés) mais aussi des ressources utiles pour les data scientists de l’administration qui désirent suivre des événements liés à la data-science ou explorer des ressources éducatives sur le sujet.

Objectifs

À court terme, les objectifs du réseau sont :

  1. Faciliter l’échange entre pairs, notamment les retours d’expérience sur des problématiques génériques de la data science appliquées aux tâches du SSP3. Ces échanges doivent aider à résoudre les problèmes concrets que les agents rencontrent dans leur pratique de la data science et favoriser la mutualisation des connaissances ;
  2. Promouvoir et démystifier la data science en acculturant un public non aguerri à cette thématique en montrant par l’exemple ses apports concrets mais aussi en mettant à disposition les ressources et formations disponibles pour son appréhension.

A plus long terme, selon la réussite initiale du réseau, les demandes exprimées par les participants et les moyens dégagés, le SSP Hub pourrait :

  1. Offrir une vitrine des initiatives de data science au sein du SSP4 et favoriser la visibilité et le dialogue avec d’autres acteurs de la data science (autres institutions françaises, institutions internationales, enseignement supérieur et recherche académique…)
  2. Accompagner de manière ponctuelle des équipes dans l’amélioration de processus de production existants grâce aux outils ou méthodes de la data science. Ces accompagnements offrent un complément utile aux formations en proposant l’acquisition de compétences sur un projet sur lequel les agents travaillent à une fréquence élevée.

Publics

Ce réseau s’adresse à tous les agents du Service Statistique Public intéressés par les thématiques définies précédemment, indépendamment du niveau d’expertise. En pratique coexisteraient donc des agents experts et débutants en data science partageant leurs connaissances et pouvant s’entraider, des statisticiens « classiques » curieux de ces nouvelles techniques et désireux d’en apprendre plus voire se former, et enfin des encadrants souhaitant s’acculturer aux sujets en vue de favoriser l’utilisation de ces outils dans leurs services.

Si certains sujets peuvent concerner un public restreint dans le service statistique publique (analyse d’image par exemple) d’autres ont vocation à intéresser et aider un public bien plus large, ne se définissant pas nécessairement comme data scientist (Git, bonnes pratiques de développement, data vizualisation entre autres).

Moyens

Plusieurs éléments sont mis en place pour atteindre les objectifs du réseau :

  • Le présent site web indexe les travaux, formations et bonnes pratiques à mutualiser pour diffusion de l’information. Son contenu est en cours construction sur la base des suggestions des personnes faisant parti du réseau ;
  • Un ensemble d’évènements ouverts. Afin de répondre aux différents besoins, ceux-ci visent des publics, durées et finalités variés. Le premier type d’évènement, testé en 2022, est l’Open Hour dont le rôle est de choisir pour chaque occurence un thème en amont et d’en discuter informellement entre agents travaillant sur cette thématique et ceux désireux d’en apprendre plus. D’autres évènements seront mis en place progressivement selon les formats et contenus identifiés comme pertinents ;
  • Des canaux de communication sur l’actualité du réseau (infolettre mensuelle) et d’échanges en continu entre agents du réseau (à travers un canal Tchap5)

Résumé

Le réseau des data scientists doit permettre de faire « plus et mieux » de data science en étant composé d’un public aux compétences et attentes diverses. Le réseau se veut inclusif, ouvert, utile, informel et convivial.

Pour faciliter son adoption, le réseau cherche à apporter des solutions et informations concrètes sans impliquer une charge horaire trop conséquente. Les discussions y sont conviviales et la multiplicité des sujets abordés permet à tous de trouver des ressources utiles.

Les contours du réseau tels que décrits dans le présent manifeste, ainsi que la ligne éditoriale des sujets et évènements sont une première proposition dont la pertinence sera jugée à l’aune de la satisfaction des participants.

Footnotes

  1. Rapport de l’Inspection Générale de l’Insee N° 2020_48/DG75-B001 (non public)↩︎

  2. Le Service Statistique Public (SSP) regroupe les institutions en charge de la production de statistiques officielles. Il est principalement constitué de l’Insee et des services statistiques ministériels (SSM). Pour en savoir plus, le site de l’Insee propose des éléments supplémentaires.↩︎

  3. Le Service Statistique Public (SSP) regroupe les institutions en charge de la production de statistiques officielles. Il est principalement constitué de l’Insee et des services statistiques ministériels (SSM). Pour en savoir plus, le site de l’Insee propose des éléments supplémentaires.↩︎

  4. Le Service Statistique Public (SSP) regroupe les institutions en charge de la production de statistiques officielles. Il est principalement constitué de l’Insee et des services statistiques ministériels (SSM). Pour en savoir plus, le site de l’Insee propose des éléments supplémentaires.↩︎

  5. Il est possible de rejoindre ce canal Tchap sur simple demande à ↩︎