Infolettre n°12

Infolettre du mois de Mars 2023, deuxième quinzaine

Infolettre
Author

Lino Galiana

Published

March 15, 2023

Note

Vous désirez intégrer la liste de diffusion ? L’inscription se fait ici.

Du fait de la densité des actualités dans le monde de la data science et des multiples événements à venir dans le cadre de ce réseau, nous proposons d’accélérer le rythme de publication des newsletters.

Actualités de la data science

La charte graphique de l’Insee sur le tapis rouge

La semaine dernière avait lieu la cérémonie des Oscars. Grâce à un fil de Clara Dealberto, on peut mesurer l’influence des graphistes de l’Insee sur les stylistes des stars :

Tweet de Clara Dealberto

Le fil, qui met à l’honneur l’Insee, vaut le détour ; n’hésitez pas à le consulter ! Ou à découvrir celui sur le Met Gala.

ChatGPT encore et toujours

ChatGPT continue de focaliser l’attention. Dans la veine de l’article désignant les modèles de langages sous le terme de “stochastic parrots” (“perroquets stochastiques”), Arthur Charpentier parle lui de “société du bullshit” pour désigner la manière dont ChatGPT offre, sous un raisonnement en apparence logique, de manière indifférenciée des absurdités et des vérités.

Espérons que lorsque ChatGPT sera embarqué dans les voitures General Motors, il ne nous donnera pas de fausse indication pour changer un pneu ou ne se retournera pas contre le conducteur comme le ferait HAL 9000.

Un article intéressant de Wired questionne d’ailleurs l’empreinte carbone que pourrait impliquer la généralisation des modèles de langage dans les moteurs de recherche, qui font face à des milliards de requêtes quotidiennes.

Au moment où OpenAI rend public GPT-4, une version plus riche de son modèle GPT-3 qui servait de base à ChatGPT, l’un des cofondateurs d’OpenAI revient sur la stratégie d’ouverture (ou plutôt l’absence d’ouverture) d’OpenAI : “Nous avions tord” (voir The Verge). Hasard du calendrier, cette déclaration a eu lieu presque au même moment que la publication d’un robot conversationnel ouvert OpenChatKit. La concurrence est néanmoins âpre puisqu’une équipe de Microsoft a déjà proposé l’intégration à ChatGPT d’un module permettant d’interagir avec ChatGPT également par le biais d’images.

Des turbulences dans la Silicon Valley

Une infographie des faillites bancaires par Mike Bostock. Source: Notebook Observable

L’autre actualité phare des quinze derniers jours est la faillite de la Silicon Valley Bank. Aux Etats-Unis, il s’agit de la plus principale faillite bancaire depuis 2008 aux Etats-Unis.

La Fed est rapidement intervenue pour endiguer la panique bancaire, même si la banque était en fait déjà dans ses radars bien avant sa faillite (voir NYT).

Retour sur les évolutions récentes du monde de la data science

Le panorama technologique 2023 de Matt Turck confirme la tendance à la diversification des technologies à maîtriser pour mener un projet de data science. Cette complexification des outils et des rôles dans l’écosystème de la donnée, évoquée dans l’article “Is Data Scientist Still the Sexiest Job of the 21st Century?”, est ici confirmée.

Les derniers sondages auprès des recruteurs américains montrent la popularité des data engineers, plus spécialisés que les data scientists dans la mise en oeuvre d’infrastructures techniques pour valoriser des données. Le profil de data engineer apparaît en deuxième place dans le classement des profils les plus recherchés par les recruteurs alors que les data scientists n’apparaissent plus dans les premières places du classement.

Le big data n’est pas mort

Une réponse intéressante à l’article “Big data is dead” (voir Newsletter #11) revient sur l’intérêt de disposer de données historiques longues pour l’entrainement de modèles d’apprentissage.

R directement dans le navigateur

Avec un peu de retard sur Python, il devient maintenant possible de faire du R directement depuis le navigateur web, c’est-à-dire sans installation du logiciel R, grâce à WebR. Cette approche est typique du Web Assembly où les langages de programmation sont directement utilisés depuis le navigateur, sans installation préalable.

Actualités du réseau: événements à venir

Place aux actualités de notre réseau avec les prochains événements que nous organisons.

Première journée du réseau en avril (17 avril)

Déjà annoncée dans la Newsletter #11, nous rappelons la journée du réseau le 17 avril, en présentiel 📅.

Le nombre de places dans l’espace à disposition étant limité, une invitation par mail et un lien d’inscription seront communiqués dans la semaine pour pouvoir participer à cet événement en présentiel dans le tiers-lieu la Tréso à Malakoff.

Bonnes pratiques en Python : présentation lors des ateliers du programme 10% (30 mars)

Dans le cadre du programme 10%, des présentations ont lieu avant certains ateliers de travail sur les projets communautaires.

La prochaine présentation, qui aura lieu le jeudi 30 mars de 14h à 15h 📅, sera donnée par des membres du réseau. Elle portera sur une présentation des outils favorisant les bonnes pratiques de développement en Python et de l’intérêt de ces bonnes pratiques pour faciliter la mise en production de projets de data science. Il s’agira d’une présentation succincte du contenu du cours de l’ENSAE “Bonnes pratiques et mise en production de projets data science”.

Plus d’infos à venir par le biais du canal Tchap de notre réseau.

Un événement autour de l’OCRisation avec Christopher Kermorvant (29 mars)

Le mercredi 29 mars de 15h à 16h 📅 nous recevons Christopher Kermorvant, chercheur spécialisé en OCRisation et fondateur de Teklia. Christopher mène actuellement plusieurs projets de numérisation de textes anciens, notamment d’OCRisation de vieux recensements avec l’INED.

Pendant cet événement, Christopher nous fera un état de l’art de l’OCRisation puis nous présentera des projets qu’il a pu mener récemment avec Teklia.

Il est possible de suivre la présentation via Zoom ou, pour les personnes présentes à l’Insee, en 2-C-496.

Invitation outlook ici

Présentation de la documentation collaborative Carpentries (28 mars)

Pour rappel, Kate Burnett-Isaacs, de Statistics Canada, nous présentera l’initiative Meta Academy / Carpentries le mardi 28 mars à 15h 📅. Plus de détails dans la Newsletter #11.

Invitation Outlook ici.

Actualités du réseau: dernières nouveautés

Post de blog sur Polars

Pour faire suite à la Newsletter #11 qui présentait l’écosystème autour du package Python Polars, Romain Tailhurat (Insee) nous propose un post de blog pour découvrir ce package.

Celui-ci est accompagné par un tutoriel pas-à-pas pour découvrir les principales fonctionnalités de la librairie. Il est possible de tester le notebook en un seul clic sur le SSP Cloud ou sur Google Colab.

Vous pouvez également retrouver ce tutoriel depuis l’espace formation du SSP Cloud.