Vous désirez intégrer la liste de diffusion ? L’inscription se fait ici.
Cette newsletter propose un petit cahier de vacances de la data science afin de profiter de la période estivale pour en apprendre plus sur les sujets en vogue et ainsi être fin prêt pour la rentrée 📖⛱️.
Lectures estivales
Pour commencer, quelques conseils de lecture sur les grands modèles de langage :
Un article du Washington Post pour en savoir plus sur le corpus d’entrainement des grands modèles de langage (large langage model, LLM) ;
Pour comprendre la manière dont
ChatGPT
et les grands modèles de langage traduisent vos phrases afin de vous répondre, consultez ce post de blog sur les tokenizers (décomposition d’une chaine de caractères en unité minimale comme un mot ou une syllabe);Entre deux épisodes de votre série préférée, vous pourrez alterner avec ce cours de 2 heures sur les grands modèles de langage ;
Vous serez ensuite prêts à approfondir le sujet avec ce cours complet d’
Huggingface
sur le traitement automatique du langage.
N’hésitez pas à faire des pauses dessin virtuel pour stimuler votre créativité en créant des images avec StableDiffusion ou Dall-E 2.
La version Python
de l’ouvrage de référence Introduction to Statistical Learning vient de sortir et est disponible, comme la version R
, gratuitement. Si après la lecture de celui-ci vous désirez mieux comprendre la question de l’interprétabilité des modèles de machine learning, c’est-à-dire les méthodes statistiques permettant de mieux comprendre la manière dont les algorithmes d’apprentissage aboutissent à une décision, ce site web vous sera très utile.
Si vous désirez en apprendre plus sur la question de la reproductibilité, les ressources suivantes vous seront utiles :
- Building reproducible analytical pipelines with R ;
- Coding for economists ;
- Formation aux bonnes pratiques
R
etGit
par l’INSEE ; - Un cours de l’ENSAE sur la mise en production de projets data science et, pour approfondir sur la mise en production de modèles de machine learning, une formation de l’Insee sur le MLOps, ensemble de techniques qui visent à faciliter la mise en production et la maintenance de modèles.
Si les semestres de l’année scolaire ne vous ont pas suffi, vous pouvez aussi profiter de l’été pour compléter votre formation en data science en suivant le missing semester de votre cursus.
Vous pouvez également reprendre l’ensemble des ressources mises à disposition dans le cadre du Funathon 2023, un événement pour lequel les équipes innovation de l’Insee et du SSM Agriculture et alimentation ont mis à disposition de nombreuses ressources R
ou Python
sur six thèmes concernant l’alimentation et la production agricole. Ces ressources couvrent un large éventail de niveaux de difficulté et de techniques pour permettre à la fois aux débutants en code et aux data scientists plus aguerris d’y trouver leur compte.
Et pour un parcours complet de formation, rien de mieux que d’explorer de fond en comble le portail de formation du SSP Cloud.
Après avoir lu tout ceci, vous serez prêts pour les événements data science de la rentrée comme le hackathon du mobidatalab sur le thème de l’amélioration des services de mobilité urbaine (15 et 16 septembre).
Bonnes vacances ! Et n’oubliez pas de profiter pleinement des vacances pour oublier ChatGPT
quelques temps ! 🌞🌊⛰️