createButton(
"https://minio.lab.sspcloud.fr/ssphub/diffusion/website/2026-03-dares/Analyse_textuelle_documents_longs.pdf",
"Télécharger les slides en pdf"
)Les accords d’entreprise représente une importe quantité d’information librement accessible. Ces accords permettent d’analyser les décisions prises au niveau le plus fin de l’économie. Ils présentent cependant plusieurs enjeux méthodologiques puisqu’ils peuvent être assez longs (jusqu’à des dizaines de page) et représentent une importante masse de données à analyser. Quelles techniques mettre en oeuvre alors pour détecter les thémes abordés par ces accords et en extraire des informations ?
Les méthodes mises en place pour répondre à ces questions incluent :
- l’analyse fréquentielle, après nettoyage des données ;
- la modélisation thématique en mobilisant les techniques LDA ou BERTopic ;
- enfin la capacité à extraire de l’information (comme le nombre d’heures supplémentaires) en utilisant les récentes évolutions qu’ont apporté les RAG et des LLM.
L’atelier était en présentiel à l’Insee (salle 4C-358) et en visio.
Pour plus d’information, la Dares a présenté son travail aux Journées de méthodologie statistique de 2025.
Replay de la présentation :
Présentation :
La présentation est aussi disponible en ligne.