Active Tigger

Accélérer la classification de données textuelles

Émilien Schultz - Julien Boelaert - Étienne Ollion
CREST/GENES

2025-05-27

Constat (réccurent) de départ

  • Abondance de données textuelles
    • Traitement humain coûteux & peu reproductible
  • Enjeu général d’outiller les sciences sociales en NLP
    • Réfléchir & stabiliser les bonnes pratiques numériques
  • Arrivée des modèles pré-entraînés
    • Nouvelles perspectives & méthodes

Arrivée des modèles pré-entrainés

  • Transformers (BERT en 2018)
    • Représentations contextuelles
  • Modèles fondationnels
    • Possibilité de Prompt-engineering

Conséquences :

  • Nouveaux usages (contextualisation, prompt-engineering)
  • Nouveaux problèmes (ouverture, reproductibilité, archivage)

Quels modèles ?

La question : LLM unique ou modèles spécialisés

  • Bonne performance des modèles pré-entraînés fine-tunés pour la classification
  • Permettre une infrastructure frugale
    • diffusion
    • versionnement
    • coût énergatique

Et intégrer si possible les aspects plus avancés

Active Tigger

  • Objectifs principaux :
    • Faciliter l’annotation manuelle de corpus de textes
    • Accélérer cette annotation en entraînant des classifieurs
  • Objectifs secondaires :
    • Explorer de corpus
    • Collaborer sur l’annotation
    • Expérimenter averc le génératif

Valeurs structurantes du projet

  • Tourné vers la recherche en SHS
  • Open source & Open Science
  • Transparent / reproductible
  • Evolutif

« models and software are entangled in science, and software does critical work that models cannot perform on their own » [Hocquet et al., 2024, p. 465]

D’autres solutions existent

  • Doccano
  • Inception
  • Prodigy
  • Label studio

Pari d’un outil modulable permettant l’expérimentation ; État des lieux à venir avec TIPS-IA

Implémentation : prototype RShiny 20221

  • Produire un classifieur pour un très grand corpus
  • Récupérer uniquement certains éléments dans un grand corpus
  • Accélérer le codage exhaustif d’un corpus (avec la boucle AL)

Depuis 2024 : refactorisation

Consolider l’architecture

  • Ajouter du multi-utilisateur
  • Aller au-delà du prototype
  • Produire du code maintenable

Architecture

  • Backend (FASTAPI)
  • Client web (React)
  • Client Python

Choix actuels

  • Tâches délimitées : classification, un peu d’exploration
  • Implémenter une méthode active learning
    • Annotation avec boucle d’AL
    • Fine-tuning small model (BERT, 0.12B) + rétroaction (> zero-shot, cf. Chae & Davidson, 2024)
    • Étendre sur le corpus entier
  • Plein de “sucre” pour les pratiques SHS

Exemple d’usage

Ollion & Boelaert : La place du genre dans les sciences sociales

  • À partir des résumés
  • 115 revues, 47 000+ articles
  • Annotation > 1k éléments
  • Qualité (F1) > 0.9
  • Prédiction sur le corpus complet

Démo - AT en version beta

Développement en intégration continue avec des primo-utilisateurs

  • Accès temporaires pour tester
  • Quickstart en cours de rédaction
  • Discord pour échanger
  • Formations à venir

Calendrier prévisionnel

  • juin/juillet 2025 : version stable Docker
  • décembre 2025 : version intégrant la collaboration + une documentation améliorée (Progédo)
  • juillet 2026 : intégration du non supervisé + pipeline 0-shot

Et des expérimentations :

  • favoriser le lien AT & Hugging Face
  • autres modèles
  • optimisation d’hyperparamètres…

Comment contribuer ?

Démo

  • Comptes : progedo{1-10}/progedo{1-10}
  • Données : thèses en “socio” depuis années 2000
  • Objectif : Entrainer un classifieur qui permet de détecter les thèses utilisant des approches dites “quantitatives”

go go

Quelques références

  • Ein-Dor, Liat, Alon Halfon, […] Noam Slonim. « Active Learning for BERT: An Empirical Study ». In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 7949‑62. Online: Association for Computational Linguistics, 2020.
  • Zhang, Zhisong, Emma Strubell, et Eduard Hovy. « A Survey of Active Learning for Natural Language Processing ». arXiv, 3 février 2023.
  • Klie, Jan-Christoph, Richard Eckart De Castilho, et Iryna Gurevych. « Analyzing Dataset Annotation Quality Management in the Wild ». Computational Linguistics 50, nᵒ 3 (1 septembre 2024): 817‑66.
  • Chae, Youngjin, et Thomas Davidson. « Large Language Models for Text Classification: From Zero-Shot Learning to Instruction-Tuning », 24 août 2023.

Contributeurs

https://www.css.cnrs.fr/active-tigger/

Financement : GENES / DRARI / Progédo

Contributeurs : Julien Boaelaert (UL) ; Étienne Ollion (CREST) ; Paul Girard (OuestWare) ; Emma Bonutti (CREST) ; Annina Claesson (CREST) ; Léo Mignot (CED) ; Jule Brion (PACTE) ; Arnault Chatelain (CREST) ; Axel Morin (CREST)