Active Tigger
Accélérer la classification de données textuelles
Émilien Schultz - Julien Boelaert - Étienne Ollion
CREST/GENES
2025-05-27
Constat (réccurent) de départ
- Abondance de données textuelles
- Traitement humain coûteux & peu reproductible
- Enjeu général d’outiller les sciences sociales en NLP
- Réfléchir & stabiliser les bonnes pratiques numériques
- Arrivée des modèles pré-entraînés
- Nouvelles perspectives & méthodes
Arrivée des modèles pré-entrainés
- Transformers (BERT en 2018)
- Représentations contextuelles
- Modèles fondationnels
- Possibilité de Prompt-engineering
Conséquences :
- Nouveaux usages (contextualisation, prompt-engineering)
- Nouveaux problèmes (ouverture, reproductibilité, archivage)
Quels modèles ?
La question : LLM unique ou modèles spécialisés
- Bonne performance des modèles pré-entraînés fine-tunés pour la classification
- Permettre une infrastructure frugale
- diffusion
- versionnement
- coût énergatique
Et intégrer si possible les aspects plus avancés
Active Tigger
- Objectifs principaux :
- Faciliter l’annotation manuelle de corpus de textes
- Accélérer cette annotation en entraînant des classifieurs
- Objectifs secondaires :
- Explorer de corpus
- Collaborer sur l’annotation
- Expérimenter averc le génératif
Valeurs structurantes du projet
- Tourné vers la recherche en SHS
- Open source & Open Science
- Transparent / reproductible
- Evolutif
« models and software are entangled in science, and software does critical work that models cannot perform on their own » [Hocquet et al., 2024, p. 465]
D’autres solutions existent
- Doccano
- Inception
- Prodigy
- Label studio
- …
Pari d’un outil modulable permettant l’expérimentation ; État des lieux à venir avec TIPS-IA
Implémentation : prototype RShiny 20221
- Produire un classifieur pour un très grand corpus
- Récupérer uniquement certains éléments dans un grand corpus
- Accélérer le codage exhaustif d’un corpus (avec la boucle AL)
Depuis 2024 : refactorisation
Consolider l’architecture
- Ajouter du multi-utilisateur
- Aller au-delà du prototype
- Produire du code maintenable
- Backend (FASTAPI)
- Client web (React)
- Client Python
Choix actuels
- Tâches délimitées : classification, un peu d’exploration
- Implémenter une méthode active learning
- Annotation avec boucle d’AL
- Fine-tuning small model (BERT, 0.12B) + rétroaction (> zero-shot, cf. Chae & Davidson, 2024)
- Étendre sur le corpus entier
- Plein de “sucre” pour les pratiques SHS
Exemple d’usage
Ollion & Boelaert : La place du genre dans les sciences sociales
- À partir des résumés
- 115 revues, 47 000+ articles
- Annotation > 1k éléments
- Qualité (F1) > 0.9
- Prédiction sur le corpus complet
Démo - AT en version beta
Développement en intégration continue avec des primo-utilisateurs
- Accès temporaires pour tester
- Quickstart en cours de rédaction
- Discord pour échanger
- Formations à venir
Calendrier prévisionnel
- juin/juillet 2025 : version stable Docker
- décembre 2025 : version intégrant la collaboration + une documentation améliorée (Progédo)
- juillet 2026 : intégration du non supervisé + pipeline 0-shot
Et des expérimentations :
- favoriser le lien AT & Hugging Face
- autres modèles
- optimisation d’hyperparamètres…
Quelques références
- Ein-Dor, Liat, Alon Halfon, […] Noam Slonim. « Active Learning for BERT: An Empirical Study ». In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 7949‑62. Online: Association for Computational Linguistics, 2020.
- Zhang, Zhisong, Emma Strubell, et Eduard Hovy. « A Survey of Active Learning for Natural Language Processing ». arXiv, 3 février 2023.
- Klie, Jan-Christoph, Richard Eckart De Castilho, et Iryna Gurevych. « Analyzing Dataset Annotation Quality Management in the Wild ». Computational Linguistics 50, nᵒ 3 (1 septembre 2024): 817‑66.
- Chae, Youngjin, et Thomas Davidson. « Large Language Models for Text Classification: From Zero-Shot Learning to Instruction-Tuning », 24 août 2023.
Contributeurs
https://www.css.cnrs.fr/active-tigger/
Financement : GENES / DRARI / Progédo
![]()
Contributeurs : Julien Boaelaert (UL) ; Étienne Ollion (CREST) ; Paul Girard (OuestWare) ; Emma Bonutti (CREST) ; Annina Claesson (CREST) ; Léo Mignot (CED) ; Jule Brion (PACTE) ; Arnault Chatelain (CREST) ; Axel Morin (CREST)
Comment contribuer ?