Active Tigger

Accélérer la classification de données textuelles

Émilien Schultz - Julien Boelaert - Étienne Ollion
CREST/GENES

2025-05-27

Constat (réccurent) de départ

Abondance de données textuelles
- Traitement humain coûteux & peu reproductible
Enjeu général d’outiller les sciences sociales en NLP
- Réfléchir & stabiliser les bonnes pratiques numériques
Arrivée des modèles pré-entraînés
- Nouvelles perspectives & méthodes

Arrivée des modèles pré-entrainés

Transformers (BERT en 2018)
- Représentations contextuelles
Modèles fondationnels
- Possibilité de Prompt-engineering

Conséquences :

Nouveaux usages (contextualisation, prompt-engineering)
Nouveaux problèmes (ouverture, reproductibilité, archivage)

Quels modèles ?

La question : LLM unique ou modèles spécialisés

Bonne performance des modèles pré-entraînés fine-tunés pour la classification
Permettre une infrastructure frugale
- diffusion
- versionnement
- coût énergatique

Et intégrer si possible les aspects plus avancés

Active Tigger

Objectifs principaux :
- Faciliter l’annotation manuelle de corpus de textes
- Accélérer cette annotation en entraînant des classifieurs
Objectifs secondaires :
- Explorer de corpus
- Collaborer sur l’annotation
- Expérimenter averc le génératif

Valeurs structurantes du projet

Tourné vers la recherche en SHS
Open source & Open Science
Transparent / reproductible
Evolutif

« models and software are entangled in science, and software does critical work that models cannot perform on their own » [Hocquet et al., 2024, p. 465]

D’autres solutions existent

Doccano
Inception
Prodigy
Label studio
…

Pari d’un outil modulable permettant l’expérimentation ; État des lieux à venir avec TIPS-IA

Implémentation : prototype RShiny 2022¹

Produire un classifieur pour un très grand corpus
Récupérer uniquement certains éléments dans un grand corpus
Accélérer le codage exhaustif d’un corpus (avec la boucle AL)

Depuis 2024 : refactorisation

Consolider l’architecture

Ajouter du multi-utilisateur
Aller au-delà du prototype
Produire du code maintenable

Architecture

Backend (FASTAPI)
Client web (React)
Client Python

Choix actuels

Tâches délimitées : classification, un peu d’exploration
Implémenter une méthode active learning
- Annotation avec boucle d’AL
- Fine-tuning small model (BERT, 0.12B) + rétroaction (> zero-shot, cf. Chae & Davidson, 2024)
- Étendre sur le corpus entier
Plein de “sucre” pour les pratiques SHS

Exemple d’usage

Ollion & Boelaert : La place du genre dans les sciences sociales

À partir des résumés
115 revues, 47 000+ articles
Annotation > 1k éléments
Qualité (F1) > 0.9
Prédiction sur le corpus complet

Démo - AT en version beta

Développement en intégration continue avec des primo-utilisateurs

Accès temporaires pour tester
Quickstart en cours de rédaction
Discord pour échanger
Formations à venir

Calendrier prévisionnel

juin/juillet 2025 : version stable Docker
décembre 2025 : version intégrant la collaboration + une documentation améliorée (Progédo)
juillet 2026 : intégration du non supervisé + pipeline 0-shot

Et des expérimentations :

favoriser le lien AT & Hugging Face
autres modèles
optimisation d’hyperparamètres…

Comment contribuer ?

Github de Active Tigger
Ouvrir des issues
Entrer dans le code
- Inboarding possible
Quelles features à ajouter ?

Démo

Comptes : progedo{1-10}/progedo{1-10}
Données : thèses en “socio” depuis années 2000
Objectif : Entrainer un classifieur qui permet de détecter les thèses utilisant des approches dites “quantitatives”

go go ✅

Quelques références

Ein-Dor, Liat, Alon Halfon, […] Noam Slonim. « Active Learning for BERT: An Empirical Study ». In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 7949‑62. Online: Association for Computational Linguistics, 2020.
Zhang, Zhisong, Emma Strubell, et Eduard Hovy. « A Survey of Active Learning for Natural Language Processing ». arXiv, 3 février 2023.
Klie, Jan-Christoph, Richard Eckart De Castilho, et Iryna Gurevych. « Analyzing Dataset Annotation Quality Management in the Wild ». Computational Linguistics 50, nᵒ 3 (1 septembre 2024): 817‑66.
Chae, Youngjin, et Thomas Davidson. « Large Language Models for Text Classification: From Zero-Shot Learning to Instruction-Tuning », 24 août 2023.

Contributeurs

https://www.css.cnrs.fr/active-tigger/

Financement : GENES / DRARI / Progédo

Contributeurs : Julien Boaelaert (UL) ; Étienne Ollion (CREST) ; Paul Girard (OuestWare) ; Emma Bonutti (CREST) ; Annina Claesson (CREST) ; Léo Mignot (CED) ; Jule Brion (PACTE) ; Arnault Chatelain (CREST) ; Axel Morin (CREST)

Active Tigger

Constat (réccurent) de départ

Arrivée des modèles pré-entrainés

Quels modèles ?

Active Tigger

Valeurs structurantes du projet

D’autres solutions existent

Implémentation : prototype RShiny 20221

Depuis 2024 : refactorisation

Choix actuels

Exemple d’usage

Démo - AT en version beta

Calendrier prévisionnel

Comment contribuer ?

Démo

Quelques références

Contributeurs

Implémentation : prototype RShiny 2022¹