BercyHub's picture
Update (README) : Ajout de documentation dans le README
cda6162
|
raw
history blame
4.12 kB
metadata
license: mit
language:
  - fr
tags:
  - classification
  - discussions
  - catégorisation
  - inference
  - camembert
  - NLP
base-model:
  - camembert-base

Model Card for Model ID

Model Details

Model Description

  • Developed by: Asma RACHIDI (BercyHub)
  • Model type: Classification de Texte (Basé sur Camembert)
  • Language(s) (NLP): Français FR
  • License: MIT
  • Finetuned from model: camembert-base

Model Sources [optional]

  • Repository: [More Information Needed]

Uses

Direct Use

Les utilisateurs peuvent utiliser directement le modèle pour des tâches de classification de texte, telles que la catégorisation de discussions basée sur les titres et les messages.

Recommendations

Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.

How to Get Started with the Model

  1. Télécharger les fichiers de poids contenu dans les dossiers .zip du modèle pré-entraîné pour la classification des commentaires.
  2. Télécharger et installer le fichier requirements.txt pour les dépendances
  3. Télécharger le fichier inference_script.py pour effectuer des prédictions avec le modèle pré-entraîné.
  4. Télécharger le fichier avec les données d'entrées à prédire

Training Details

Training Data

Le modèle a été entraîné sur un jeu de données annoté manuellement par Datactivist en 2021 sur un échantillon de discussions. Le jeu de données annoté manuellement est disponible sur data.gouv.fr :
https://www.data.gouv.fr/fr/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/#/resources (voir fichier : "discussions-annotations-public-.csv")

Training Procedure

Preprocessing [optional]

Le script effectue diverses étapes de prétraitement, notamment la gestion des valeurs manquantes, la combinaison du titre et du message, et le nettoyage des données textuelles.

Training Hyperparameters

Modèle 1 - Catégories :

  • Batch Size : 16
  • Nombre d'Époques : 5
  • learning_rate=3e-5
  • weight_decay=0.01
  • optimizer = AdamW

Modèle 2 - Sous-catégories :

  • Taille des lots (Batch Size) : 16
  • Nombre d'Époques : 10
  • learning_rate=3e-5
  • weight_decay=0.01
  • optimizer = AdamW

Evaluation

Testing Data, Factors & Metrics

Testing Data

Le modèle a été évalué, premièrement sur un ensemble de données de test dérivé du jeu de données des discussions annotées par datactivist représentant 20% de l'ensemble de données total. Et deuxièmement sur un jeu de données du catalogue des discussions de data.gouv.fr (non-annoté): https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/

Metrics

  • Accuracy
  • Recall
  • Precision
  • F1-score

Results

Le modèle a obtenu des performances compétitives sur l'ensemble de test.

Modèle 1 - Catégories :

  • Accuracy : 72 %
  • Recall : 72%
  • Precision : 71%
  • F1-score : 72%

Modèle 2 - Sous-catégories :

  • Accuracy : 74%
  • Recall : 74%
  • Precision : 70%
  • F1-score : 71%

Cependant, les données d'entraînement comportent un très grand déséquilibre entre les classes, ce qui abaisse les performances au niveau des classes sous-représentées. Ce désequilibre induit un certains biais entre les classes.

Summary

Model Architecture and Objective

[More Information Needed]

Model Card Authors

Asma RACHIDI (BercyHub)

Model Card Contact

[email protected]