CamemBERT-Gpt POIDS UNIQUEMENT

Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.

Modèle de référence

Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : camembert-base

Structure du Projet

cam_runX/
├── checkpoints/
│   ├── checkpoint-XXX/
│   └── checkpoint-XXX/
├── weights/
└── model_info.txt

Description des Runs d'Entraînement

cam_run24

  • Dataset: mOSCAR (portion française)
  • Taille des données: 1 Go de texte
  • Description: Version d'entraînement avec un sous-ensemble contrôlé des données

cam_run30

  • Dataset: OSCAR (portion française)
  • Taille des données: 100 Go de texte
  • Description: Version d'entraînement complète, reproduisant les conditions de l'article original

Données d'Entraînement

Notre approche utilise exclusivement les portions françaises des datasets suivants :

  • mOSCAR: Version plus récente et mieux filtrée du corpus OSCAR

  • OSCAR: Common Crawl filtré pour le français

    • OSCAR sur Hugging Face
    • Utilisé pour la réplication fidèle (cam_run30)
    • Même dataset que celui utilisé dans l'article original

Paramètres d'Entraînement

Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.

Repository GitHub associé

Le code source complet et la documentation détaillée sont disponibles sur notre repository GitHub.

Citations

@inproceedings{martin2020camembert,
    title={CamemBERT: a Tasty French Language Model},
    author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
    booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
    year={2020}
}

Contact

Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le repository GitHub.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference API
Unable to determine this model’s pipeline type. Check the docs .

Model tree for CocoLng/CamemBERT-Gpt

Finetuned
(97)
this model

Dataset used to train CocoLng/CamemBERT-Gpt