CamemBERT-Gpt POIDS UNIQUEMENT
Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.
Modèle de référence
Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : camembert-base
Structure du Projet
cam_runX/
├── checkpoints/
│ ├── checkpoint-XXX/
│ └── checkpoint-XXX/
├── weights/
└── model_info.txt
Description des Runs d'Entraînement
cam_run24
- Dataset: mOSCAR (portion française)
- Taille des données: 1 Go de texte
- Description: Version d'entraînement avec un sous-ensemble contrôlé des données
cam_run30
- Dataset: OSCAR (portion française)
- Taille des données: 100 Go de texte
- Description: Version d'entraînement complète, reproduisant les conditions de l'article original
Données d'Entraînement
Notre approche utilise exclusivement les portions françaises des datasets suivants :
mOSCAR: Version plus récente et mieux filtrée du corpus OSCAR
- mOSCAR sur Hugging Face
- Utilisé pour le run expérimental (cam_run24)
OSCAR: Common Crawl filtré pour le français
- OSCAR sur Hugging Face
- Utilisé pour la réplication fidèle (cam_run30)
- Même dataset que celui utilisé dans l'article original
Paramètres d'Entraînement
Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.
Repository GitHub associé
Le code source complet et la documentation détaillée sont disponibles sur notre repository GitHub.
Citations
@inproceedings{martin2020camembert,
title={CamemBERT: a Tasty French Language Model},
author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
year={2020}
}
Contact
Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le repository GitHub.
Model tree for CocoLng/CamemBERT-Gpt
Base model
almanach/camembert-base