fix tokenize issue

Files changed (9) hide show

.gitattributes +0 -35
README.md +0 -26
config.json +0 -44
pytorch_model.bin +0 -3
sentencepiece.bpe.model +0 -3
special_tokens_map.json +0 -19
tokenizer.json +0 -0
tokenizer_config.json +0 -24
training_args.bin +0 -3

.gitattributes DELETED Viewed

@@ -1,35 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md DELETED Viewed

@@ -1,26 +0,0 @@
----
-license: cc-by-nc-4.0
----
-# [TETIS](https://www.umr-tetis.fr) @ [Challenge TextMine 2024](https://textmine.sciencesconf.org/resource/page/id/9)
----
-## This model is a NER based on Camembert-Large for the Kaggle Competition (in French): https://www.kaggle.com/competitions/defi-textmine-2024/
-This model could be re-use with HuggingFace transormers pipeline. To use it, please refer to its [Github](https://github.com/tetis-nlp/tetis-challenge_textmine_2024)
----
-<img align="left" src="https://www.umr-tetis.fr/images/logo-header-tetis.png">
-| Participants               |
-|----------------------|
-| Rémy Decoupes        |
-| Roberto Interdonato  |
-| Rodrique Kafando     |
-| Mehtab Syed Alam     |
-| Maguelonne Teisseire |
-| Mathieu Roche        |
-| Sarah Valentin       |
----

config.json DELETED Viewed

@@ -1,44 +0,0 @@
-{
-  "_name_or_path": "camembert/camembert-large",
-  "architectures": [
-    "CamembertForTokenClassification"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
-  "classifier_dropout": null,
-  "eos_token_id": 2,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 1024,
-  "id2label": {
-    "0": "aucun",
-    "1": "geogFeat",
-    "2": "geogFeat geogName",
-    "3": "geogName",
-    "4": "name",
-    "5": "name geogName"
-  },
-  "initializer_range": 0.02,
-  "intermediate_size": 4096,
-  "label2id": {
-    "aucun": 0,
-    "geogFeat": 1,
-    "geogFeat geogName": 2,
-    "geogName": 3,
-    "name": 4,
-    "name geogName": 5
-  },
-  "layer_norm_eps": 1e-05,
-  "max_position_embeddings": 514,
-  "model_type": "camembert",
-  "num_attention_heads": 16,
-  "num_hidden_layers": 24,
-  "output_past": true,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.20.1",
-  "type_vocab_size": 1,
-  "use_cache": true,
-  "vocab_size": 32005
-}

pytorch_model.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f277133ad9f1bdea34f94320dd9295bfd8885c5424aa2e05dc039c50ad8a8bbf
-size 60555264

sentencepiece.bpe.model DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:f98f266fdc548c94216aaadc13ffaaafacf0c8793303e2195322d954549ea261
-size 808767

special_tokens_map.json DELETED Viewed

@@ -1,19 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED"
-  ],
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "mask_token": {
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "unk_token": "<unk>"
-}

tokenizer.json DELETED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json DELETED Viewed

@@ -1,24 +0,0 @@
-{
-  "additional_special_tokens": [
-    "<s>NOTUSED",
-    "</s>NOTUSED"
-  ],
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
-  "mask_token": {
-    "__type": "AddedToken",
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
-  "name_or_path": "camembert/camembert-large",
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "sp_model_kwargs": {},
-  "special_tokens_map_file": null,
-  "tokenizer_class": "CamembertTokenizer",
-  "unk_token": "<unk>"
-}

training_args.bin DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:03cc59526da8166036f5dd656c548647fedc1d2cf71889d9698b66d9c8e62f11
-size 3375