End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 license: apache-2.0
-base_model: eugenesiow/bart-paraphrase
 tags:
 - generated_from_trainer
 model-index:
@@ -13,9 +13,9 @@ should probably proofread and complete it, then remove this comment. -->
 # results
-This model is a fine-tuned version of [eugenesiow/bart-paraphrase](https://huggingface.co/eugenesiow/bart-paraphrase) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.3697
 ## Model description
@@ -35,30 +35,28 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 2
-- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 500
-- num_epochs: 5
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 5.3656        | 0.99  | 93   | 5.0322          |
-| 4.52          | 2.0   | 187  | 3.9055          |
-| 3.7139        | 2.99  | 280  | 3.1498          |
-| 3.348         | 4.0   | 374  | 2.6742          |
-| 2.9365        | 4.97  | 465  | 2.3143          |
 ### Framework versions
-- Transformers 4.39.3
-- Pytorch 2.1.2
-- Datasets 2.18.0
-- Tokenizers 0.15.2

 ---
 license: apache-2.0
+base_model: facebook/bart-base
 tags:
 - generated_from_trainer
 model-index:
 # results
+This model is a fine-tuned version of [facebook/bart-base](https://huggingface.co/facebook/bart-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.4561
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 4
+- eval_batch_size: 4
 - seed: 42
 - gradient_accumulation_steps: 2
+- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_steps: 500
+- num_epochs: 3
 ### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 3.0606        | 0.9993 | 747  | 2.3514          |
+| 1.9003        | 2.0    | 1495 | 1.7026          |
+| 1.8536        | 2.9980 | 2241 | 1.4560          |
 ### Framework versions
+- Transformers 4.40.0
+- Pytorch 2.2.1+cu121
+- Datasets 2.19.0
+- Tokenizers 0.19.1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "eugenesiow/bart-paraphrase",
   "activation_dropout": 0.1,
   "activation_function": "gelu",
   "add_bias_logits": false,
@@ -11,19 +11,20 @@
   "bos_token_id": 0,
   "classif_dropout": 0.1,
   "classifier_dropout": 0.0,
-  "d_model": 1024,
-  "decoder_attention_heads": 16,
-  "decoder_ffn_dim": 4096,
   "decoder_layerdrop": 0.0,
-  "decoder_layers": 12,
   "decoder_start_token_id": 2,
   "dropout": 0.1,
   "early_stopping": true,
-  "encoder_attention_heads": 16,
-  "encoder_ffn_dim": 4096,
   "encoder_layerdrop": 0.0,
-  "encoder_layers": 12,
   "eos_token_id": 2,
   "forced_eos_token_id": 2,
   "gradient_checkpointing": false,
   "id2label": {
@@ -42,8 +43,9 @@
   "model_type": "bart",
   "no_repeat_ngram_size": 3,
   "normalize_before": false,
   "num_beams": 4,
-  "num_hidden_layers": 12,
   "pad_token_id": 1,
   "scale_embedding": false,
   "task_specific_params": {
@@ -67,7 +69,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.39.3",
   "use_cache": true,
   "vocab_size": 50265
 }

 {
+  "_name_or_path": "facebook/bart-base",
   "activation_dropout": 0.1,
   "activation_function": "gelu",
   "add_bias_logits": false,
   "bos_token_id": 0,
   "classif_dropout": 0.1,
   "classifier_dropout": 0.0,
+  "d_model": 768,
+  "decoder_attention_heads": 12,
+  "decoder_ffn_dim": 3072,
   "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
   "decoder_start_token_id": 2,
   "dropout": 0.1,
   "early_stopping": true,
+  "encoder_attention_heads": 12,
+  "encoder_ffn_dim": 3072,
   "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
   "eos_token_id": 2,
+  "forced_bos_token_id": 0,
   "forced_eos_token_id": 2,
   "gradient_checkpointing": false,
   "id2label": {
   "model_type": "bart",
   "no_repeat_ngram_size": 3,
   "normalize_before": false,
+  "normalize_embedding": true,
   "num_beams": 4,
+  "num_hidden_layers": 6,
   "pad_token_id": 1,
   "scale_embedding": false,
   "task_specific_params": {
     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
   "use_cache": true,
   "vocab_size": 50265
 }

generation_config.json CHANGED Viewed

@@ -4,9 +4,10 @@
   "decoder_start_token_id": 2,
   "early_stopping": true,
   "eos_token_id": 2,
   "forced_eos_token_id": 2,
   "no_repeat_ngram_size": 3,
   "num_beams": 4,
   "pad_token_id": 1,
-  "transformers_version": "4.39.3"
 }

   "decoder_start_token_id": 2,
   "early_stopping": true,
   "eos_token_id": 2,
+  "forced_bos_token_id": 0,
   "forced_eos_token_id": 2,
   "no_repeat_ngram_size": 3,
   "num_beams": 4,
   "pad_token_id": 1,
+  "transformers_version": "4.40.0"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71d3660612eac61fd3c9439d13e76fc37ccc17e1bf45f76f3aa92bb328adeee3
-size 1625426996

 version https://git-lfs.github.com/spec/v1
+oid sha256:f9b006a61296ba7cd9faa3d86dc5775434f2d73b3b81c066453a01e3663cf0cd
+size 557912620

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49e927aec88c6d0faa58a11c25fc33dc62ce340cf5a82384c7f699b486b6775a
-size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:307b444e6a871e948d060ad36b9c95aa71d7381cf25ce3ecff63bddc389e24f4
+size 4920