sharkMeow
/

clip-roberta-finetuned

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
@@ -11,7 +13,7 @@ should probably proofread and complete it, then remove this comment. -->
 # clip-roberta-finetuned
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 7.7902

 ---
+license: gpl-3.0
+base_model: ckiplab/bert-base-chinese
 tags:
 - generated_from_trainer
 model-index:
 # clip-roberta-finetuned
+This model is a fine-tuned version of [ckiplab/bert-base-chinese](https://huggingface.co/ckiplab/bert-base-chinese) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 7.7902

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 100.0,
-    "eval_loss": 7.596293926239014,
-    "eval_runtime": 2.0803,
-    "eval_samples_per_second": 344.176,
-    "eval_steps_per_second": 2.884,
-    "total_flos": 1.6588112479488e+16,
-    "train_loss": 0.5603914216160775,
-    "train_runtime": 845.3181,
-    "train_samples_per_second": 148.347,
-    "train_steps_per_second": 1.893
 }

 {
+    "epoch": 150.0,
+    "eval_loss": 7.790220260620117,
+    "eval_runtime": 2.0586,
+    "eval_samples_per_second": 347.804,
+    "eval_steps_per_second": 2.429,
+    "total_flos": 2.4882168719232e+16,
+    "train_loss": 0.27142260054747264,
+    "train_runtime": 1293.2486,
+    "train_samples_per_second": 145.448,
+    "train_steps_per_second": 1.856
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 100.0,
-    "eval_loss": 7.596293926239014,
-    "eval_runtime": 2.0803,
-    "eval_samples_per_second": 344.176,
-    "eval_steps_per_second": 2.884
 }

 {
+    "epoch": 150.0,
+    "eval_loss": 7.790220260620117,
+    "eval_runtime": 2.0586,
+    "eval_samples_per_second": 347.804,
+    "eval_steps_per_second": 2.429
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 100.0,
-    "total_flos": 1.6588112479488e+16,
-    "train_loss": 0.5603914216160775,
-    "train_runtime": 845.3181,
-    "train_samples_per_second": 148.347,
-    "train_steps_per_second": 1.893
 }

 {
+    "epoch": 150.0,
+    "total_flos": 2.4882168719232e+16,
+    "train_loss": 0.27142260054747264,
+    "train_runtime": 1293.2486,
+    "train_samples_per_second": 145.448,
+    "train_steps_per_second": 1.856
 }

trainer_state.json CHANGED Viewed

@@ -1,48 +1,177 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 100.0,
-  "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 31.25,
-      "grad_norm": 4.7310919761657715,
-      "learning_rate": 3.4375e-05,
-      "loss": 1.633,
-      "step": 500
     },
     {
-      "epoch": 62.5,
-      "grad_norm": 1.100446105003357,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.1162,
-      "step": 1000
     },
     {
-      "epoch": 93.75,
-      "grad_norm": 0.6620476841926575,
-      "learning_rate": 3.125e-06,
-      "loss": 0.0385,
-      "step": 1500
     },
     {
-      "epoch": 100.0,
-      "step": 1600,
-      "total_flos": 1.6588112479488e+16,
-      "train_loss": 0.5603914216160775,
-      "train_runtime": 845.3181,
-      "train_samples_per_second": 148.347,
-      "train_steps_per_second": 1.893
     }
   ],
-  "logging_steps": 500,
-  "max_steps": 1600,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 100,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -56,7 +185,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6588112479488e+16,
   "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 150.0,
+  "eval_steps": 240,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 15.0,
+      "grad_norm": 8.367707252502441,
+      "learning_rate": 4.5e-05,
+      "loss": 2.2125,
+      "step": 240
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 7.397521495819092,
+      "eval_runtime": 2.1385,
+      "eval_samples_per_second": 334.807,
+      "eval_steps_per_second": 2.338,
+      "step": 240
     },
     {
+      "epoch": 30.0,
+      "grad_norm": 1.8289117813110352,
+      "learning_rate": 4e-05,
+      "loss": 0.2662,
+      "step": 480
     },
     {
+      "epoch": 30.0,
+      "eval_loss": 7.690220355987549,
+      "eval_runtime": 2.1441,
+      "eval_samples_per_second": 333.943,
+      "eval_steps_per_second": 2.332,
+      "step": 480
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 2.331444501876831,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0878,
+      "step": 720
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 7.727816581726074,
+      "eval_runtime": 2.0769,
+      "eval_samples_per_second": 344.747,
+      "eval_steps_per_second": 2.407,
+      "step": 720
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.5191037058830261,
+      "learning_rate": 3e-05,
+      "loss": 0.0478,
+      "step": 960
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 7.767454147338867,
+      "eval_runtime": 2.1215,
+      "eval_samples_per_second": 337.5,
+      "eval_steps_per_second": 2.357,
+      "step": 960
+    },
+    {
+      "epoch": 75.0,
+      "grad_norm": 0.29538920521736145,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0271,
+      "step": 1200
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 7.800107479095459,
+      "eval_runtime": 2.0372,
+      "eval_samples_per_second": 351.464,
+      "eval_steps_per_second": 2.454,
+      "step": 1200
+    },
+    {
+      "epoch": 90.0,
+      "grad_norm": 0.24271079897880554,
+      "learning_rate": 2e-05,
+      "loss": 0.0204,
+      "step": 1440
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 7.77035665512085,
+      "eval_runtime": 2.04,
+      "eval_samples_per_second": 350.977,
+      "eval_steps_per_second": 2.451,
+      "step": 1440
+    },
+    {
+      "epoch": 105.0,
+      "grad_norm": 0.1700560748577118,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0153,
+      "step": 1680
+    },
+    {
+      "epoch": 105.0,
+      "eval_loss": 7.756166934967041,
+      "eval_runtime": 2.0413,
+      "eval_samples_per_second": 350.761,
+      "eval_steps_per_second": 2.449,
+      "step": 1680
+    },
+    {
+      "epoch": 120.0,
+      "grad_norm": 0.10675892233848572,
+      "learning_rate": 1e-05,
+      "loss": 0.0144,
+      "step": 1920
+    },
+    {
+      "epoch": 120.0,
+      "eval_loss": 7.7686991691589355,
+      "eval_runtime": 2.038,
+      "eval_samples_per_second": 351.324,
+      "eval_steps_per_second": 2.453,
+      "step": 1920
+    },
+    {
+      "epoch": 135.0,
+      "grad_norm": 0.15030677616596222,
+      "learning_rate": 5e-06,
+      "loss": 0.0118,
+      "step": 2160
+    },
+    {
+      "epoch": 135.0,
+      "eval_loss": 7.785387992858887,
+      "eval_runtime": 2.0545,
+      "eval_samples_per_second": 348.496,
+      "eval_steps_per_second": 2.434,
+      "step": 2160
+    },
+    {
+      "epoch": 150.0,
+      "grad_norm": 0.15037034451961517,
+      "learning_rate": 0.0,
+      "loss": 0.0109,
+      "step": 2400
+    },
+    {
+      "epoch": 150.0,
+      "eval_loss": 7.790220260620117,
+      "eval_runtime": 2.0423,
+      "eval_samples_per_second": 350.583,
+      "eval_steps_per_second": 2.448,
+      "step": 2400
+    },
+    {
+      "epoch": 150.0,
+      "step": 2400,
+      "total_flos": 2.4882168719232e+16,
+      "train_loss": 0.27142260054747264,
+      "train_runtime": 1293.2486,
+      "train_samples_per_second": 145.448,
+      "train_steps_per_second": 1.856
     }
   ],
+  "logging_steps": 240,
+  "max_steps": 2400,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 150,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.4882168719232e+16,
   "train_batch_size": 80,
   "trial_name": null,
   "trial_params": null