albertmartinez
/

distilbert-multilingual-sdg-classification

@@ -1,15 +1,15 @@
 {
     "epoch": 5.0,
-    "eval_f1": 0.7954325175529264,
-    "eval_loss": 0.734076738357544,
-    "eval_runtime": 677.1647,
     "eval_samples": 8605,
-    "eval_samples_per_second": 12.707,
-    "eval_steps_per_second": 0.397,
     "total_flos": 2.28033311981568e+16,
-    "train_loss": 0.7531972722049982,
-    "train_runtime": 49725.5381,
     "train_samples": 34420,
-    "train_samples_per_second": 3.461,
-    "train_steps_per_second": 0.108
 }

 {
     "epoch": 5.0,
+    "eval_f1": 0.7705941970545616,
+    "eval_loss": 0.8075858354568481,
+    "eval_runtime": 5.8073,
     "eval_samples": 8605,
+    "eval_samples_per_second": 1481.76,
+    "eval_steps_per_second": 23.247,
     "total_flos": 2.28033311981568e+16,
+    "train_loss": 1.097573880901124,
+    "train_runtime": 397.4859,
     "train_samples": 34420,
+    "train_samples_per_second": 432.971,
+    "train_steps_per_second": 6.768
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
-    "eval_f1": 0.7954325175529264,
-    "eval_loss": 0.734076738357544,
-    "eval_runtime": 677.1647,
     "eval_samples": 8605,
-    "eval_samples_per_second": 12.707,
-    "eval_steps_per_second": 0.397
 }

 {
     "epoch": 5.0,
+    "eval_f1": 0.7705941970545616,
+    "eval_loss": 0.8075858354568481,
+    "eval_runtime": 5.8073,
     "eval_samples": 8605,
+    "eval_samples_per_second": 1481.76,
+    "eval_steps_per_second": 23.247
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 2.28033311981568e+16,
-    "train_loss": 0.7531972722049982,
-    "train_runtime": 49725.5381,
     "train_samples": 34420,
-    "train_samples_per_second": 3.461,
-    "train_steps_per_second": 0.108
 }

 {
     "epoch": 5.0,
     "total_flos": 2.28033311981568e+16,
+    "train_loss": 1.097573880901124,
+    "train_runtime": 397.4859,
     "train_samples": 34420,
+    "train_samples_per_second": 432.971,
+    "train_steps_per_second": 6.768
 }

trainer_state.json CHANGED Viewed

@@ -1,105 +1,105 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
   "epoch": 5.0,
-  "eval_steps": 500.0,
-  "global_step": 5380,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.0,
-      "grad_norm": 10.252312660217285,
-      "learning_rate": 1.8008368200836822e-05,
-      "loss": 1.484,
-      "step": 1076
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.7462822532277763,
-      "eval_loss": 0.8799635171890259,
-      "eval_runtime": 683.415,
-      "eval_samples_per_second": 12.591,
-      "eval_steps_per_second": 0.394,
-      "step": 1076
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 11.723691940307617,
-      "learning_rate": 1.3506276150627616e-05,
-      "loss": 0.7957,
-      "step": 2152
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.773518075222442,
-      "eval_loss": 0.7795748710632324,
-      "eval_runtime": 678.1252,
-      "eval_samples_per_second": 12.689,
-      "eval_steps_per_second": 0.397,
-      "step": 2152
     },
     {
-      "epoch": 3.0,
-      "grad_norm": 9.515564918518066,
-      "learning_rate": 9.004184100418411e-06,
-      "loss": 0.612,
-      "step": 3228
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.790370571641359,
-      "eval_loss": 0.7352398037910461,
-      "eval_runtime": 672.8155,
-      "eval_samples_per_second": 12.79,
-      "eval_steps_per_second": 0.4,
-      "step": 3228
     },
     {
-      "epoch": 4.0,
-      "grad_norm": 22.87370491027832,
-      "learning_rate": 4.5020920502092055e-06,
-      "loss": 0.4784,
-      "step": 4304
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.7948184348707309,
-      "eval_loss": 0.7243198156356812,
-      "eval_runtime": 678.247,
-      "eval_samples_per_second": 12.687,
-      "eval_steps_per_second": 0.397,
-      "step": 4304
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 5.2252960205078125,
-      "learning_rate": 0.0,
-      "loss": 0.3959,
-      "step": 5380
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.7954325175529264,
-      "eval_loss": 0.734076738357544,
-      "eval_runtime": 676.4727,
-      "eval_samples_per_second": 12.72,
-      "eval_steps_per_second": 0.398,
-      "step": 5380
     },
     {
       "epoch": 5.0,
-      "step": 5380,
       "total_flos": 2.28033311981568e+16,
-      "train_loss": 0.7531972722049982,
-      "train_runtime": 49725.5381,
-      "train_samples_per_second": 3.461,
-      "train_steps_per_second": 0.108
     }
   ],
   "logging_steps": 500,
-  "max_steps": 5380,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -116,7 +116,7 @@
     }
   },
   "total_flos": 2.28033311981568e+16,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8075858354568481,
+  "best_model_checkpoint": "./distilbert-multilingual-sdg-classification/checkpoint-2690",
   "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 2690,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.929368029739777,
+      "grad_norm": 5.209447383880615,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 2.1669,
+      "step": 500
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.6552228504413294,
+      "eval_loss": 1.2065790891647339,
+      "eval_runtime": 5.8951,
+      "eval_samples_per_second": 1459.691,
+      "eval_steps_per_second": 22.9,
+      "step": 538
     },
     {
+      "epoch": 1.858736059479554,
+      "grad_norm": 4.618020534515381,
+      "learning_rate": 8.090909090909092e-06,
+      "loss": 1.0784,
+      "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.7414291761169469,
+      "eval_loss": 0.9131004214286804,
+      "eval_runtime": 5.864,
+      "eval_samples_per_second": 1467.42,
+      "eval_steps_per_second": 23.022,
+      "step": 1076
     },
     {
+      "epoch": 2.7881040892193307,
+      "grad_norm": 6.927801609039307,
+      "learning_rate": 5.698564593301436e-06,
+      "loss": 0.8756,
+      "step": 1500
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.7613752074026013,
+      "eval_loss": 0.840763509273529,
+      "eval_runtime": 5.8902,
+      "eval_samples_per_second": 1460.895,
+      "eval_steps_per_second": 22.919,
+      "step": 1614
     },
     {
+      "epoch": 3.717472118959108,
+      "grad_norm": 7.057933330535889,
+      "learning_rate": 3.30622009569378e-06,
+      "loss": 0.7817,
+      "step": 2000
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.7688440327429015,
+      "eval_loss": 0.8136261105537415,
+      "eval_runtime": 5.8715,
+      "eval_samples_per_second": 1465.551,
+      "eval_steps_per_second": 22.992,
+      "step": 2152
     },
     {
+      "epoch": 4.646840148698884,
+      "grad_norm": 5.335556507110596,
+      "learning_rate": 9.138755980861245e-07,
+      "loss": 0.7337,
+      "step": 2500
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.7705941970545616,
+      "eval_loss": 0.8075858354568481,
+      "eval_runtime": 5.8756,
+      "eval_samples_per_second": 1464.538,
+      "eval_steps_per_second": 22.976,
+      "step": 2690
     },
     {
       "epoch": 5.0,
+      "step": 2690,
       "total_flos": 2.28033311981568e+16,
+      "train_loss": 1.097573880901124,
+      "train_runtime": 397.4859,
+      "train_samples_per_second": 432.971,
+      "train_steps_per_second": 6.768
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2690,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
     }
   },
   "total_flos": 2.28033311981568e+16,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null
 }