End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +8 -0
runs/Nov21_15-53-48_ml-server03/events.out.tfevents.1732216942.ml-server03.3837327.1 +3 -0
test_results.json +8 -0
trainer_state.json +1245 -0
val_results.json +8 -0

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6876
-- Accuracy: 0.8013
 ## Model description

 This model is a fine-tuned version of [MCG-NJU/videomae-base](https://huggingface.co/MCG-NJU/videomae-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2571
+- Accuracy: 0.91
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.066666666666666,
+    "eval_accuracy": 0.91,
+    "eval_loss": 0.25712350010871887,
+    "eval_runtime": 12.7854,
+    "eval_samples_per_second": 7.821,
+    "eval_steps_per_second": 0.547
+}

runs/Nov21_15-53-48_ml-server03/events.out.tfevents.1732216942.ml-server03.3837327.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a138228203a85afb395e3d5cdc5adb2481ac3f966a40f339ae7f314063480135
+size 686

test_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.066666666666666,
+    "eval_accuracy": 0.91,
+    "eval_loss": 0.25712350010871887,
+    "eval_runtime": 12.7854,
+    "eval_samples_per_second": 7.821,
+    "eval_steps_per_second": 0.547
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1245 @@

+{
+  "best_metric": 0.84125,
+  "best_model_checkpoint": "videomae-base-finetuned-rwf2000-subset___v4/checkpoint-1000",
+  "epoch": 14.066666666666666,
+  "eval_steps": 500,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.006666666666666667,
+      "grad_norm": 8.328149795532227,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.695,
+      "step": 10
+    },
+    {
+      "epoch": 0.013333333333333334,
+      "grad_norm": 5.740134239196777,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.6907,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 4.610198497772217,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.6845,
+      "step": 30
+    },
+    {
+      "epoch": 0.02666666666666667,
+      "grad_norm": 4.437814712524414,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.6948,
+      "step": 40
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 3.1135125160217285,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.6414,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 7.460755825042725,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.6064,
+      "step": 60
+    },
+    {
+      "epoch": 0.04666666666666667,
+      "grad_norm": 5.140443325042725,
+      "learning_rate": 2.566666666666667e-05,
+      "loss": 0.5131,
+      "step": 70
+    },
+    {
+      "epoch": 0.05333333333333334,
+      "grad_norm": 10.881732940673828,
+      "learning_rate": 2.9333333333333333e-05,
+      "loss": 0.5458,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.342350482940674,
+      "learning_rate": 3.3e-05,
+      "loss": 0.57,
+      "step": 90
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 2.5044784545898438,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.5186,
+      "step": 100
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "eval_accuracy": 0.7525,
+      "eval_loss": 0.4851800501346588,
+      "eval_runtime": 223.2988,
+      "eval_samples_per_second": 3.583,
+      "eval_steps_per_second": 0.224,
+      "step": 100
+    },
+    {
+      "epoch": 1.0066666666666666,
+      "grad_norm": 4.141444206237793,
+      "learning_rate": 4.033333333333333e-05,
+      "loss": 0.4803,
+      "step": 110
+    },
+    {
+      "epoch": 1.0133333333333334,
+      "grad_norm": 5.0447187423706055,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.4893,
+      "step": 120
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 7.045541763305664,
+      "learning_rate": 4.766666666666667e-05,
+      "loss": 0.4751,
+      "step": 130
+    },
+    {
+      "epoch": 1.0266666666666666,
+      "grad_norm": 4.533585548400879,
+      "learning_rate": 5.133333333333334e-05,
+      "loss": 0.4779,
+      "step": 140
+    },
+    {
+      "epoch": 1.0333333333333334,
+      "grad_norm": 3.6885664463043213,
+      "learning_rate": 5.5e-05,
+      "loss": 0.5121,
+      "step": 150
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 2.0928220748901367,
+      "learning_rate": 5.459259259259259e-05,
+      "loss": 0.5408,
+      "step": 160
+    },
+    {
+      "epoch": 1.0466666666666666,
+      "grad_norm": 4.486322402954102,
+      "learning_rate": 5.4185185185185183e-05,
+      "loss": 0.4645,
+      "step": 170
+    },
+    {
+      "epoch": 1.0533333333333332,
+      "grad_norm": 4.797130107879639,
+      "learning_rate": 5.377777777777778e-05,
+      "loss": 0.4076,
+      "step": 180
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 3.3620481491088867,
+      "learning_rate": 5.337037037037037e-05,
+      "loss": 0.469,
+      "step": 190
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 4.450358867645264,
+      "learning_rate": 5.296296296296296e-05,
+      "loss": 0.4113,
+      "step": 200
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_accuracy": 0.65125,
+      "eval_loss": 0.8493121266365051,
+      "eval_runtime": 250.367,
+      "eval_samples_per_second": 3.195,
+      "eval_steps_per_second": 0.2,
+      "step": 200
+    },
+    {
+      "epoch": 2.006666666666667,
+      "grad_norm": 3.1153275966644287,
+      "learning_rate": 5.255555555555556e-05,
+      "loss": 0.4534,
+      "step": 210
+    },
+    {
+      "epoch": 2.013333333333333,
+      "grad_norm": 2.8819432258605957,
+      "learning_rate": 5.214814814814815e-05,
+      "loss": 0.4632,
+      "step": 220
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 3.064946413040161,
+      "learning_rate": 5.174074074074074e-05,
+      "loss": 0.4955,
+      "step": 230
+    },
+    {
+      "epoch": 2.026666666666667,
+      "grad_norm": 4.488388538360596,
+      "learning_rate": 5.133333333333334e-05,
+      "loss": 0.4132,
+      "step": 240
+    },
+    {
+      "epoch": 2.033333333333333,
+      "grad_norm": 7.146153450012207,
+      "learning_rate": 5.092592592592593e-05,
+      "loss": 0.4525,
+      "step": 250
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 4.553574085235596,
+      "learning_rate": 5.051851851851852e-05,
+      "loss": 0.4512,
+      "step": 260
+    },
+    {
+      "epoch": 2.046666666666667,
+      "grad_norm": 5.547330856323242,
+      "learning_rate": 5.011111111111111e-05,
+      "loss": 0.2815,
+      "step": 270
+    },
+    {
+      "epoch": 2.0533333333333332,
+      "grad_norm": 4.419320106506348,
+      "learning_rate": 4.97037037037037e-05,
+      "loss": 0.4095,
+      "step": 280
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 5.118694305419922,
+      "learning_rate": 4.92962962962963e-05,
+      "loss": 0.3805,
+      "step": 290
+    },
+    {
+      "epoch": 2.066666666666667,
+      "grad_norm": 3.3173861503601074,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 0.3743,
+      "step": 300
+    },
+    {
+      "epoch": 2.066666666666667,
+      "eval_accuracy": 0.6675,
+      "eval_loss": 0.8014451861381531,
+      "eval_runtime": 234.1642,
+      "eval_samples_per_second": 3.416,
+      "eval_steps_per_second": 0.214,
+      "step": 300
+    },
+    {
+      "epoch": 3.006666666666667,
+      "grad_norm": 3.8475706577301025,
+      "learning_rate": 4.848148148148149e-05,
+      "loss": 0.4112,
+      "step": 310
+    },
+    {
+      "epoch": 3.013333333333333,
+      "grad_norm": 2.5916388034820557,
+      "learning_rate": 4.807407407407408e-05,
+      "loss": 0.2782,
+      "step": 320
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 7.832239151000977,
+      "learning_rate": 4.766666666666667e-05,
+      "loss": 0.3443,
+      "step": 330
+    },
+    {
+      "epoch": 3.026666666666667,
+      "grad_norm": 3.6422343254089355,
+      "learning_rate": 4.725925925925926e-05,
+      "loss": 0.2805,
+      "step": 340
+    },
+    {
+      "epoch": 3.033333333333333,
+      "grad_norm": 9.492205619812012,
+      "learning_rate": 4.685185185185186e-05,
+      "loss": 0.3094,
+      "step": 350
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 9.283190727233887,
+      "learning_rate": 4.644444444444445e-05,
+      "loss": 0.4828,
+      "step": 360
+    },
+    {
+      "epoch": 3.046666666666667,
+      "grad_norm": 8.37354564666748,
+      "learning_rate": 4.603703703703704e-05,
+      "loss": 0.4234,
+      "step": 370
+    },
+    {
+      "epoch": 3.0533333333333332,
+      "grad_norm": 4.890401363372803,
+      "learning_rate": 4.562962962962963e-05,
+      "loss": 0.4885,
+      "step": 380
+    },
+    {
+      "epoch": 3.06,
+      "grad_norm": 2.5262463092803955,
+      "learning_rate": 4.522222222222222e-05,
+      "loss": 0.3408,
+      "step": 390
+    },
+    {
+      "epoch": 3.066666666666667,
+      "grad_norm": 8.183036804199219,
+      "learning_rate": 4.481481481481481e-05,
+      "loss": 0.2878,
+      "step": 400
+    },
+    {
+      "epoch": 3.066666666666667,
+      "eval_accuracy": 0.83,
+      "eval_loss": 0.43319201469421387,
+      "eval_runtime": 267.326,
+      "eval_samples_per_second": 2.993,
+      "eval_steps_per_second": 0.187,
+      "step": 400
+    },
+    {
+      "epoch": 4.006666666666667,
+      "grad_norm": 6.406513690948486,
+      "learning_rate": 4.4407407407407415e-05,
+      "loss": 0.3495,
+      "step": 410
+    },
+    {
+      "epoch": 4.013333333333334,
+      "grad_norm": 3.1861748695373535,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.3201,
+      "step": 420
+    },
+    {
+      "epoch": 4.02,
+      "grad_norm": 7.177009105682373,
+      "learning_rate": 4.3592592592592596e-05,
+      "loss": 0.301,
+      "step": 430
+    },
+    {
+      "epoch": 4.026666666666666,
+      "grad_norm": 4.747456073760986,
+      "learning_rate": 4.318518518518519e-05,
+      "loss": 0.2717,
+      "step": 440
+    },
+    {
+      "epoch": 4.033333333333333,
+      "grad_norm": 4.7027153968811035,
+      "learning_rate": 4.277777777777778e-05,
+      "loss": 0.3415,
+      "step": 450
+    },
+    {
+      "epoch": 4.04,
+      "grad_norm": 5.164983749389648,
+      "learning_rate": 4.2370370370370375e-05,
+      "loss": 0.2851,
+      "step": 460
+    },
+    {
+      "epoch": 4.046666666666667,
+      "grad_norm": 2.968109130859375,
+      "learning_rate": 4.1962962962962966e-05,
+      "loss": 0.3326,
+      "step": 470
+    },
+    {
+      "epoch": 4.053333333333334,
+      "grad_norm": 8.701462745666504,
+      "learning_rate": 4.155555555555556e-05,
+      "loss": 0.2766,
+      "step": 480
+    },
+    {
+      "epoch": 4.06,
+      "grad_norm": 3.4168941974639893,
+      "learning_rate": 4.114814814814815e-05,
+      "loss": 0.3127,
+      "step": 490
+    },
+    {
+      "epoch": 4.066666666666666,
+      "grad_norm": 1.8398022651672363,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.2419,
+      "step": 500
+    },
+    {
+      "epoch": 4.066666666666666,
+      "eval_accuracy": 0.8225,
+      "eval_loss": 0.465037077665329,
+      "eval_runtime": 232.5563,
+      "eval_samples_per_second": 3.44,
+      "eval_steps_per_second": 0.215,
+      "step": 500
+    },
+    {
+      "epoch": 5.006666666666667,
+      "grad_norm": 6.101627826690674,
+      "learning_rate": 4.033333333333333e-05,
+      "loss": 0.3414,
+      "step": 510
+    },
+    {
+      "epoch": 5.013333333333334,
+      "grad_norm": 9.294967651367188,
+      "learning_rate": 3.992592592592593e-05,
+      "loss": 0.2626,
+      "step": 520
+    },
+    {
+      "epoch": 5.02,
+      "grad_norm": 5.343302249908447,
+      "learning_rate": 3.9518518518518524e-05,
+      "loss": 0.2096,
+      "step": 530
+    },
+    {
+      "epoch": 5.026666666666666,
+      "grad_norm": 6.36867618560791,
+      "learning_rate": 3.9111111111111115e-05,
+      "loss": 0.3681,
+      "step": 540
+    },
+    {
+      "epoch": 5.033333333333333,
+      "grad_norm": 5.6694793701171875,
+      "learning_rate": 3.8703703703703705e-05,
+      "loss": 0.2332,
+      "step": 550
+    },
+    {
+      "epoch": 5.04,
+      "grad_norm": 8.940311431884766,
+      "learning_rate": 3.8296296296296296e-05,
+      "loss": 0.3215,
+      "step": 560
+    },
+    {
+      "epoch": 5.046666666666667,
+      "grad_norm": 3.3897879123687744,
+      "learning_rate": 3.788888888888889e-05,
+      "loss": 0.4299,
+      "step": 570
+    },
+    {
+      "epoch": 5.053333333333334,
+      "grad_norm": 3.1964845657348633,
+      "learning_rate": 3.7481481481481484e-05,
+      "loss": 0.3154,
+      "step": 580
+    },
+    {
+      "epoch": 5.06,
+      "grad_norm": 4.030667304992676,
+      "learning_rate": 3.7074074074074075e-05,
+      "loss": 0.3034,
+      "step": 590
+    },
+    {
+      "epoch": 5.066666666666666,
+      "grad_norm": 6.7601847648620605,
+      "learning_rate": 3.6666666666666666e-05,
+      "loss": 0.2565,
+      "step": 600
+    },
+    {
+      "epoch": 5.066666666666666,
+      "eval_accuracy": 0.76375,
+      "eval_loss": 0.6122691631317139,
+      "eval_runtime": 231.079,
+      "eval_samples_per_second": 3.462,
+      "eval_steps_per_second": 0.216,
+      "step": 600
+    },
+    {
+      "epoch": 6.006666666666667,
+      "grad_norm": 4.899349212646484,
+      "learning_rate": 3.6259259259259256e-05,
+      "loss": 0.2605,
+      "step": 610
+    },
+    {
+      "epoch": 6.013333333333334,
+      "grad_norm": 8.427006721496582,
+      "learning_rate": 3.5851851851851854e-05,
+      "loss": 0.3495,
+      "step": 620
+    },
+    {
+      "epoch": 6.02,
+      "grad_norm": 3.287485122680664,
+      "learning_rate": 3.5444444444444445e-05,
+      "loss": 0.2187,
+      "step": 630
+    },
+    {
+      "epoch": 6.026666666666666,
+      "grad_norm": 1.8159798383712769,
+      "learning_rate": 3.503703703703704e-05,
+      "loss": 0.224,
+      "step": 640
+    },
+    {
+      "epoch": 6.033333333333333,
+      "grad_norm": 3.8544743061065674,
+      "learning_rate": 3.462962962962963e-05,
+      "loss": 0.3493,
+      "step": 650
+    },
+    {
+      "epoch": 6.04,
+      "grad_norm": 4.581654071807861,
+      "learning_rate": 3.4222222222222224e-05,
+      "loss": 0.2881,
+      "step": 660
+    },
+    {
+      "epoch": 6.046666666666667,
+      "grad_norm": 4.788325786590576,
+      "learning_rate": 3.3814814814814814e-05,
+      "loss": 0.2162,
+      "step": 670
+    },
+    {
+      "epoch": 6.053333333333334,
+      "grad_norm": 6.063342571258545,
+      "learning_rate": 3.3407407407407405e-05,
+      "loss": 0.2507,
+      "step": 680
+    },
+    {
+      "epoch": 6.06,
+      "grad_norm": 8.78098201751709,
+      "learning_rate": 3.3e-05,
+      "loss": 0.2895,
+      "step": 690
+    },
+    {
+      "epoch": 6.066666666666666,
+      "grad_norm": 5.059321880340576,
+      "learning_rate": 3.259259259259259e-05,
+      "loss": 0.3317,
+      "step": 700
+    },
+    {
+      "epoch": 6.066666666666666,
+      "eval_accuracy": 0.7725,
+      "eval_loss": 0.5332136750221252,
+      "eval_runtime": 231.2401,
+      "eval_samples_per_second": 3.46,
+      "eval_steps_per_second": 0.216,
+      "step": 700
+    },
+    {
+      "epoch": 7.006666666666667,
+      "grad_norm": 1.4157503843307495,
+      "learning_rate": 3.2185185185185184e-05,
+      "loss": 0.196,
+      "step": 710
+    },
+    {
+      "epoch": 7.013333333333334,
+      "grad_norm": 6.786440372467041,
+      "learning_rate": 3.1777777777777775e-05,
+      "loss": 0.2058,
+      "step": 720
+    },
+    {
+      "epoch": 7.02,
+      "grad_norm": 6.081082820892334,
+      "learning_rate": 3.137037037037037e-05,
+      "loss": 0.2339,
+      "step": 730
+    },
+    {
+      "epoch": 7.026666666666666,
+      "grad_norm": 9.049614906311035,
+      "learning_rate": 3.096296296296296e-05,
+      "loss": 0.2703,
+      "step": 740
+    },
+    {
+      "epoch": 7.033333333333333,
+      "grad_norm": 8.116008758544922,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.2108,
+      "step": 750
+    },
+    {
+      "epoch": 7.04,
+      "grad_norm": 1.6205955743789673,
+      "learning_rate": 3.014814814814815e-05,
+      "loss": 0.1977,
+      "step": 760
+    },
+    {
+      "epoch": 7.046666666666667,
+      "grad_norm": 1.2046096324920654,
+      "learning_rate": 2.9740740740740742e-05,
+      "loss": 0.3565,
+      "step": 770
+    },
+    {
+      "epoch": 7.053333333333334,
+      "grad_norm": 3.986579656600952,
+      "learning_rate": 2.9333333333333333e-05,
+      "loss": 0.3345,
+      "step": 780
+    },
+    {
+      "epoch": 7.06,
+      "grad_norm": 3.120173931121826,
+      "learning_rate": 2.8925925925925927e-05,
+      "loss": 0.2673,
+      "step": 790
+    },
+    {
+      "epoch": 7.066666666666666,
+      "grad_norm": 5.477077007293701,
+      "learning_rate": 2.8518518518518517e-05,
+      "loss": 0.2739,
+      "step": 800
+    },
+    {
+      "epoch": 7.066666666666666,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.4159656763076782,
+      "eval_runtime": 273.1709,
+      "eval_samples_per_second": 2.929,
+      "eval_steps_per_second": 0.183,
+      "step": 800
+    },
+    {
+      "epoch": 8.006666666666666,
+      "grad_norm": 5.367541790008545,
+      "learning_rate": 2.811111111111111e-05,
+      "loss": 0.1916,
+      "step": 810
+    },
+    {
+      "epoch": 8.013333333333334,
+      "grad_norm": 7.198357582092285,
+      "learning_rate": 2.7703703703703702e-05,
+      "loss": 0.2728,
+      "step": 820
+    },
+    {
+      "epoch": 8.02,
+      "grad_norm": 4.017102241516113,
+      "learning_rate": 2.7296296296296296e-05,
+      "loss": 0.3022,
+      "step": 830
+    },
+    {
+      "epoch": 8.026666666666667,
+      "grad_norm": 4.362379550933838,
+      "learning_rate": 2.688888888888889e-05,
+      "loss": 0.2026,
+      "step": 840
+    },
+    {
+      "epoch": 8.033333333333333,
+      "grad_norm": 2.223926067352295,
+      "learning_rate": 2.648148148148148e-05,
+      "loss": 0.1539,
+      "step": 850
+    },
+    {
+      "epoch": 8.04,
+      "grad_norm": 12.67545223236084,
+      "learning_rate": 2.6074074074074075e-05,
+      "loss": 0.2454,
+      "step": 860
+    },
+    {
+      "epoch": 8.046666666666667,
+      "grad_norm": 7.626302242279053,
+      "learning_rate": 2.566666666666667e-05,
+      "loss": 0.2212,
+      "step": 870
+    },
+    {
+      "epoch": 8.053333333333333,
+      "grad_norm": 3.8482179641723633,
+      "learning_rate": 2.525925925925926e-05,
+      "loss": 0.2178,
+      "step": 880
+    },
+    {
+      "epoch": 8.06,
+      "grad_norm": 13.528992652893066,
+      "learning_rate": 2.485185185185185e-05,
+      "loss": 0.25,
+      "step": 890
+    },
+    {
+      "epoch": 8.066666666666666,
+      "grad_norm": 8.732410430908203,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.1534,
+      "step": 900
+    },
+    {
+      "epoch": 8.066666666666666,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.4775158762931824,
+      "eval_runtime": 244.6034,
+      "eval_samples_per_second": 3.271,
+      "eval_steps_per_second": 0.204,
+      "step": 900
+    },
+    {
+      "epoch": 9.006666666666666,
+      "grad_norm": 6.783283233642578,
+      "learning_rate": 2.403703703703704e-05,
+      "loss": 0.2537,
+      "step": 910
+    },
+    {
+      "epoch": 9.013333333333334,
+      "grad_norm": 2.1116433143615723,
+      "learning_rate": 2.362962962962963e-05,
+      "loss": 0.2365,
+      "step": 920
+    },
+    {
+      "epoch": 9.02,
+      "grad_norm": 4.950802326202393,
+      "learning_rate": 2.3222222222222224e-05,
+      "loss": 0.1346,
+      "step": 930
+    },
+    {
+      "epoch": 9.026666666666667,
+      "grad_norm": 4.27595329284668,
+      "learning_rate": 2.2814814814814815e-05,
+      "loss": 0.1711,
+      "step": 940
+    },
+    {
+      "epoch": 9.033333333333333,
+      "grad_norm": 9.448122024536133,
+      "learning_rate": 2.2407407407407405e-05,
+      "loss": 0.1983,
+      "step": 950
+    },
+    {
+      "epoch": 9.04,
+      "grad_norm": 12.243429183959961,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.1848,
+      "step": 960
+    },
+    {
+      "epoch": 9.046666666666667,
+      "grad_norm": 12.277355194091797,
+      "learning_rate": 2.1592592592592594e-05,
+      "loss": 0.1689,
+      "step": 970
+    },
+    {
+      "epoch": 9.053333333333333,
+      "grad_norm": 9.587787628173828,
+      "learning_rate": 2.1185185185185188e-05,
+      "loss": 0.2076,
+      "step": 980
+    },
+    {
+      "epoch": 9.06,
+      "grad_norm": 3.1150946617126465,
+      "learning_rate": 2.077777777777778e-05,
+      "loss": 0.1968,
+      "step": 990
+    },
+    {
+      "epoch": 9.066666666666666,
+      "grad_norm": 5.898919105529785,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.2573,
+      "step": 1000
+    },
+    {
+      "epoch": 9.066666666666666,
+      "eval_accuracy": 0.84125,
+      "eval_loss": 0.41971343755722046,
+      "eval_runtime": 257.4489,
+      "eval_samples_per_second": 3.107,
+      "eval_steps_per_second": 0.194,
+      "step": 1000
+    },
+    {
+      "epoch": 10.006666666666666,
+      "grad_norm": 3.6205122470855713,
+      "learning_rate": 1.9962962962962967e-05,
+      "loss": 0.1457,
+      "step": 1010
+    },
+    {
+      "epoch": 10.013333333333334,
+      "grad_norm": 3.2883219718933105,
+      "learning_rate": 1.9555555555555557e-05,
+      "loss": 0.1544,
+      "step": 1020
+    },
+    {
+      "epoch": 10.02,
+      "grad_norm": 1.2128885984420776,
+      "learning_rate": 1.9148148148148148e-05,
+      "loss": 0.1496,
+      "step": 1030
+    },
+    {
+      "epoch": 10.026666666666667,
+      "grad_norm": 12.927470207214355,
+      "learning_rate": 1.8740740740740742e-05,
+      "loss": 0.2687,
+      "step": 1040
+    },
+    {
+      "epoch": 10.033333333333333,
+      "grad_norm": 6.891391754150391,
+      "learning_rate": 1.8333333333333333e-05,
+      "loss": 0.171,
+      "step": 1050
+    },
+    {
+      "epoch": 10.04,
+      "grad_norm": 9.208685874938965,
+      "learning_rate": 1.7925925925925927e-05,
+      "loss": 0.1165,
+      "step": 1060
+    },
+    {
+      "epoch": 10.046666666666667,
+      "grad_norm": 6.006155014038086,
+      "learning_rate": 1.751851851851852e-05,
+      "loss": 0.2244,
+      "step": 1070
+    },
+    {
+      "epoch": 10.053333333333333,
+      "grad_norm": 0.5988175868988037,
+      "learning_rate": 1.7111111111111112e-05,
+      "loss": 0.2176,
+      "step": 1080
+    },
+    {
+      "epoch": 10.06,
+      "grad_norm": 5.3024725914001465,
+      "learning_rate": 1.6703703703703703e-05,
+      "loss": 0.2642,
+      "step": 1090
+    },
+    {
+      "epoch": 10.066666666666666,
+      "grad_norm": 2.5439982414245605,
+      "learning_rate": 1.6296296296296297e-05,
+      "loss": 0.16,
+      "step": 1100
+    },
+    {
+      "epoch": 10.066666666666666,
+      "eval_accuracy": 0.84125,
+      "eval_loss": 0.4305249750614166,
+      "eval_runtime": 230.2767,
+      "eval_samples_per_second": 3.474,
+      "eval_steps_per_second": 0.217,
+      "step": 1100
+    },
+    {
+      "epoch": 11.006666666666666,
+      "grad_norm": 3.761998176574707,
+      "learning_rate": 1.5888888888888887e-05,
+      "loss": 0.2831,
+      "step": 1110
+    },
+    {
+      "epoch": 11.013333333333334,
+      "grad_norm": 1.902519702911377,
+      "learning_rate": 1.548148148148148e-05,
+      "loss": 0.1471,
+      "step": 1120
+    },
+    {
+      "epoch": 11.02,
+      "grad_norm": 3.733051300048828,
+      "learning_rate": 1.5074074074074076e-05,
+      "loss": 0.1483,
+      "step": 1130
+    },
+    {
+      "epoch": 11.026666666666667,
+      "grad_norm": 4.472650051116943,
+      "learning_rate": 1.4666666666666666e-05,
+      "loss": 0.1638,
+      "step": 1140
+    },
+    {
+      "epoch": 11.033333333333333,
+      "grad_norm": 6.74265718460083,
+      "learning_rate": 1.4259259259259259e-05,
+      "loss": 0.2049,
+      "step": 1150
+    },
+    {
+      "epoch": 11.04,
+      "grad_norm": 2.649310827255249,
+      "learning_rate": 1.3851851851851851e-05,
+      "loss": 0.1252,
+      "step": 1160
+    },
+    {
+      "epoch": 11.046666666666667,
+      "grad_norm": 4.256557941436768,
+      "learning_rate": 1.3444444444444445e-05,
+      "loss": 0.2747,
+      "step": 1170
+    },
+    {
+      "epoch": 11.053333333333333,
+      "grad_norm": 1.1058402061462402,
+      "learning_rate": 1.3037037037037038e-05,
+      "loss": 0.1497,
+      "step": 1180
+    },
+    {
+      "epoch": 11.06,
+      "grad_norm": 11.982878684997559,
+      "learning_rate": 1.262962962962963e-05,
+      "loss": 0.221,
+      "step": 1190
+    },
+    {
+      "epoch": 11.066666666666666,
+      "grad_norm": 10.263646125793457,
+      "learning_rate": 1.2222222222222222e-05,
+      "loss": 0.1661,
+      "step": 1200
+    },
+    {
+      "epoch": 11.066666666666666,
+      "eval_accuracy": 0.79125,
+      "eval_loss": 0.6461706757545471,
+      "eval_runtime": 231.4467,
+      "eval_samples_per_second": 3.457,
+      "eval_steps_per_second": 0.216,
+      "step": 1200
+    },
+    {
+      "epoch": 12.006666666666666,
+      "grad_norm": 1.175844669342041,
+      "learning_rate": 1.1814814814814815e-05,
+      "loss": 0.1268,
+      "step": 1210
+    },
+    {
+      "epoch": 12.013333333333334,
+      "grad_norm": 4.493222713470459,
+      "learning_rate": 1.1407407407407407e-05,
+      "loss": 0.1484,
+      "step": 1220
+    },
+    {
+      "epoch": 12.02,
+      "grad_norm": 9.850692749023438,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.1487,
+      "step": 1230
+    },
+    {
+      "epoch": 12.026666666666667,
+      "grad_norm": 1.1193190813064575,
+      "learning_rate": 1.0592592592592594e-05,
+      "loss": 0.0996,
+      "step": 1240
+    },
+    {
+      "epoch": 12.033333333333333,
+      "grad_norm": 1.7836130857467651,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.1028,
+      "step": 1250
+    },
+    {
+      "epoch": 12.04,
+      "grad_norm": 7.9007158279418945,
+      "learning_rate": 9.777777777777779e-06,
+      "loss": 0.1817,
+      "step": 1260
+    },
+    {
+      "epoch": 12.046666666666667,
+      "grad_norm": 4.448166847229004,
+      "learning_rate": 9.370370370370371e-06,
+      "loss": 0.2116,
+      "step": 1270
+    },
+    {
+      "epoch": 12.053333333333333,
+      "grad_norm": 3.7072129249572754,
+      "learning_rate": 8.962962962962963e-06,
+      "loss": 0.2593,
+      "step": 1280
+    },
+    {
+      "epoch": 12.06,
+      "grad_norm": 6.0140767097473145,
+      "learning_rate": 8.555555555555556e-06,
+      "loss": 0.1608,
+      "step": 1290
+    },
+    {
+      "epoch": 12.066666666666666,
+      "grad_norm": 3.651165246963501,
+      "learning_rate": 8.148148148148148e-06,
+      "loss": 0.1194,
+      "step": 1300
+    },
+    {
+      "epoch": 12.066666666666666,
+      "eval_accuracy": 0.7925,
+      "eval_loss": 0.747428297996521,
+      "eval_runtime": 238.559,
+      "eval_samples_per_second": 3.353,
+      "eval_steps_per_second": 0.21,
+      "step": 1300
+    },
+    {
+      "epoch": 13.006666666666666,
+      "grad_norm": 12.496907234191895,
+      "learning_rate": 7.74074074074074e-06,
+      "loss": 0.1629,
+      "step": 1310
+    },
+    {
+      "epoch": 13.013333333333334,
+      "grad_norm": 1.1458181142807007,
+      "learning_rate": 7.333333333333333e-06,
+      "loss": 0.2708,
+      "step": 1320
+    },
+    {
+      "epoch": 13.02,
+      "grad_norm": 10.291749954223633,
+      "learning_rate": 6.9259259259259256e-06,
+      "loss": 0.1076,
+      "step": 1330
+    },
+    {
+      "epoch": 13.026666666666667,
+      "grad_norm": 13.942150115966797,
+      "learning_rate": 6.518518518518519e-06,
+      "loss": 0.1501,
+      "step": 1340
+    },
+    {
+      "epoch": 13.033333333333333,
+      "grad_norm": 4.787592887878418,
+      "learning_rate": 6.111111111111111e-06,
+      "loss": 0.0629,
+      "step": 1350
+    },
+    {
+      "epoch": 13.04,
+      "grad_norm": 0.4877314567565918,
+      "learning_rate": 5.703703703703704e-06,
+      "loss": 0.1254,
+      "step": 1360
+    },
+    {
+      "epoch": 13.046666666666667,
+      "grad_norm": 11.448697090148926,
+      "learning_rate": 5.296296296296297e-06,
+      "loss": 0.135,
+      "step": 1370
+    },
+    {
+      "epoch": 13.053333333333333,
+      "grad_norm": 0.08754919469356537,
+      "learning_rate": 4.888888888888889e-06,
+      "loss": 0.1273,
+      "step": 1380
+    },
+    {
+      "epoch": 13.06,
+      "grad_norm": 2.463209867477417,
+      "learning_rate": 4.481481481481482e-06,
+      "loss": 0.1435,
+      "step": 1390
+    },
+    {
+      "epoch": 13.066666666666666,
+      "grad_norm": 4.392739295959473,
+      "learning_rate": 4.074074074074074e-06,
+      "loss": 0.1787,
+      "step": 1400
+    },
+    {
+      "epoch": 13.066666666666666,
+      "eval_accuracy": 0.83625,
+      "eval_loss": 0.6112281084060669,
+      "eval_runtime": 233.1222,
+      "eval_samples_per_second": 3.432,
+      "eval_steps_per_second": 0.214,
+      "step": 1400
+    },
+    {
+      "epoch": 14.006666666666666,
+      "grad_norm": 1.5450037717819214,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.0657,
+      "step": 1410
+    },
+    {
+      "epoch": 14.013333333333334,
+      "grad_norm": 12.871345520019531,
+      "learning_rate": 3.2592592592592594e-06,
+      "loss": 0.2169,
+      "step": 1420
+    },
+    {
+      "epoch": 14.02,
+      "grad_norm": 6.656364440917969,
+      "learning_rate": 2.851851851851852e-06,
+      "loss": 0.1209,
+      "step": 1430
+    },
+    {
+      "epoch": 14.026666666666667,
+      "grad_norm": 2.7117884159088135,
+      "learning_rate": 2.4444444444444447e-06,
+      "loss": 0.1349,
+      "step": 1440
+    },
+    {
+      "epoch": 14.033333333333333,
+      "grad_norm": 6.070209980010986,
+      "learning_rate": 2.037037037037037e-06,
+      "loss": 0.1386,
+      "step": 1450
+    },
+    {
+      "epoch": 14.04,
+      "grad_norm": 6.357542037963867,
+      "learning_rate": 1.6296296296296297e-06,
+      "loss": 0.2178,
+      "step": 1460
+    },
+    {
+      "epoch": 14.046666666666667,
+      "grad_norm": 12.310297966003418,
+      "learning_rate": 1.2222222222222223e-06,
+      "loss": 0.193,
+      "step": 1470
+    },
+    {
+      "epoch": 14.053333333333333,
+      "grad_norm": 8.076001167297363,
+      "learning_rate": 8.148148148148149e-07,
+      "loss": 0.2316,
+      "step": 1480
+    },
+    {
+      "epoch": 14.06,
+      "grad_norm": 2.287316083908081,
+      "learning_rate": 4.074074074074074e-07,
+      "loss": 0.0933,
+      "step": 1490
+    },
+    {
+      "epoch": 14.066666666666666,
+      "grad_norm": 12.869010925292969,
+      "learning_rate": 0.0,
+      "loss": 0.1953,
+      "step": 1500
+    },
+    {
+      "epoch": 14.066666666666666,
+      "eval_accuracy": 0.80125,
+      "eval_loss": 0.6875764727592468,
+      "eval_runtime": 223.9474,
+      "eval_samples_per_second": 3.572,
+      "eval_steps_per_second": 0.223,
+      "step": 1500
+    },
+    {
+      "epoch": 14.066666666666666,
+      "step": 1500,
+      "total_flos": 2.9905550147321856e+19,
+      "train_loss": 0.28477946905295054,
+      "train_runtime": 12280.5754,
+      "train_samples_per_second": 1.954,
+      "train_steps_per_second": 0.122
+    },
+    {
+      "epoch": 14.066666666666666,
+      "eval_accuracy": 0.84125,
+      "eval_loss": 0.41971343755722046,
+      "eval_runtime": 225.137,
+      "eval_samples_per_second": 3.553,
+      "eval_steps_per_second": 0.222,
+      "step": 1500
+    },
+    {
+      "epoch": 14.066666666666666,
+      "eval_accuracy": 0.91,
+      "eval_loss": 0.25712350010871887,
+      "eval_runtime": 12.7854,
+      "eval_samples_per_second": 7.821,
+      "eval_steps_per_second": 0.547,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9223372036854775807,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.9905550147321856e+19,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

val_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 14.066666666666666,
+    "eval_accuracy": 0.84125,
+    "eval_loss": 0.41971343755722046,
+    "eval_runtime": 225.137,
+    "eval_samples_per_second": 3.553,
+    "eval_steps_per_second": 0.222
+}