Training in progress, step 500, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/tokenizer.json +2 -2
last-checkpoint/trainer_state.json +72 -292
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d25040acf885f7e2920c47759e972a9c964c43aa59fe6576736ecb99705b9e7f
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:39aa4cbab7de475a35a80d9b0d2693ecf4825d9d96171dccf8c56a8dfe863ab0
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc841690d9edeb441c534cb39ba0e0b76571370a7dc70d911503af4a861ef3c3
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd0048b75921b40f9628393fc371f1ea43397a61336f7fb405b2de81efe82eb9
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee7003d2d3db8b5d062c3280168e1b356926dfcb2c85d0b9bea95ac9bb64d84f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdbe2638c7caf1c99648b98db61ed244e5ab2b8152ba929e7b299ab487f42773
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d51f93e5e4e2970e1d4467bbc53489257074e326323db890e39b7a999de6e4d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bb3f2ff6f7e6781542bdfb9729073f4ea2e4dde4572d86a2813e058d1eb3526
 size 1064

last-checkpoint/tokenizer.json CHANGED Viewed

@@ -2,13 +2,13 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 256,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
-      "Fixed": 256
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 128,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
+      "Fixed": 128
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,346 +1,126 @@
 {
-  "best_metric": 0.11325465887784958,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-1500",
-  "epoch": 0.13173494928204452,
   "eval_steps": 100,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.004391164976068151,
-      "grad_norm": 0.4158438444137573,
-      "learning_rate": 4.994510802740208e-05,
-      "loss": 0.1393,
       "step": 50
     },
     {
-      "epoch": 0.008782329952136302,
-      "grad_norm": 0.45840761065483093,
-      "learning_rate": 4.9890216054804146e-05,
-      "loss": 0.1402,
       "step": 100
     },
     {
-      "epoch": 0.008782329952136302,
-      "eval_loss": 0.12196873873472214,
-      "eval_runtime": 82.4004,
-      "eval_samples_per_second": 54.126,
-      "eval_steps_per_second": 13.531,
       "step": 100
     },
     {
-      "epoch": 0.013173494928204453,
-      "grad_norm": 0.6116240620613098,
-      "learning_rate": 4.983532408220622e-05,
-      "loss": 0.1401,
       "step": 150
     },
     {
-      "epoch": 0.017564659904272605,
-      "grad_norm": 7.667095184326172,
-      "learning_rate": 4.9780432109608296e-05,
-      "loss": 0.1256,
       "step": 200
     },
     {
-      "epoch": 0.017564659904272605,
-      "eval_loss": 0.11987816542387009,
-      "eval_runtime": 83.2537,
-      "eval_samples_per_second": 53.571,
-      "eval_steps_per_second": 13.393,
       "step": 200
     },
     {
-      "epoch": 0.021955824880340754,
-      "grad_norm": 0.5275366902351379,
-      "learning_rate": 4.972554013701037e-05,
-      "loss": 0.1227,
       "step": 250
     },
     {
-      "epoch": 0.026346989856408907,
-      "grad_norm": 0.7326502203941345,
-      "learning_rate": 4.967064816441244e-05,
-      "loss": 0.1312,
       "step": 300
     },
     {
-      "epoch": 0.026346989856408907,
-      "eval_loss": 0.11818940937519073,
-      "eval_runtime": 82.8316,
-      "eval_samples_per_second": 53.844,
-      "eval_steps_per_second": 13.461,
       "step": 300
     },
     {
-      "epoch": 0.030738154832477056,
-      "grad_norm": 0.5537102818489075,
-      "learning_rate": 4.9615756191814514e-05,
-      "loss": 0.1247,
       "step": 350
     },
     {
-      "epoch": 0.03512931980854521,
-      "grad_norm": 0.505450963973999,
-      "learning_rate": 4.956086421921658e-05,
-      "loss": 0.1244,
       "step": 400
     },
     {
-      "epoch": 0.03512931980854521,
-      "eval_loss": 0.11761000752449036,
-      "eval_runtime": 83.0177,
-      "eval_samples_per_second": 53.724,
-      "eval_steps_per_second": 13.431,
       "step": 400
     },
     {
-      "epoch": 0.039520484784613355,
-      "grad_norm": 0.4453428089618683,
-      "learning_rate": 4.950597224661866e-05,
-      "loss": 0.1304,
       "step": 450
     },
     {
-      "epoch": 0.04391164976068151,
-      "grad_norm": 0.40634244680404663,
-      "learning_rate": 4.9451080274020725e-05,
-      "loss": 0.1343,
       "step": 500
     },
     {
-      "epoch": 0.04391164976068151,
-      "eval_loss": 0.1168845146894455,
-      "eval_runtime": 82.6617,
-      "eval_samples_per_second": 53.955,
-      "eval_steps_per_second": 13.489,
       "step": 500
-    },
-    {
-      "epoch": 0.04830281473674966,
-      "grad_norm": 0.7192500233650208,
-      "learning_rate": 4.93961883014228e-05,
-      "loss": 0.1312,
-      "step": 550
-    },
-    {
-      "epoch": 0.052693979712817814,
-      "grad_norm": 0.4769364595413208,
-      "learning_rate": 4.9341296328824875e-05,
-      "loss": 0.124,
-      "step": 600
-    },
-    {
-      "epoch": 0.052693979712817814,
-      "eval_loss": 0.11658164858818054,
-      "eval_runtime": 86.2919,
-      "eval_samples_per_second": 51.685,
-      "eval_steps_per_second": 12.921,
-      "step": 600
-    },
-    {
-      "epoch": 0.05708514468888596,
-      "grad_norm": 0.45539864897727966,
-      "learning_rate": 4.9286404356226944e-05,
-      "loss": 0.1225,
-      "step": 650
-    },
-    {
-      "epoch": 0.06147630966495411,
-      "grad_norm": 0.640469491481781,
-      "learning_rate": 4.923151238362902e-05,
-      "loss": 0.1403,
-      "step": 700
-    },
-    {
-      "epoch": 0.06147630966495411,
-      "eval_loss": 0.11597927659749985,
-      "eval_runtime": 82.556,
-      "eval_samples_per_second": 54.024,
-      "eval_steps_per_second": 13.506,
-      "step": 700
-    },
-    {
-      "epoch": 0.06586747464102226,
-      "grad_norm": 0.39421921968460083,
-      "learning_rate": 4.9176620411031094e-05,
-      "loss": 0.1219,
-      "step": 750
-    },
-    {
-      "epoch": 0.07025863961709042,
-      "grad_norm": 0.4776351749897003,
-      "learning_rate": 4.912172843843317e-05,
-      "loss": 0.1295,
-      "step": 800
-    },
-    {
-      "epoch": 0.07025863961709042,
-      "eval_loss": 0.11582696437835693,
-      "eval_runtime": 82.3981,
-      "eval_samples_per_second": 54.127,
-      "eval_steps_per_second": 13.532,
-      "step": 800
-    },
-    {
-      "epoch": 0.07464980459315856,
-      "grad_norm": 0.5199089646339417,
-      "learning_rate": 4.906683646583524e-05,
-      "loss": 0.1185,
-      "step": 850
-    },
-    {
-      "epoch": 0.07904096956922671,
-      "grad_norm": 0.44966959953308105,
-      "learning_rate": 4.901194449323731e-05,
-      "loss": 0.1132,
-      "step": 900
-    },
-    {
-      "epoch": 0.07904096956922671,
-      "eval_loss": 0.11530017107725143,
-      "eval_runtime": 82.5598,
-      "eval_samples_per_second": 54.021,
-      "eval_steps_per_second": 13.505,
-      "step": 900
-    },
-    {
-      "epoch": 0.08343213454529487,
-      "grad_norm": 0.3631457984447479,
-      "learning_rate": 4.895705252063939e-05,
-      "loss": 0.1204,
-      "step": 950
-    },
-    {
-      "epoch": 0.08782329952136302,
-      "grad_norm": 0.7695568799972534,
-      "learning_rate": 4.890216054804146e-05,
-      "loss": 0.1128,
-      "step": 1000
-    },
-    {
-      "epoch": 0.08782329952136302,
-      "eval_loss": 0.11499012261629105,
-      "eval_runtime": 82.4716,
-      "eval_samples_per_second": 54.079,
-      "eval_steps_per_second": 13.52,
-      "step": 1000
-    },
-    {
-      "epoch": 0.09221446449743116,
-      "grad_norm": 0.3713476359844208,
-      "learning_rate": 4.884726857544353e-05,
-      "loss": 0.1251,
-      "step": 1050
-    },
-    {
-      "epoch": 0.09660562947349932,
-      "grad_norm": 0.37777256965637207,
-      "learning_rate": 4.8792376602845605e-05,
-      "loss": 0.1153,
-      "step": 1100
-    },
-    {
-      "epoch": 0.09660562947349932,
-      "eval_loss": 0.11525405198335648,
-      "eval_runtime": 85.5526,
-      "eval_samples_per_second": 52.132,
-      "eval_steps_per_second": 13.033,
-      "step": 1100
-    },
-    {
-      "epoch": 0.10099679444956747,
-      "grad_norm": 0.48114562034606934,
-      "learning_rate": 4.873748463024767e-05,
-      "loss": 0.1242,
-      "step": 1150
-    },
-    {
-      "epoch": 0.10538795942563563,
-      "grad_norm": 0.7776908278465271,
-      "learning_rate": 4.868259265764974e-05,
-      "loss": 0.1237,
-      "step": 1200
-    },
-    {
-      "epoch": 0.10538795942563563,
-      "eval_loss": 0.11445864289999008,
-      "eval_runtime": 82.4683,
-      "eval_samples_per_second": 54.081,
-      "eval_steps_per_second": 13.52,
-      "step": 1200
-    },
-    {
-      "epoch": 0.10977912440170377,
-      "grad_norm": 0.34126266837120056,
-      "learning_rate": 4.8627700685051817e-05,
-      "loss": 0.1331,
-      "step": 1250
-    },
-    {
-      "epoch": 0.11417028937777192,
-      "grad_norm": 0.32315969467163086,
-      "learning_rate": 4.857280871245389e-05,
-      "loss": 0.1167,
-      "step": 1300
-    },
-    {
-      "epoch": 0.11417028937777192,
-      "eval_loss": 0.11452117562294006,
-      "eval_runtime": 82.4936,
-      "eval_samples_per_second": 54.065,
-      "eval_steps_per_second": 13.516,
-      "step": 1300
-    },
-    {
-      "epoch": 0.11856145435384008,
-      "grad_norm": 0.7266770005226135,
-      "learning_rate": 4.8517916739855967e-05,
-      "loss": 0.1183,
-      "step": 1350
-    },
-    {
-      "epoch": 0.12295261932990822,
-      "grad_norm": 0.4979361295700073,
-      "learning_rate": 4.8463024767258035e-05,
-      "loss": 0.126,
-      "step": 1400
-    },
-    {
-      "epoch": 0.12295261932990822,
-      "eval_loss": 0.11409644037485123,
-      "eval_runtime": 82.4146,
-      "eval_samples_per_second": 54.117,
-      "eval_steps_per_second": 13.529,
-      "step": 1400
-    },
-    {
-      "epoch": 0.12734378430597637,
-      "grad_norm": 0.45280951261520386,
-      "learning_rate": 4.840813279466011e-05,
-      "loss": 0.1152,
-      "step": 1450
-    },
-    {
-      "epoch": 0.13173494928204452,
-      "grad_norm": 0.9963550567626953,
-      "learning_rate": 4.8353240822062185e-05,
-      "loss": 0.1214,
-      "step": 1500
-    },
-    {
-      "epoch": 0.13173494928204452,
-      "eval_loss": 0.11325465887784958,
-      "eval_runtime": 82.4565,
-      "eval_samples_per_second": 54.089,
-      "eval_steps_per_second": 13.522,
-      "step": 1500
     }
   ],
   "logging_steps": 50,
-  "max_steps": 45544,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 500,
@@ -356,8 +136,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 3653747343360000.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.21807625889778137,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-500",
+  "epoch": 0.3512469265893923,
   "eval_steps": 100,
+  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.035124692658939236,
+      "grad_norm": 31298.91015625,
+      "learning_rate": 2.9736472241742796e-05,
+      "loss": 0.2772,
       "step": 50
     },
     {
+      "epoch": 0.07024938531787847,
+      "grad_norm": 28423.171875,
+      "learning_rate": 2.9472944483485594e-05,
+      "loss": 0.2575,
       "step": 100
     },
     {
+      "epoch": 0.07024938531787847,
+      "eval_loss": 0.22961987555027008,
+      "eval_runtime": 71.5175,
+      "eval_samples_per_second": 62.362,
+      "eval_steps_per_second": 1.958,
       "step": 100
     },
     {
+      "epoch": 0.1053740779768177,
+      "grad_norm": 28882.9609375,
+      "learning_rate": 2.9209416725228392e-05,
+      "loss": 0.24,
       "step": 150
     },
     {
+      "epoch": 0.14049877063575694,
+      "grad_norm": 44492.234375,
+      "learning_rate": 2.894588896697119e-05,
+      "loss": 0.2427,
       "step": 200
     },
     {
+      "epoch": 0.14049877063575694,
+      "eval_loss": 0.22477279603481293,
+      "eval_runtime": 71.1758,
+      "eval_samples_per_second": 62.662,
+      "eval_steps_per_second": 1.967,
       "step": 200
     },
     {
+      "epoch": 0.17562346329469616,
+      "grad_norm": 23385.271484375,
+      "learning_rate": 2.8682361208713985e-05,
+      "loss": 0.237,
       "step": 250
     },
     {
+      "epoch": 0.2107481559536354,
+      "grad_norm": 65184.7578125,
+      "learning_rate": 2.841883345045678e-05,
+      "loss": 0.2351,
       "step": 300
     },
     {
+      "epoch": 0.2107481559536354,
+      "eval_loss": 0.22264569997787476,
+      "eval_runtime": 71.2392,
+      "eval_samples_per_second": 62.606,
+      "eval_steps_per_second": 1.965,
       "step": 300
     },
     {
+      "epoch": 0.24587284861257463,
+      "grad_norm": 26510.09375,
+      "learning_rate": 2.8155305692199578e-05,
+      "loss": 0.2387,
       "step": 350
     },
     {
+      "epoch": 0.2809975412715139,
+      "grad_norm": 35873.625,
+      "learning_rate": 2.7891777933942376e-05,
+      "loss": 0.239,
       "step": 400
     },
     {
+      "epoch": 0.2809975412715139,
+      "eval_loss": 0.22040367126464844,
+      "eval_runtime": 71.1652,
+      "eval_samples_per_second": 62.671,
+      "eval_steps_per_second": 1.967,
       "step": 400
     },
     {
+      "epoch": 0.31612223393045313,
+      "grad_norm": 190454.703125,
+      "learning_rate": 2.7628250175685175e-05,
+      "loss": 0.2343,
       "step": 450
     },
     {
+      "epoch": 0.3512469265893923,
+      "grad_norm": 27248.146484375,
+      "learning_rate": 2.736472241742797e-05,
+      "loss": 0.2349,
       "step": 500
     },
     {
+      "epoch": 0.3512469265893923,
+      "eval_loss": 0.21807625889778137,
+      "eval_runtime": 71.5449,
+      "eval_samples_per_second": 62.338,
+      "eval_steps_per_second": 1.957,
       "step": 500
     }
   ],
   "logging_steps": 50,
+  "max_steps": 5692,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 4871663124480000.0,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a9eac9b6dfa8d64bfb6721f59fcdb734e155bcd97bd566040ad0e9d54879ad8
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf0bce22946039d2fc9fa9044d9964dcf0976913488528c8ab2c151752735b36
 size 5432