Tung177 commited on
Commit
2577b4e
·
verified ·
1 Parent(s): 8dacacd

Upload trainer_state.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. trainer_state.json +1629 -0
trainer_state.json ADDED
@@ -0,0 +1,1629 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 2.0,
5
+ "eval_steps": 500,
6
+ "global_step": 2282,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.008764241893076249,
13
+ "grad_norm": 3.7227299213409424,
14
+ "learning_rate": 9.999654593547529e-05,
15
+ "loss": 0.8928,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.017528483786152498,
20
+ "grad_norm": 2.602724552154541,
21
+ "learning_rate": 9.998460664009619e-05,
22
+ "loss": 0.7339,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.026292725679228746,
27
+ "grad_norm": 2.0315356254577637,
28
+ "learning_rate": 9.996414173332143e-05,
29
+ "loss": 0.8093,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.035056967572304996,
34
+ "grad_norm": 2.265153408050537,
35
+ "learning_rate": 9.993515509371871e-05,
36
+ "loss": 0.7516,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.04382120946538125,
41
+ "grad_norm": 1.9205143451690674,
42
+ "learning_rate": 9.989765221491895e-05,
43
+ "loss": 0.7691,
44
+ "step": 50
45
+ },
46
+ {
47
+ "epoch": 0.05258545135845749,
48
+ "grad_norm": 2.219170331954956,
49
+ "learning_rate": 9.985164020457504e-05,
50
+ "loss": 0.7539,
51
+ "step": 60
52
+ },
53
+ {
54
+ "epoch": 0.06134969325153374,
55
+ "grad_norm": 2.3345134258270264,
56
+ "learning_rate": 9.979712778301489e-05,
57
+ "loss": 0.6932,
58
+ "step": 70
59
+ },
60
+ {
61
+ "epoch": 0.07011393514460999,
62
+ "grad_norm": 1.9078369140625,
63
+ "learning_rate": 9.973412528158862e-05,
64
+ "loss": 0.7058,
65
+ "step": 80
66
+ },
67
+ {
68
+ "epoch": 0.07887817703768624,
69
+ "grad_norm": 2.3402259349823,
70
+ "learning_rate": 9.966264464071064e-05,
71
+ "loss": 0.7181,
72
+ "step": 90
73
+ },
74
+ {
75
+ "epoch": 0.0876424189307625,
76
+ "grad_norm": 1.6266059875488281,
77
+ "learning_rate": 9.958269940759659e-05,
78
+ "loss": 0.6715,
79
+ "step": 100
80
+ },
81
+ {
82
+ "epoch": 0.09640666082383874,
83
+ "grad_norm": 1.8910496234893799,
84
+ "learning_rate": 9.94943047336958e-05,
85
+ "loss": 0.6983,
86
+ "step": 110
87
+ },
88
+ {
89
+ "epoch": 0.10517090271691498,
90
+ "grad_norm": 1.970109224319458,
91
+ "learning_rate": 9.939747737181993e-05,
92
+ "loss": 0.7639,
93
+ "step": 120
94
+ },
95
+ {
96
+ "epoch": 0.11393514460999124,
97
+ "grad_norm": 1.9310839176177979,
98
+ "learning_rate": 9.929223567296766e-05,
99
+ "loss": 0.6289,
100
+ "step": 130
101
+ },
102
+ {
103
+ "epoch": 0.12269938650306748,
104
+ "grad_norm": 1.5292866230010986,
105
+ "learning_rate": 9.917859958284699e-05,
106
+ "loss": 0.6575,
107
+ "step": 140
108
+ },
109
+ {
110
+ "epoch": 0.13146362839614373,
111
+ "grad_norm": 1.3497545719146729,
112
+ "learning_rate": 9.905659063809492e-05,
113
+ "loss": 0.6986,
114
+ "step": 150
115
+ },
116
+ {
117
+ "epoch": 0.14022787028921999,
118
+ "grad_norm": 2.1464974880218506,
119
+ "learning_rate": 9.892623196219586e-05,
120
+ "loss": 0.7055,
121
+ "step": 160
122
+ },
123
+ {
124
+ "epoch": 0.14899211218229624,
125
+ "grad_norm": 2.5107662677764893,
126
+ "learning_rate": 9.878754826109915e-05,
127
+ "loss": 0.7421,
128
+ "step": 170
129
+ },
130
+ {
131
+ "epoch": 0.15775635407537247,
132
+ "grad_norm": 1.9968948364257812,
133
+ "learning_rate": 9.864056581853674e-05,
134
+ "loss": 0.6956,
135
+ "step": 180
136
+ },
137
+ {
138
+ "epoch": 0.16652059596844873,
139
+ "grad_norm": 1.5380990505218506,
140
+ "learning_rate": 9.84853124910418e-05,
141
+ "loss": 0.7439,
142
+ "step": 190
143
+ },
144
+ {
145
+ "epoch": 0.175284837861525,
146
+ "grad_norm": 1.8293559551239014,
147
+ "learning_rate": 9.832181770266927e-05,
148
+ "loss": 0.6924,
149
+ "step": 200
150
+ },
151
+ {
152
+ "epoch": 0.18404907975460122,
153
+ "grad_norm": 1.5421850681304932,
154
+ "learning_rate": 9.815011243941939e-05,
155
+ "loss": 0.6443,
156
+ "step": 210
157
+ },
158
+ {
159
+ "epoch": 0.19281332164767748,
160
+ "grad_norm": 1.7461329698562622,
161
+ "learning_rate": 9.797022924336504e-05,
162
+ "loss": 0.7049,
163
+ "step": 220
164
+ },
165
+ {
166
+ "epoch": 0.20157756354075373,
167
+ "grad_norm": 1.9567017555236816,
168
+ "learning_rate": 9.778220220648439e-05,
169
+ "loss": 0.6797,
170
+ "step": 230
171
+ },
172
+ {
173
+ "epoch": 0.21034180543382996,
174
+ "grad_norm": 2.222736358642578,
175
+ "learning_rate": 9.75860669641996e-05,
176
+ "loss": 0.6958,
177
+ "step": 240
178
+ },
179
+ {
180
+ "epoch": 0.21910604732690622,
181
+ "grad_norm": 1.6702378988265991,
182
+ "learning_rate": 9.738186068862311e-05,
183
+ "loss": 0.6895,
184
+ "step": 250
185
+ },
186
+ {
187
+ "epoch": 0.22787028921998248,
188
+ "grad_norm": 1.9190706014633179,
189
+ "learning_rate": 9.716962208151269e-05,
190
+ "loss": 0.6747,
191
+ "step": 260
192
+ },
193
+ {
194
+ "epoch": 0.2366345311130587,
195
+ "grad_norm": 2.277719020843506,
196
+ "learning_rate": 9.69493913669366e-05,
197
+ "loss": 0.704,
198
+ "step": 270
199
+ },
200
+ {
201
+ "epoch": 0.24539877300613497,
202
+ "grad_norm": 1.6245454549789429,
203
+ "learning_rate": 9.672121028365014e-05,
204
+ "loss": 0.6023,
205
+ "step": 280
206
+ },
207
+ {
208
+ "epoch": 0.2541630148992112,
209
+ "grad_norm": 1.7889143228530884,
210
+ "learning_rate": 9.648512207718532e-05,
211
+ "loss": 0.7218,
212
+ "step": 290
213
+ },
214
+ {
215
+ "epoch": 0.26292725679228746,
216
+ "grad_norm": 2.422360897064209,
217
+ "learning_rate": 9.624117149165466e-05,
218
+ "loss": 0.6986,
219
+ "step": 300
220
+ },
221
+ {
222
+ "epoch": 0.27169149868536374,
223
+ "grad_norm": 2.14021372795105,
224
+ "learning_rate": 9.598940476127131e-05,
225
+ "loss": 0.6476,
226
+ "step": 310
227
+ },
228
+ {
229
+ "epoch": 0.28045574057843997,
230
+ "grad_norm": 1.9130802154541016,
231
+ "learning_rate": 9.57298696015866e-05,
232
+ "loss": 0.7056,
233
+ "step": 320
234
+ },
235
+ {
236
+ "epoch": 0.2892199824715162,
237
+ "grad_norm": 2.4466943740844727,
238
+ "learning_rate": 9.546261520044675e-05,
239
+ "loss": 0.6542,
240
+ "step": 330
241
+ },
242
+ {
243
+ "epoch": 0.2979842243645925,
244
+ "grad_norm": 1.6736353635787964,
245
+ "learning_rate": 9.518769220867076e-05,
246
+ "loss": 0.6648,
247
+ "step": 340
248
+ },
249
+ {
250
+ "epoch": 0.3067484662576687,
251
+ "grad_norm": 1.745496153831482,
252
+ "learning_rate": 9.490515273045085e-05,
253
+ "loss": 0.6411,
254
+ "step": 350
255
+ },
256
+ {
257
+ "epoch": 0.31551270815074495,
258
+ "grad_norm": 2.82519268989563,
259
+ "learning_rate": 9.461505031347753e-05,
260
+ "loss": 0.6597,
261
+ "step": 360
262
+ },
263
+ {
264
+ "epoch": 0.32427695004382123,
265
+ "grad_norm": 2.2791597843170166,
266
+ "learning_rate": 9.431743993879119e-05,
267
+ "loss": 0.6931,
268
+ "step": 370
269
+ },
270
+ {
271
+ "epoch": 0.33304119193689746,
272
+ "grad_norm": 1.6820751428604126,
273
+ "learning_rate": 9.401237801036176e-05,
274
+ "loss": 0.6529,
275
+ "step": 380
276
+ },
277
+ {
278
+ "epoch": 0.3418054338299737,
279
+ "grad_norm": 1.7358545064926147,
280
+ "learning_rate": 9.369992234439899e-05,
281
+ "loss": 0.7001,
282
+ "step": 390
283
+ },
284
+ {
285
+ "epoch": 0.35056967572305,
286
+ "grad_norm": 1.7271596193313599,
287
+ "learning_rate": 9.338013215839495e-05,
288
+ "loss": 0.6801,
289
+ "step": 400
290
+ },
291
+ {
292
+ "epoch": 0.3593339176161262,
293
+ "grad_norm": 1.7952642440795898,
294
+ "learning_rate": 9.305306805990093e-05,
295
+ "loss": 0.7023,
296
+ "step": 410
297
+ },
298
+ {
299
+ "epoch": 0.36809815950920244,
300
+ "grad_norm": 2.275848865509033,
301
+ "learning_rate": 9.271879203504094e-05,
302
+ "loss": 0.6641,
303
+ "step": 420
304
+ },
305
+ {
306
+ "epoch": 0.3768624014022787,
307
+ "grad_norm": 1.435059666633606,
308
+ "learning_rate": 9.237736743676386e-05,
309
+ "loss": 0.6739,
310
+ "step": 430
311
+ },
312
+ {
313
+ "epoch": 0.38562664329535495,
314
+ "grad_norm": 1.6760456562042236,
315
+ "learning_rate": 9.202885897283674e-05,
316
+ "loss": 0.6245,
317
+ "step": 440
318
+ },
319
+ {
320
+ "epoch": 0.3943908851884312,
321
+ "grad_norm": 1.5440309047698975,
322
+ "learning_rate": 9.167333269358109e-05,
323
+ "loss": 0.6436,
324
+ "step": 450
325
+ },
326
+ {
327
+ "epoch": 0.40315512708150747,
328
+ "grad_norm": 1.798532485961914,
329
+ "learning_rate": 9.131085597935487e-05,
330
+ "loss": 0.6097,
331
+ "step": 460
332
+ },
333
+ {
334
+ "epoch": 0.4119193689745837,
335
+ "grad_norm": 1.5643911361694336,
336
+ "learning_rate": 9.094149752778233e-05,
337
+ "loss": 0.7032,
338
+ "step": 470
339
+ },
340
+ {
341
+ "epoch": 0.42068361086765993,
342
+ "grad_norm": 1.9498308897018433,
343
+ "learning_rate": 9.056532734073434e-05,
344
+ "loss": 0.6429,
345
+ "step": 480
346
+ },
347
+ {
348
+ "epoch": 0.4294478527607362,
349
+ "grad_norm": 2.7362070083618164,
350
+ "learning_rate": 9.018241671106134e-05,
351
+ "loss": 0.6518,
352
+ "step": 490
353
+ },
354
+ {
355
+ "epoch": 0.43821209465381245,
356
+ "grad_norm": 1.755315899848938,
357
+ "learning_rate": 8.979283820908174e-05,
358
+ "loss": 0.6145,
359
+ "step": 500
360
+ },
361
+ {
362
+ "epoch": 0.4469763365468887,
363
+ "grad_norm": 1.6948930025100708,
364
+ "learning_rate": 8.939666566882821e-05,
365
+ "loss": 0.6809,
366
+ "step": 510
367
+ },
368
+ {
369
+ "epoch": 0.45574057843996496,
370
+ "grad_norm": 1.9926345348358154,
371
+ "learning_rate": 8.899397417405442e-05,
372
+ "loss": 0.6811,
373
+ "step": 520
374
+ },
375
+ {
376
+ "epoch": 0.4645048203330412,
377
+ "grad_norm": 2.0141072273254395,
378
+ "learning_rate": 8.858484004400496e-05,
379
+ "loss": 0.6326,
380
+ "step": 530
381
+ },
382
+ {
383
+ "epoch": 0.4732690622261174,
384
+ "grad_norm": 1.5361511707305908,
385
+ "learning_rate": 8.816934081895105e-05,
386
+ "loss": 0.6316,
387
+ "step": 540
388
+ },
389
+ {
390
+ "epoch": 0.4820333041191937,
391
+ "grad_norm": 2.0940563678741455,
392
+ "learning_rate": 8.774755524549503e-05,
393
+ "loss": 0.7468,
394
+ "step": 550
395
+ },
396
+ {
397
+ "epoch": 0.49079754601226994,
398
+ "grad_norm": 2.6678926944732666,
399
+ "learning_rate": 8.731956326164591e-05,
400
+ "loss": 0.6853,
401
+ "step": 560
402
+ },
403
+ {
404
+ "epoch": 0.49956178790534617,
405
+ "grad_norm": 2.2798871994018555,
406
+ "learning_rate": 8.688544598166935e-05,
407
+ "loss": 0.6488,
408
+ "step": 570
409
+ },
410
+ {
411
+ "epoch": 0.5083260297984225,
412
+ "grad_norm": 2.1741902828216553,
413
+ "learning_rate": 8.644528568071472e-05,
414
+ "loss": 0.7044,
415
+ "step": 580
416
+ },
417
+ {
418
+ "epoch": 0.5170902716914987,
419
+ "grad_norm": 1.9935109615325928,
420
+ "learning_rate": 8.599916577922198e-05,
421
+ "loss": 0.6689,
422
+ "step": 590
423
+ },
424
+ {
425
+ "epoch": 0.5258545135845749,
426
+ "grad_norm": 2.2509982585906982,
427
+ "learning_rate": 8.554717082711164e-05,
428
+ "loss": 0.6697,
429
+ "step": 600
430
+ },
431
+ {
432
+ "epoch": 0.5346187554776511,
433
+ "grad_norm": 1.5349043607711792,
434
+ "learning_rate": 8.508938648776062e-05,
435
+ "loss": 0.6741,
436
+ "step": 610
437
+ },
438
+ {
439
+ "epoch": 0.5433829973707275,
440
+ "grad_norm": 1.8080490827560425,
441
+ "learning_rate": 8.462589952176709e-05,
442
+ "loss": 0.6448,
443
+ "step": 620
444
+ },
445
+ {
446
+ "epoch": 0.5521472392638037,
447
+ "grad_norm": 1.4415456056594849,
448
+ "learning_rate": 8.415679777050735e-05,
449
+ "loss": 0.6585,
450
+ "step": 630
451
+ },
452
+ {
453
+ "epoch": 0.5609114811568799,
454
+ "grad_norm": 1.9184411764144897,
455
+ "learning_rate": 8.368217013948786e-05,
456
+ "loss": 0.6934,
457
+ "step": 640
458
+ },
459
+ {
460
+ "epoch": 0.5696757230499562,
461
+ "grad_norm": 2.0871620178222656,
462
+ "learning_rate": 8.320210658149562e-05,
463
+ "loss": 0.642,
464
+ "step": 650
465
+ },
466
+ {
467
+ "epoch": 0.5784399649430324,
468
+ "grad_norm": 1.835964322090149,
469
+ "learning_rate": 8.271669807955007e-05,
470
+ "loss": 0.7067,
471
+ "step": 660
472
+ },
473
+ {
474
+ "epoch": 0.5872042068361086,
475
+ "grad_norm": 2.068668842315674,
476
+ "learning_rate": 8.222603662965974e-05,
477
+ "loss": 0.6759,
478
+ "step": 670
479
+ },
480
+ {
481
+ "epoch": 0.595968448729185,
482
+ "grad_norm": 1.837086796760559,
483
+ "learning_rate": 8.173021522338687e-05,
484
+ "loss": 0.6301,
485
+ "step": 680
486
+ },
487
+ {
488
+ "epoch": 0.6047326906222612,
489
+ "grad_norm": 1.995373010635376,
490
+ "learning_rate": 8.122932783022342e-05,
491
+ "loss": 0.688,
492
+ "step": 690
493
+ },
494
+ {
495
+ "epoch": 0.6134969325153374,
496
+ "grad_norm": 1.736932635307312,
497
+ "learning_rate": 8.072346937978168e-05,
498
+ "loss": 0.6538,
499
+ "step": 700
500
+ },
501
+ {
502
+ "epoch": 0.6222611744084137,
503
+ "grad_norm": 2.074141025543213,
504
+ "learning_rate": 8.02127357438029e-05,
505
+ "loss": 0.7275,
506
+ "step": 710
507
+ },
508
+ {
509
+ "epoch": 0.6310254163014899,
510
+ "grad_norm": 2.758039951324463,
511
+ "learning_rate": 7.969722371798753e-05,
512
+ "loss": 0.7139,
513
+ "step": 720
514
+ },
515
+ {
516
+ "epoch": 0.6397896581945661,
517
+ "grad_norm": 1.8415740728378296,
518
+ "learning_rate": 7.917703100365005e-05,
519
+ "loss": 0.5433,
520
+ "step": 730
521
+ },
522
+ {
523
+ "epoch": 0.6485539000876425,
524
+ "grad_norm": 2.0133821964263916,
525
+ "learning_rate": 7.865225618920248e-05,
526
+ "loss": 0.6369,
527
+ "step": 740
528
+ },
529
+ {
530
+ "epoch": 0.6573181419807187,
531
+ "grad_norm": 1.943287968635559,
532
+ "learning_rate": 7.812299873146955e-05,
533
+ "loss": 0.6168,
534
+ "step": 750
535
+ },
536
+ {
537
+ "epoch": 0.6660823838737949,
538
+ "grad_norm": 1.7971194982528687,
539
+ "learning_rate": 7.758935893683939e-05,
540
+ "loss": 0.6518,
541
+ "step": 760
542
+ },
543
+ {
544
+ "epoch": 0.6748466257668712,
545
+ "grad_norm": 1.5026414394378662,
546
+ "learning_rate": 7.705143794225315e-05,
547
+ "loss": 0.6498,
548
+ "step": 770
549
+ },
550
+ {
551
+ "epoch": 0.6836108676599474,
552
+ "grad_norm": 1.8013416528701782,
553
+ "learning_rate": 7.65093376960372e-05,
554
+ "loss": 0.6598,
555
+ "step": 780
556
+ },
557
+ {
558
+ "epoch": 0.6923751095530236,
559
+ "grad_norm": 1.8364579677581787,
560
+ "learning_rate": 7.596316093858172e-05,
561
+ "loss": 0.6934,
562
+ "step": 790
563
+ },
564
+ {
565
+ "epoch": 0.7011393514461,
566
+ "grad_norm": 1.7535738945007324,
567
+ "learning_rate": 7.541301118286894e-05,
568
+ "loss": 0.5668,
569
+ "step": 800
570
+ },
571
+ {
572
+ "epoch": 0.7099035933391762,
573
+ "grad_norm": 1.9401272535324097,
574
+ "learning_rate": 7.485899269485506e-05,
575
+ "loss": 0.6852,
576
+ "step": 810
577
+ },
578
+ {
579
+ "epoch": 0.7186678352322524,
580
+ "grad_norm": 1.886604905128479,
581
+ "learning_rate": 7.430121047370955e-05,
582
+ "loss": 0.6845,
583
+ "step": 820
584
+ },
585
+ {
586
+ "epoch": 0.7274320771253286,
587
+ "grad_norm": 1.9620131254196167,
588
+ "learning_rate": 7.37397702319153e-05,
589
+ "loss": 0.6344,
590
+ "step": 830
591
+ },
592
+ {
593
+ "epoch": 0.7361963190184049,
594
+ "grad_norm": 1.949866771697998,
595
+ "learning_rate": 7.32314343370074e-05,
596
+ "loss": 0.6247,
597
+ "step": 840
598
+ },
599
+ {
600
+ "epoch": 0.7449605609114811,
601
+ "grad_norm": 1.5609701871871948,
602
+ "learning_rate": 7.266333756059938e-05,
603
+ "loss": 0.604,
604
+ "step": 850
605
+ },
606
+ {
607
+ "epoch": 0.7537248028045574,
608
+ "grad_norm": 2.5070557594299316,
609
+ "learning_rate": 7.209189317790467e-05,
610
+ "loss": 0.6262,
611
+ "step": 860
612
+ },
613
+ {
614
+ "epoch": 0.7624890446976337,
615
+ "grad_norm": 1.672145128250122,
616
+ "learning_rate": 7.151720949069814e-05,
617
+ "loss": 0.6188,
618
+ "step": 870
619
+ },
620
+ {
621
+ "epoch": 0.7712532865907099,
622
+ "grad_norm": 1.456264615058899,
623
+ "learning_rate": 7.093939541467697e-05,
624
+ "loss": 0.6026,
625
+ "step": 880
626
+ },
627
+ {
628
+ "epoch": 0.7800175284837861,
629
+ "grad_norm": 1.967781901359558,
630
+ "learning_rate": 7.035856045881851e-05,
631
+ "loss": 0.6649,
632
+ "step": 890
633
+ },
634
+ {
635
+ "epoch": 0.7887817703768624,
636
+ "grad_norm": 1.6206531524658203,
637
+ "learning_rate": 6.977481470462593e-05,
638
+ "loss": 0.6018,
639
+ "step": 900
640
+ },
641
+ {
642
+ "epoch": 0.7975460122699386,
643
+ "grad_norm": 2.240525960922241,
644
+ "learning_rate": 6.918826878526527e-05,
645
+ "loss": 0.5912,
646
+ "step": 910
647
+ },
648
+ {
649
+ "epoch": 0.8063102541630149,
650
+ "grad_norm": 1.8358842134475708,
651
+ "learning_rate": 6.859903386459781e-05,
652
+ "loss": 0.6435,
653
+ "step": 920
654
+ },
655
+ {
656
+ "epoch": 0.8150744960560912,
657
+ "grad_norm": 2.574652671813965,
658
+ "learning_rate": 6.80072216161121e-05,
659
+ "loss": 0.6789,
660
+ "step": 930
661
+ },
662
+ {
663
+ "epoch": 0.8238387379491674,
664
+ "grad_norm": 1.668445348739624,
665
+ "learning_rate": 6.741294420175927e-05,
666
+ "loss": 0.6103,
667
+ "step": 940
668
+ },
669
+ {
670
+ "epoch": 0.8326029798422436,
671
+ "grad_norm": 1.7513461112976074,
672
+ "learning_rate": 6.681631425069566e-05,
673
+ "loss": 0.5696,
674
+ "step": 950
675
+ },
676
+ {
677
+ "epoch": 0.8413672217353199,
678
+ "grad_norm": 2.508164405822754,
679
+ "learning_rate": 6.621744483793715e-05,
680
+ "loss": 0.653,
681
+ "step": 960
682
+ },
683
+ {
684
+ "epoch": 0.8501314636283961,
685
+ "grad_norm": 1.9786324501037598,
686
+ "learning_rate": 6.56164494629288e-05,
687
+ "loss": 0.635,
688
+ "step": 970
689
+ },
690
+ {
691
+ "epoch": 0.8588957055214724,
692
+ "grad_norm": 1.8781009912490845,
693
+ "learning_rate": 6.501344202803414e-05,
694
+ "loss": 0.7071,
695
+ "step": 980
696
+ },
697
+ {
698
+ "epoch": 0.8676599474145487,
699
+ "grad_norm": 1.819648027420044,
700
+ "learning_rate": 6.440853681694801e-05,
701
+ "loss": 0.5952,
702
+ "step": 990
703
+ },
704
+ {
705
+ "epoch": 0.8764241893076249,
706
+ "grad_norm": 1.8697113990783691,
707
+ "learning_rate": 6.380184847303727e-05,
708
+ "loss": 0.6179,
709
+ "step": 1000
710
+ },
711
+ {
712
+ "epoch": 0.8851884312007011,
713
+ "grad_norm": 1.6153459548950195,
714
+ "learning_rate": 6.319349197761317e-05,
715
+ "loss": 0.6071,
716
+ "step": 1010
717
+ },
718
+ {
719
+ "epoch": 0.8939526730937774,
720
+ "grad_norm": 1.5980494022369385,
721
+ "learning_rate": 6.25835826281398e-05,
722
+ "loss": 0.588,
723
+ "step": 1020
724
+ },
725
+ {
726
+ "epoch": 0.9027169149868537,
727
+ "grad_norm": 1.509323239326477,
728
+ "learning_rate": 6.197223601638266e-05,
729
+ "loss": 0.6636,
730
+ "step": 1030
731
+ },
732
+ {
733
+ "epoch": 0.9114811568799299,
734
+ "grad_norm": 1.91567862033844,
735
+ "learning_rate": 6.135956800650128e-05,
736
+ "loss": 0.6727,
737
+ "step": 1040
738
+ },
739
+ {
740
+ "epoch": 0.9202453987730062,
741
+ "grad_norm": 1.7963509559631348,
742
+ "learning_rate": 6.074569471309032e-05,
743
+ "loss": 0.5768,
744
+ "step": 1050
745
+ },
746
+ {
747
+ "epoch": 0.9290096406660824,
748
+ "grad_norm": 1.8217496871948242,
749
+ "learning_rate": 6.013073247917326e-05,
750
+ "loss": 0.6243,
751
+ "step": 1060
752
+ },
753
+ {
754
+ "epoch": 0.9377738825591586,
755
+ "grad_norm": 1.648887276649475,
756
+ "learning_rate": 5.951479785415266e-05,
757
+ "loss": 0.6717,
758
+ "step": 1070
759
+ },
760
+ {
761
+ "epoch": 0.9465381244522348,
762
+ "grad_norm": 1.668747067451477,
763
+ "learning_rate": 5.889800757172146e-05,
764
+ "loss": 0.5823,
765
+ "step": 1080
766
+ },
767
+ {
768
+ "epoch": 0.9553023663453112,
769
+ "grad_norm": 2.224945545196533,
770
+ "learning_rate": 5.8280478527739235e-05,
771
+ "loss": 0.6203,
772
+ "step": 1090
773
+ },
774
+ {
775
+ "epoch": 0.9640666082383874,
776
+ "grad_norm": NaN,
777
+ "learning_rate": 5.7724167474641534e-05,
778
+ "loss": 0.6271,
779
+ "step": 1100
780
+ },
781
+ {
782
+ "epoch": 0.9728308501314636,
783
+ "grad_norm": 2.2267634868621826,
784
+ "learning_rate": 5.7105557315385284e-05,
785
+ "loss": 0.6614,
786
+ "step": 1110
787
+ },
788
+ {
789
+ "epoch": 0.9815950920245399,
790
+ "grad_norm": 1.7963807582855225,
791
+ "learning_rate": 5.6486548104880555e-05,
792
+ "loss": 0.7113,
793
+ "step": 1120
794
+ },
795
+ {
796
+ "epoch": 0.9903593339176161,
797
+ "grad_norm": 2.0616729259490967,
798
+ "learning_rate": 5.586725715952452e-05,
799
+ "loss": 0.6077,
800
+ "step": 1130
801
+ },
802
+ {
803
+ "epoch": 0.9991235758106923,
804
+ "grad_norm": 1.7366951704025269,
805
+ "learning_rate": 5.5247801849109526e-05,
806
+ "loss": 0.634,
807
+ "step": 1140
808
+ },
809
+ {
810
+ "epoch": 1.0078878177037687,
811
+ "grad_norm": 1.4753001928329468,
812
+ "learning_rate": 5.462829957457888e-05,
813
+ "loss": 0.44,
814
+ "step": 1150
815
+ },
816
+ {
817
+ "epoch": 1.016652059596845,
818
+ "grad_norm": 1.493257999420166,
819
+ "learning_rate": 5.400886774577667e-05,
820
+ "loss": 0.3635,
821
+ "step": 1160
822
+ },
823
+ {
824
+ "epoch": 1.0254163014899211,
825
+ "grad_norm": 1.7157448530197144,
826
+ "learning_rate": 5.338962375919589e-05,
827
+ "loss": 0.3525,
828
+ "step": 1170
829
+ },
830
+ {
831
+ "epoch": 1.0341805433829974,
832
+ "grad_norm": 1.7190569639205933,
833
+ "learning_rate": 5.277068497572914e-05,
834
+ "loss": 0.3751,
835
+ "step": 1180
836
+ },
837
+ {
838
+ "epoch": 1.0429447852760736,
839
+ "grad_norm": 1.5113599300384521,
840
+ "learning_rate": 5.215216869842604e-05,
841
+ "loss": 0.3857,
842
+ "step": 1190
843
+ },
844
+ {
845
+ "epoch": 1.0517090271691498,
846
+ "grad_norm": 1.6809605360031128,
847
+ "learning_rate": 5.1534192150261676e-05,
848
+ "loss": 0.3611,
849
+ "step": 1200
850
+ },
851
+ {
852
+ "epoch": 1.060473269062226,
853
+ "grad_norm": 1.6623985767364502,
854
+ "learning_rate": 5.091687245192006e-05,
855
+ "loss": 0.3558,
856
+ "step": 1210
857
+ },
858
+ {
859
+ "epoch": 1.0692375109553023,
860
+ "grad_norm": 2.009783983230591,
861
+ "learning_rate": 5.030032659959722e-05,
862
+ "loss": 0.3654,
863
+ "step": 1220
864
+ },
865
+ {
866
+ "epoch": 1.0780017528483785,
867
+ "grad_norm": 1.6117240190505981,
868
+ "learning_rate": 4.968467144282759e-05,
869
+ "loss": 0.3715,
870
+ "step": 1230
871
+ },
872
+ {
873
+ "epoch": 1.086765994741455,
874
+ "grad_norm": 1.3283199071884155,
875
+ "learning_rate": 4.9070023662338523e-05,
876
+ "loss": 0.3736,
877
+ "step": 1240
878
+ },
879
+ {
880
+ "epoch": 1.0955302366345312,
881
+ "grad_norm": 1.8791778087615967,
882
+ "learning_rate": 4.8456499747936465e-05,
883
+ "loss": 0.4082,
884
+ "step": 1250
885
+ },
886
+ {
887
+ "epoch": 1.1042944785276074,
888
+ "grad_norm": 1.7714508771896362,
889
+ "learning_rate": 4.7844215976429576e-05,
890
+ "loss": 0.3743,
891
+ "step": 1260
892
+ },
893
+ {
894
+ "epoch": 1.1130587204206837,
895
+ "grad_norm": 1.773903489112854,
896
+ "learning_rate": 4.723328838959057e-05,
897
+ "loss": 0.3858,
898
+ "step": 1270
899
+ },
900
+ {
901
+ "epoch": 1.1218229623137599,
902
+ "grad_norm": 1.4871599674224854,
903
+ "learning_rate": 4.662383277216418e-05,
904
+ "loss": 0.3486,
905
+ "step": 1280
906
+ },
907
+ {
908
+ "epoch": 1.1305872042068361,
909
+ "grad_norm": 1.3975831270217896,
910
+ "learning_rate": 4.601596462992326e-05,
911
+ "loss": 0.3657,
912
+ "step": 1290
913
+ },
914
+ {
915
+ "epoch": 1.1393514460999123,
916
+ "grad_norm": 1.5370299816131592,
917
+ "learning_rate": 4.540979916777783e-05,
918
+ "loss": 0.3371,
919
+ "step": 1300
920
+ },
921
+ {
922
+ "epoch": 1.1481156879929886,
923
+ "grad_norm": 1.5495011806488037,
924
+ "learning_rate": 4.480545126794115e-05,
925
+ "loss": 0.3357,
926
+ "step": 1310
927
+ },
928
+ {
929
+ "epoch": 1.1568799298860648,
930
+ "grad_norm": 1.694589376449585,
931
+ "learning_rate": 4.420303546815678e-05,
932
+ "loss": 0.3645,
933
+ "step": 1320
934
+ },
935
+ {
936
+ "epoch": 1.165644171779141,
937
+ "grad_norm": 1.985825777053833,
938
+ "learning_rate": 4.360266593999124e-05,
939
+ "loss": 0.3546,
940
+ "step": 1330
941
+ },
942
+ {
943
+ "epoch": 1.1744084136722173,
944
+ "grad_norm": 1.5808460712432861,
945
+ "learning_rate": 4.300445646719573e-05,
946
+ "loss": 0.3638,
947
+ "step": 1340
948
+ },
949
+ {
950
+ "epoch": 1.1831726555652935,
951
+ "grad_norm": 1.7759652137756348,
952
+ "learning_rate": 4.240852042414162e-05,
953
+ "loss": 0.4059,
954
+ "step": 1350
955
+ },
956
+ {
957
+ "epoch": 1.19193689745837,
958
+ "grad_norm": 1.7563869953155518,
959
+ "learning_rate": 4.181497075433334e-05,
960
+ "loss": 0.3446,
961
+ "step": 1360
962
+ },
963
+ {
964
+ "epoch": 1.2007011393514462,
965
+ "grad_norm": 1.9143909215927124,
966
+ "learning_rate": 4.1223919949003045e-05,
967
+ "loss": 0.3487,
968
+ "step": 1370
969
+ },
970
+ {
971
+ "epoch": 1.2094653812445224,
972
+ "grad_norm": 1.8407511711120605,
973
+ "learning_rate": 4.0635480025790926e-05,
974
+ "loss": 0.3649,
975
+ "step": 1380
976
+ },
977
+ {
978
+ "epoch": 1.2182296231375986,
979
+ "grad_norm": 1.7706880569458008,
980
+ "learning_rate": 4.0049762507515355e-05,
981
+ "loss": 0.3612,
982
+ "step": 1390
983
+ },
984
+ {
985
+ "epoch": 1.2269938650306749,
986
+ "grad_norm": 1.0870561599731445,
987
+ "learning_rate": 3.9466878401036686e-05,
988
+ "loss": 0.3401,
989
+ "step": 1400
990
+ },
991
+ {
992
+ "epoch": 1.235758106923751,
993
+ "grad_norm": 1.91828453540802,
994
+ "learning_rate": 3.8886938176219024e-05,
995
+ "loss": 0.3327,
996
+ "step": 1410
997
+ },
998
+ {
999
+ "epoch": 1.2445223488168273,
1000
+ "grad_norm": 1.61056649684906,
1001
+ "learning_rate": 3.8310051744993514e-05,
1002
+ "loss": 0.3386,
1003
+ "step": 1420
1004
+ },
1005
+ {
1006
+ "epoch": 1.2532865907099036,
1007
+ "grad_norm": 2.071869373321533,
1008
+ "learning_rate": 3.773632844052767e-05,
1009
+ "loss": 0.363,
1010
+ "step": 1430
1011
+ },
1012
+ {
1013
+ "epoch": 1.2620508326029798,
1014
+ "grad_norm": 1.671288251876831,
1015
+ "learning_rate": 3.7165876996504125e-05,
1016
+ "loss": 0.3828,
1017
+ "step": 1440
1018
+ },
1019
+ {
1020
+ "epoch": 1.270815074496056,
1021
+ "grad_norm": 1.8811005353927612,
1022
+ "learning_rate": 3.659880552651317e-05,
1023
+ "loss": 0.3551,
1024
+ "step": 1450
1025
+ },
1026
+ {
1027
+ "epoch": 1.2795793163891322,
1028
+ "grad_norm": 1.5208740234375,
1029
+ "learning_rate": 3.6035221503562775e-05,
1030
+ "loss": 0.3566,
1031
+ "step": 1460
1032
+ },
1033
+ {
1034
+ "epoch": 1.2883435582822087,
1035
+ "grad_norm": 1.7736235857009888,
1036
+ "learning_rate": 3.547523173970989e-05,
1037
+ "loss": 0.3629,
1038
+ "step": 1470
1039
+ },
1040
+ {
1041
+ "epoch": 1.2971078001752847,
1042
+ "grad_norm": 1.6049748659133911,
1043
+ "learning_rate": 3.491894236581728e-05,
1044
+ "loss": 0.3359,
1045
+ "step": 1480
1046
+ },
1047
+ {
1048
+ "epoch": 1.3058720420683612,
1049
+ "grad_norm": 1.4260120391845703,
1050
+ "learning_rate": 3.436645881143918e-05,
1051
+ "loss": 0.3758,
1052
+ "step": 1490
1053
+ },
1054
+ {
1055
+ "epoch": 1.3146362839614374,
1056
+ "grad_norm": 1.9971890449523926,
1057
+ "learning_rate": 3.3817885784839986e-05,
1058
+ "loss": 0.314,
1059
+ "step": 1500
1060
+ },
1061
+ {
1062
+ "epoch": 1.3234005258545136,
1063
+ "grad_norm": 1.7832164764404297,
1064
+ "learning_rate": 3.327332725314974e-05,
1065
+ "loss": 0.3901,
1066
+ "step": 1510
1067
+ },
1068
+ {
1069
+ "epoch": 1.3321647677475899,
1070
+ "grad_norm": 1.6533173322677612,
1071
+ "learning_rate": 3.273288642265985e-05,
1072
+ "loss": 0.3324,
1073
+ "step": 1520
1074
+ },
1075
+ {
1076
+ "epoch": 1.340929009640666,
1077
+ "grad_norm": 1.5945855379104614,
1078
+ "learning_rate": 3.2196665719263266e-05,
1079
+ "loss": 0.3435,
1080
+ "step": 1530
1081
+ },
1082
+ {
1083
+ "epoch": 1.3496932515337423,
1084
+ "grad_norm": 1.51680588722229,
1085
+ "learning_rate": 3.166476676904235e-05,
1086
+ "loss": 0.3714,
1087
+ "step": 1540
1088
+ },
1089
+ {
1090
+ "epoch": 1.3584574934268185,
1091
+ "grad_norm": 1.6684399843215942,
1092
+ "learning_rate": 3.113729037900843e-05,
1093
+ "loss": 0.333,
1094
+ "step": 1550
1095
+ },
1096
+ {
1097
+ "epoch": 1.3672217353198948,
1098
+ "grad_norm": 1.5105247497558594,
1099
+ "learning_rate": 3.0614336517996576e-05,
1100
+ "loss": 0.3615,
1101
+ "step": 1560
1102
+ },
1103
+ {
1104
+ "epoch": 1.375985977212971,
1105
+ "grad_norm": 2.113157272338867,
1106
+ "learning_rate": 3.0096004297719205e-05,
1107
+ "loss": 0.3002,
1108
+ "step": 1570
1109
+ },
1110
+ {
1111
+ "epoch": 1.3847502191060475,
1112
+ "grad_norm": 1.1173641681671143,
1113
+ "learning_rate": 2.958239195398217e-05,
1114
+ "loss": 0.3571,
1115
+ "step": 1580
1116
+ },
1117
+ {
1118
+ "epoch": 1.3935144609991235,
1119
+ "grad_norm": 1.4548070430755615,
1120
+ "learning_rate": 2.90735968280668e-05,
1121
+ "loss": 0.3252,
1122
+ "step": 1590
1123
+ },
1124
+ {
1125
+ "epoch": 1.4022787028922,
1126
+ "grad_norm": 1.7521406412124634,
1127
+ "learning_rate": 2.8569715348281547e-05,
1128
+ "loss": 0.3409,
1129
+ "step": 1600
1130
+ },
1131
+ {
1132
+ "epoch": 1.4110429447852761,
1133
+ "grad_norm": 1.7292704582214355,
1134
+ "learning_rate": 2.807084301168652e-05,
1135
+ "loss": 0.3282,
1136
+ "step": 1610
1137
+ },
1138
+ {
1139
+ "epoch": 1.4198071866783524,
1140
+ "grad_norm": 1.7453776597976685,
1141
+ "learning_rate": 2.7577074365994747e-05,
1142
+ "loss": 0.3217,
1143
+ "step": 1620
1144
+ },
1145
+ {
1146
+ "epoch": 1.4285714285714286,
1147
+ "grad_norm": 2.02482271194458,
1148
+ "learning_rate": 2.70885029916531e-05,
1149
+ "loss": 0.3355,
1150
+ "step": 1630
1151
+ },
1152
+ {
1153
+ "epoch": 1.4373356704645048,
1154
+ "grad_norm": 1.927150845527649,
1155
+ "learning_rate": 2.660522148410675e-05,
1156
+ "loss": 0.3528,
1157
+ "step": 1640
1158
+ },
1159
+ {
1160
+ "epoch": 1.446099912357581,
1161
+ "grad_norm": 1.5125665664672852,
1162
+ "learning_rate": 2.6127321436250117e-05,
1163
+ "loss": 0.3355,
1164
+ "step": 1650
1165
+ },
1166
+ {
1167
+ "epoch": 1.4548641542506573,
1168
+ "grad_norm": 1.771646499633789,
1169
+ "learning_rate": 2.565489342106805e-05,
1170
+ "loss": 0.3375,
1171
+ "step": 1660
1172
+ },
1173
+ {
1174
+ "epoch": 1.4636283961437335,
1175
+ "grad_norm": 2.540931463241577,
1176
+ "learning_rate": 2.518802697447003e-05,
1177
+ "loss": 0.3601,
1178
+ "step": 1670
1179
+ },
1180
+ {
1181
+ "epoch": 1.4723926380368098,
1182
+ "grad_norm": 1.5853700637817383,
1183
+ "learning_rate": 2.472681057832121e-05,
1184
+ "loss": 0.3207,
1185
+ "step": 1680
1186
+ },
1187
+ {
1188
+ "epoch": 1.481156879929886,
1189
+ "grad_norm": 2.11691951751709,
1190
+ "learning_rate": 2.427133164367296e-05,
1191
+ "loss": 0.3357,
1192
+ "step": 1690
1193
+ },
1194
+ {
1195
+ "epoch": 1.4899211218229622,
1196
+ "grad_norm": 1.55061674118042,
1197
+ "learning_rate": 2.3821676494196572e-05,
1198
+ "loss": 0.3314,
1199
+ "step": 1700
1200
+ },
1201
+ {
1202
+ "epoch": 1.4986853637160387,
1203
+ "grad_norm": 1.5113292932510376,
1204
+ "learning_rate": 2.3377930349822856e-05,
1205
+ "loss": 0.3162,
1206
+ "step": 1710
1207
+ },
1208
+ {
1209
+ "epoch": 1.5074496056091147,
1210
+ "grad_norm": 2.0338950157165527,
1211
+ "learning_rate": 2.2940177310591113e-05,
1212
+ "loss": 0.3693,
1213
+ "step": 1720
1214
+ },
1215
+ {
1216
+ "epoch": 1.5162138475021911,
1217
+ "grad_norm": 2.0127060413360596,
1218
+ "learning_rate": 2.250850034071016e-05,
1219
+ "loss": 0.324,
1220
+ "step": 1730
1221
+ },
1222
+ {
1223
+ "epoch": 1.5249780893952674,
1224
+ "grad_norm": 1.9195280075073242,
1225
+ "learning_rate": 2.20829812528348e-05,
1226
+ "loss": 0.3559,
1227
+ "step": 1740
1228
+ },
1229
+ {
1230
+ "epoch": 1.5337423312883436,
1231
+ "grad_norm": 1.6400375366210938,
1232
+ "learning_rate": 2.1663700692560373e-05,
1233
+ "loss": 0.3371,
1234
+ "step": 1750
1235
+ },
1236
+ {
1237
+ "epoch": 1.5425065731814198,
1238
+ "grad_norm": 1.9201463460922241,
1239
+ "learning_rate": 2.1250738123138665e-05,
1240
+ "loss": 0.3536,
1241
+ "step": 1760
1242
+ },
1243
+ {
1244
+ "epoch": 1.551270815074496,
1245
+ "grad_norm": 1.8780487775802612,
1246
+ "learning_rate": 2.084417181041769e-05,
1247
+ "loss": 0.3829,
1248
+ "step": 1770
1249
+ },
1250
+ {
1251
+ "epoch": 1.5600350569675723,
1252
+ "grad_norm": 1.8463397026062012,
1253
+ "learning_rate": 2.0444078808008655e-05,
1254
+ "loss": 0.3431,
1255
+ "step": 1780
1256
+ },
1257
+ {
1258
+ "epoch": 1.5687992988606485,
1259
+ "grad_norm": 1.8080838918685913,
1260
+ "learning_rate": 2.005053494268241e-05,
1261
+ "loss": 0.3748,
1262
+ "step": 1790
1263
+ },
1264
+ {
1265
+ "epoch": 1.577563540753725,
1266
+ "grad_norm": 1.9387633800506592,
1267
+ "learning_rate": 1.9663614799998635e-05,
1268
+ "loss": 0.3586,
1269
+ "step": 1800
1270
+ },
1271
+ {
1272
+ "epoch": 1.586327782646801,
1273
+ "grad_norm": 1.7084999084472656,
1274
+ "learning_rate": 1.928339171017015e-05,
1275
+ "loss": 0.357,
1276
+ "step": 1810
1277
+ },
1278
+ {
1279
+ "epoch": 1.5950920245398774,
1280
+ "grad_norm": 2.1515519618988037,
1281
+ "learning_rate": 1.8909937734165107e-05,
1282
+ "loss": 0.3333,
1283
+ "step": 1820
1284
+ },
1285
+ {
1286
+ "epoch": 1.6038562664329534,
1287
+ "grad_norm": 1.4635021686553955,
1288
+ "learning_rate": 1.8543323650049864e-05,
1289
+ "loss": 0.3337,
1290
+ "step": 1830
1291
+ },
1292
+ {
1293
+ "epoch": 1.6126205083260299,
1294
+ "grad_norm": 1.7444740533828735,
1295
+ "learning_rate": 1.8183618939574904e-05,
1296
+ "loss": 0.3686,
1297
+ "step": 1840
1298
+ },
1299
+ {
1300
+ "epoch": 1.6213847502191059,
1301
+ "grad_norm": 1.587889552116394,
1302
+ "learning_rate": 1.7830891775006396e-05,
1303
+ "loss": 0.3167,
1304
+ "step": 1850
1305
+ },
1306
+ {
1307
+ "epoch": 1.6301489921121823,
1308
+ "grad_norm": 1.9329102039337158,
1309
+ "learning_rate": 1.748520900620609e-05,
1310
+ "loss": 0.3349,
1311
+ "step": 1860
1312
+ },
1313
+ {
1314
+ "epoch": 1.6389132340052586,
1315
+ "grad_norm": 1.610293984413147,
1316
+ "learning_rate": 1.714663614796167e-05,
1317
+ "loss": 0.3841,
1318
+ "step": 1870
1319
+ },
1320
+ {
1321
+ "epoch": 1.6476774758983348,
1322
+ "grad_norm": 1.9500341415405273,
1323
+ "learning_rate": 1.6815237367570197e-05,
1324
+ "loss": 0.3575,
1325
+ "step": 1880
1326
+ },
1327
+ {
1328
+ "epoch": 1.656441717791411,
1329
+ "grad_norm": 1.717809796333313,
1330
+ "learning_rate": 1.6491075472677016e-05,
1331
+ "loss": 0.2917,
1332
+ "step": 1890
1333
+ },
1334
+ {
1335
+ "epoch": 1.6652059596844873,
1336
+ "grad_norm": 1.2370789051055908,
1337
+ "learning_rate": 1.6174211899372175e-05,
1338
+ "loss": 0.3535,
1339
+ "step": 1900
1340
+ },
1341
+ {
1342
+ "epoch": 1.6739702015775635,
1343
+ "grad_norm": 1.6636922359466553,
1344
+ "learning_rate": 1.5864706700546955e-05,
1345
+ "loss": 0.3242,
1346
+ "step": 1910
1347
+ },
1348
+ {
1349
+ "epoch": 1.6827344434706397,
1350
+ "grad_norm": 1.3746954202651978,
1351
+ "learning_rate": 1.5562618534512428e-05,
1352
+ "loss": 0.3463,
1353
+ "step": 1920
1354
+ },
1355
+ {
1356
+ "epoch": 1.6914986853637162,
1357
+ "grad_norm": 1.9031116962432861,
1358
+ "learning_rate": 1.5268004653882406e-05,
1359
+ "loss": 0.3448,
1360
+ "step": 1930
1361
+ },
1362
+ {
1363
+ "epoch": 1.7002629272567922,
1364
+ "grad_norm": 1.8231595754623413,
1365
+ "learning_rate": 1.4980920894722692e-05,
1366
+ "loss": 0.3327,
1367
+ "step": 1940
1368
+ },
1369
+ {
1370
+ "epoch": 1.7090271691498686,
1371
+ "grad_norm": 2.2330541610717773,
1372
+ "learning_rate": 1.4701421665969001e-05,
1373
+ "loss": 0.344,
1374
+ "step": 1950
1375
+ },
1376
+ {
1377
+ "epoch": 1.7177914110429446,
1378
+ "grad_norm": 1.5624206066131592,
1379
+ "learning_rate": 1.442955993911505e-05,
1380
+ "loss": 0.3194,
1381
+ "step": 1960
1382
+ },
1383
+ {
1384
+ "epoch": 1.726555652936021,
1385
+ "grad_norm": 1.7255851030349731,
1386
+ "learning_rate": 1.4165387238173399e-05,
1387
+ "loss": 0.3122,
1388
+ "step": 1970
1389
+ },
1390
+ {
1391
+ "epoch": 1.7353198948290973,
1392
+ "grad_norm": 1.7800745964050293,
1393
+ "learning_rate": 1.3908953629910376e-05,
1394
+ "loss": 0.3005,
1395
+ "step": 1980
1396
+ },
1397
+ {
1398
+ "epoch": 1.7440841367221736,
1399
+ "grad_norm": 2.472658395767212,
1400
+ "learning_rate": 1.3660307714357338e-05,
1401
+ "loss": 0.3571,
1402
+ "step": 1990
1403
+ },
1404
+ {
1405
+ "epoch": 1.7528483786152498,
1406
+ "grad_norm": 1.6620064973831177,
1407
+ "learning_rate": 1.3419496615599805e-05,
1408
+ "loss": 0.3522,
1409
+ "step": 2000
1410
+ },
1411
+ {
1412
+ "epoch": 1.761612620508326,
1413
+ "grad_norm": 1.5490673780441284,
1414
+ "learning_rate": 1.318656597284643e-05,
1415
+ "loss": 0.2967,
1416
+ "step": 2010
1417
+ },
1418
+ {
1419
+ "epoch": 1.7703768624014022,
1420
+ "grad_norm": 2.1536474227905273,
1421
+ "learning_rate": 1.2961559931779257e-05,
1422
+ "loss": 0.3703,
1423
+ "step": 2020
1424
+ },
1425
+ {
1426
+ "epoch": 1.7791411042944785,
1427
+ "grad_norm": 1.490907073020935,
1428
+ "learning_rate": 1.274452113618716e-05,
1429
+ "loss": 0.3076,
1430
+ "step": 2030
1431
+ },
1432
+ {
1433
+ "epoch": 1.787905346187555,
1434
+ "grad_norm": 1.4357167482376099,
1435
+ "learning_rate": 1.2535490719883835e-05,
1436
+ "loss": 0.3265,
1437
+ "step": 2040
1438
+ },
1439
+ {
1440
+ "epoch": 1.796669588080631,
1441
+ "grad_norm": 1.5666704177856445,
1442
+ "learning_rate": 1.233450829891203e-05,
1443
+ "loss": 0.324,
1444
+ "step": 2050
1445
+ },
1446
+ {
1447
+ "epoch": 1.8054338299737074,
1448
+ "grad_norm": 1.3453813791275024,
1449
+ "learning_rate": 1.2141611964035366e-05,
1450
+ "loss": 0.2977,
1451
+ "step": 2060
1452
+ },
1453
+ {
1454
+ "epoch": 1.8141980718667834,
1455
+ "grad_norm": 1.782593011856079,
1456
+ "learning_rate": 1.195683827351931e-05,
1457
+ "loss": 0.2795,
1458
+ "step": 2070
1459
+ },
1460
+ {
1461
+ "epoch": 1.8229623137598598,
1462
+ "grad_norm": 1.9441533088684082,
1463
+ "learning_rate": 1.1780222246202494e-05,
1464
+ "loss": 0.3166,
1465
+ "step": 2080
1466
+ },
1467
+ {
1468
+ "epoch": 1.831726555652936,
1469
+ "grad_norm": 1.778911828994751,
1470
+ "learning_rate": 1.1611797354859892e-05,
1471
+ "loss": 0.3493,
1472
+ "step": 2090
1473
+ },
1474
+ {
1475
+ "epoch": 1.8404907975460123,
1476
+ "grad_norm": 1.7141963243484497,
1477
+ "learning_rate": 1.145159551985894e-05,
1478
+ "loss": 0.3313,
1479
+ "step": 2100
1480
+ },
1481
+ {
1482
+ "epoch": 1.8492550394390885,
1483
+ "grad_norm": 3.3165926933288574,
1484
+ "learning_rate": 1.1299647103109908e-05,
1485
+ "loss": 0.356,
1486
+ "step": 2110
1487
+ },
1488
+ {
1489
+ "epoch": 1.8580192813321648,
1490
+ "grad_norm": 1.787851095199585,
1491
+ "learning_rate": 1.11559809023116e-05,
1492
+ "loss": 0.3219,
1493
+ "step": 2120
1494
+ },
1495
+ {
1496
+ "epoch": 1.866783523225241,
1497
+ "grad_norm": 1.7090057134628296,
1498
+ "learning_rate": 1.1020624145493572e-05,
1499
+ "loss": 0.3445,
1500
+ "step": 2130
1501
+ },
1502
+ {
1503
+ "epoch": 1.8755477651183172,
1504
+ "grad_norm": 1.5748744010925293,
1505
+ "learning_rate": 1.0893602485855766e-05,
1506
+ "loss": 0.3253,
1507
+ "step": 2140
1508
+ },
1509
+ {
1510
+ "epoch": 1.8843120070113937,
1511
+ "grad_norm": 1.9979685544967651,
1512
+ "learning_rate": 1.0774939996906644e-05,
1513
+ "loss": 0.3177,
1514
+ "step": 2150
1515
+ },
1516
+ {
1517
+ "epoch": 1.8930762489044697,
1518
+ "grad_norm": 1.936296820640564,
1519
+ "learning_rate": 1.0664659167900723e-05,
1520
+ "loss": 0.3304,
1521
+ "step": 2160
1522
+ },
1523
+ {
1524
+ "epoch": 1.9018404907975461,
1525
+ "grad_norm": 1.8121618032455444,
1526
+ "learning_rate": 1.0562780899576344e-05,
1527
+ "loss": 0.3493,
1528
+ "step": 2170
1529
+ },
1530
+ {
1531
+ "epoch": 1.9106047326906221,
1532
+ "grad_norm": 1.6870180368423462,
1533
+ "learning_rate": 1.046932450019448e-05,
1534
+ "loss": 0.328,
1535
+ "step": 2180
1536
+ },
1537
+ {
1538
+ "epoch": 1.9193689745836986,
1539
+ "grad_norm": 2.0619869232177734,
1540
+ "learning_rate": 1.0384307681879428e-05,
1541
+ "loss": 0.3845,
1542
+ "step": 2190
1543
+ },
1544
+ {
1545
+ "epoch": 1.9281332164767746,
1546
+ "grad_norm": 2.1429038047790527,
1547
+ "learning_rate": 1.030774655726191e-05,
1548
+ "loss": 0.3143,
1549
+ "step": 2200
1550
+ },
1551
+ {
1552
+ "epoch": 1.936897458369851,
1553
+ "grad_norm": 1.9444646835327148,
1554
+ "learning_rate": 1.0239655636425374e-05,
1555
+ "loss": 0.3135,
1556
+ "step": 2210
1557
+ },
1558
+ {
1559
+ "epoch": 1.9456617002629273,
1560
+ "grad_norm": 1.6065791845321655,
1561
+ "learning_rate": 1.0180047824156011e-05,
1562
+ "loss": 0.3142,
1563
+ "step": 2220
1564
+ },
1565
+ {
1566
+ "epoch": 1.9544259421560035,
1567
+ "grad_norm": 2.215041160583496,
1568
+ "learning_rate": 1.0128934417497004e-05,
1569
+ "loss": 0.3234,
1570
+ "step": 2230
1571
+ },
1572
+ {
1573
+ "epoch": 1.9631901840490797,
1574
+ "grad_norm": 1.766499638557434,
1575
+ "learning_rate": 1.008632510360747e-05,
1576
+ "loss": 0.3395,
1577
+ "step": 2240
1578
+ },
1579
+ {
1580
+ "epoch": 1.971954425942156,
1581
+ "grad_norm": 2.355278491973877,
1582
+ "learning_rate": 1.0052227957926518e-05,
1583
+ "loss": 0.3476,
1584
+ "step": 2250
1585
+ },
1586
+ {
1587
+ "epoch": 1.9807186678352322,
1588
+ "grad_norm": 1.6923573017120361,
1589
+ "learning_rate": 1.0026649442642785e-05,
1590
+ "loss": 0.386,
1591
+ "step": 2260
1592
+ },
1593
+ {
1594
+ "epoch": 1.9894829097283084,
1595
+ "grad_norm": 1.454087495803833,
1596
+ "learning_rate": 1.0009594405469695e-05,
1597
+ "loss": 0.3059,
1598
+ "step": 2270
1599
+ },
1600
+ {
1601
+ "epoch": 1.9982471516213849,
1602
+ "grad_norm": 1.5868600606918335,
1603
+ "learning_rate": 1.0001066078726703e-05,
1604
+ "loss": 0.3474,
1605
+ "step": 2280
1606
+ }
1607
+ ],
1608
+ "logging_steps": 10,
1609
+ "max_steps": 2282,
1610
+ "num_input_tokens_seen": 0,
1611
+ "num_train_epochs": 2,
1612
+ "save_steps": 500,
1613
+ "stateful_callbacks": {
1614
+ "TrainerControl": {
1615
+ "args": {
1616
+ "should_epoch_stop": false,
1617
+ "should_evaluate": false,
1618
+ "should_log": false,
1619
+ "should_save": true,
1620
+ "should_training_stop": true
1621
+ },
1622
+ "attributes": {}
1623
+ }
1624
+ },
1625
+ "total_flos": 2.7769146165323366e+17,
1626
+ "train_batch_size": 2,
1627
+ "trial_name": null,
1628
+ "trial_params": null
1629
+ }