talargv commited on
Commit
4b63790
·
verified ·
1 Parent(s): 46d0cef

End of training

Browse files
Files changed (1) hide show
  1. trainer_state.json +39 -39
trainer_state.json CHANGED
@@ -10,96 +10,96 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.32,
13
- "grad_norm": 26.471220016479492,
14
- "learning_rate": 0.00018333333333333334,
15
- "loss": 9.5727,
16
  "step": 2
17
  },
18
  {
19
  "epoch": 0.64,
20
- "grad_norm": 52.892364501953125,
21
- "learning_rate": 0.0001666666666666667,
22
- "loss": 9.6492,
23
  "step": 4
24
  },
25
  {
26
  "epoch": 0.96,
27
- "grad_norm": 2.5865585803985596,
28
- "learning_rate": 0.00015000000000000001,
29
- "loss": 8.3693,
30
  "step": 6
31
  },
32
  {
33
  "epoch": 1.16,
34
- "grad_norm": 29.650924682617188,
35
- "learning_rate": 0.00013333333333333334,
36
- "loss": 4.9614,
37
  "step": 8
38
  },
39
  {
40
  "epoch": 1.48,
41
- "grad_norm": 6.928927421569824,
42
- "learning_rate": 0.00011666666666666668,
43
- "loss": 7.4481,
44
  "step": 10
45
  },
46
  {
47
  "epoch": 1.8,
48
- "grad_norm": 1.0928006172180176,
49
- "learning_rate": 0.0001,
50
- "loss": 7.3035,
51
  "step": 12
52
  },
53
  {
54
  "epoch": 2.0,
55
- "grad_norm": 0.3634219169616699,
56
- "learning_rate": 8.333333333333334e-05,
57
- "loss": 4.5095,
58
  "step": 14
59
  },
60
  {
61
  "epoch": 2.32,
62
- "grad_norm": 0.8974616527557373,
63
- "learning_rate": 6.666666666666667e-05,
64
- "loss": 7.2127,
65
  "step": 16
66
  },
67
  {
68
  "epoch": 2.64,
69
- "grad_norm": 0.7144686579704285,
70
- "learning_rate": 5e-05,
71
- "loss": 7.0878,
72
  "step": 18
73
  },
74
  {
75
  "epoch": 2.96,
76
- "grad_norm": 1.3277981281280518,
77
- "learning_rate": 3.3333333333333335e-05,
78
- "loss": 7.1811,
79
  "step": 20
80
  },
81
  {
82
  "epoch": 3.16,
83
- "grad_norm": 3.701362371444702,
84
- "learning_rate": 1.6666666666666667e-05,
85
- "loss": 4.4298,
86
  "step": 22
87
  },
88
  {
89
  "epoch": 3.48,
90
- "grad_norm": 0.4517309069633484,
91
  "learning_rate": 0.0,
92
- "loss": 7.0788,
93
  "step": 24
94
  },
95
  {
96
  "epoch": 3.48,
97
  "step": 24,
98
  "total_flos": 8125245367344.0,
99
- "train_loss": 7.066981116930644,
100
- "train_runtime": 65.5109,
101
- "train_samples_per_second": 6.106,
102
- "train_steps_per_second": 0.366
103
  }
104
  ],
105
  "logging_steps": 2,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.32,
13
+ "grad_norm": 20.783666610717773,
14
+ "learning_rate": 9.166666666666667e-05,
15
+ "loss": 9.056,
16
  "step": 2
17
  },
18
  {
19
  "epoch": 0.64,
20
+ "grad_norm": 8.394305229187012,
21
+ "learning_rate": 8.333333333333334e-05,
22
+ "loss": 7.8186,
23
  "step": 4
24
  },
25
  {
26
  "epoch": 0.96,
27
+ "grad_norm": 118.83284759521484,
28
+ "learning_rate": 7.500000000000001e-05,
29
+ "loss": 7.813,
30
  "step": 6
31
  },
32
  {
33
  "epoch": 1.16,
34
+ "grad_norm": 2.4560327529907227,
35
+ "learning_rate": 6.666666666666667e-05,
36
+ "loss": 4.6111,
37
  "step": 8
38
  },
39
  {
40
  "epoch": 1.48,
41
+ "grad_norm": 1.5673390626907349,
42
+ "learning_rate": 5.833333333333334e-05,
43
+ "loss": 7.3,
44
  "step": 10
45
  },
46
  {
47
  "epoch": 1.8,
48
+ "grad_norm": 0.7503612637519836,
49
+ "learning_rate": 5e-05,
50
+ "loss": 7.2109,
51
  "step": 12
52
  },
53
  {
54
  "epoch": 2.0,
55
+ "grad_norm": 0.3985859155654907,
56
+ "learning_rate": 4.166666666666667e-05,
57
+ "loss": 4.4783,
58
  "step": 14
59
  },
60
  {
61
  "epoch": 2.32,
62
+ "grad_norm": 0.75257807970047,
63
+ "learning_rate": 3.3333333333333335e-05,
64
+ "loss": 7.1595,
65
  "step": 16
66
  },
67
  {
68
  "epoch": 2.64,
69
+ "grad_norm": 0.9470282793045044,
70
+ "learning_rate": 2.5e-05,
71
+ "loss": 7.0686,
72
  "step": 18
73
  },
74
  {
75
  "epoch": 2.96,
76
+ "grad_norm": 0.8260803818702698,
77
+ "learning_rate": 1.6666666666666667e-05,
78
+ "loss": 7.1408,
79
  "step": 20
80
  },
81
  {
82
  "epoch": 3.16,
83
+ "grad_norm": 0.8250037431716919,
84
+ "learning_rate": 8.333333333333334e-06,
85
+ "loss": 4.3964,
86
  "step": 22
87
  },
88
  {
89
  "epoch": 3.48,
90
+ "grad_norm": 0.704397976398468,
91
  "learning_rate": 0.0,
92
+ "loss": 7.0209,
93
  "step": 24
94
  },
95
  {
96
  "epoch": 3.48,
97
  "step": 24,
98
  "total_flos": 8125245367344.0,
99
+ "train_loss": 6.756168842315674,
100
+ "train_runtime": 57.8175,
101
+ "train_samples_per_second": 6.918,
102
+ "train_steps_per_second": 0.415
103
  }
104
  ],
105
  "logging_steps": 2,