huggingartists

Browse files

Files changed (9) hide show

README.md +3 -3
evaluation.txt +1 -1
flax_model.msgpack +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +555 -7
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -45,15 +45,15 @@ from datasets import load_dataset
 dataset = load_dataset("huggingartists/eminem")
 ```
-[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/3vyhlfuj/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
-Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/29qv0yjk) for full transparency and reproducibility.
-At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/29qv0yjk/artifacts) is logged and versioned.
 ## How to use

 dataset = load_dataset("huggingartists/eminem")
 ```
+[Explore the data](https://wandb.ai/huggingartists/huggingartists/runs/2bthi2l5/artifacts), which is tracked with [W&B artifacts](https://docs.wandb.com/artifacts) at every step of the pipeline.
 ## Training procedure
 The model is based on a pre-trained [GPT-2](https://huggingface.co/gpt2) which is fine-tuned on Eminem's lyrics.
+Hyperparameters and metrics are recorded in the [W&B training run](https://wandb.ai/huggingartists/huggingartists/runs/3uhe3l4p) for full transparency and reproducibility.
+At the end of training, [the final model](https://wandb.ai/huggingartists/huggingartists/runs/3uhe3l4p/artifacts) is logged and versioned.
 ## How to use

evaluation.txt CHANGED Viewed

	@@ -1 +1 @@
1	- {"eval_loss": 0.~~35109472274780273~~, "eval_runtime": 8.~~1668~~, "eval_samples_per_second": 79.~~468~~, "eval_steps_per_second": 10.~~041~~, "epoch": 4.0}


1	+ {"eval_loss": 0.3138461709022522, "eval_runtime": 8.6668, "eval_samples_per_second": 75.807, "eval_steps_per_second": 9.577, "epoch": 3.0}

flax_model.msgpack CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77eb14c79cb2a1839ef83e89dabfbca6a13cf667b42155e6211552f568d34d99
 size 497764120

 version https://git-lfs.github.com/spec/v1
+oid sha256:aba2c0bb0c3662b61d1856691077cc0d163acb0938b223223d7c572850acac13
 size 497764120

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49ee24b7eeefd9382a5d69681377406fc17a86239130d305a3c32d66c0de7e9f
 size 995604017

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4a55d17f06b4ab806d9383635f0ea345b6c6b980efee1e356aa139b263acedb
 size 995604017

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f94f8138bf7564362fb1893b47fb3f1b93fb4c1141a08d2dc4c8b39f4f415875
 size 510403817

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bf77abb0b419d0393b5e919f584b77b776cafea3e38f56bd317c366e1ca56ae
 size 510403817

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5aaa7394186e44bfed168bda1b9b3966abf49f07e4265b546969c50f28b323c
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:84e11f89bd0e9088ead15625532c1b43e0a1cd35766796070671df9c7727ef78
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f0f3b6d5a1b49c53892342cd8dc811d589851467e92bd74def559d80c7786917
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a107dfc2c0a514694de57c3e884ece4223234fff3b17fb14fe84e93ad0ed41a7
 size 623

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.35109472274780273,
-  "best_model_checkpoint": "output/eminem/checkpoint-908",
-  "epoch": 2.0,
-  "global_step": 908,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1108,11 +1108,559 @@
       "eval_samples_per_second": 81.33,
       "eval_steps_per_second": 10.276,
       "step": 908
     }
   ],
-  "max_steps": 1816,
-  "num_train_epochs": 4,
-  "total_flos": 947967492096000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3138461709022522,
+  "best_model_checkpoint": "output/eminem/checkpoint-1359",
+  "epoch": 3.0,
+  "global_step": 1359,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 81.33,
       "eval_steps_per_second": 10.276,
       "step": 908
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.30995090154817e-06,
+      "loss": 0.4526,
+      "step": 910
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.0541855162378925e-05,
+      "loss": 0.5261,
+      "step": 915
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 1.1843560639183314e-05,
+      "loss": 0.5046,
+      "step": 920
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.321350233836306e-05,
+      "loss": 0.6349,
+      "step": 925
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 1.4650033228364816e-05,
+      "loss": 0.5519,
+      "step": 930
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 1.615142621984976e-05,
+      "loss": 0.6092,
+      "step": 935
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.7715876242113545e-05,
+      "loss": 0.5618,
+      "step": 940
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.9341502413255598e-05,
+      "loss": 0.5784,
+      "step": 945
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 2.10263503014928e-05,
+      "loss": 0.6022,
+      "step": 950
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 2.2768394274904872e-05,
+      "loss": 0.5783,
+      "step": 955
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 2.4565539936783126e-05,
+      "loss": 0.551,
+      "step": 960
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 2.6415626643638117e-05,
+      "loss": 0.524,
+      "step": 965
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 2.8316430102875185e-05,
+      "loss": 0.5542,
+      "step": 970
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 3.026566504696925e-05,
+      "loss": 0.5175,
+      "step": 975
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 3.226098798097204e-05,
+      "loss": 0.5524,
+      "step": 980
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 3.4300000000000576e-05,
+      "loss": 0.6188,
+      "step": 985
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 3.638024967335875e-05,
+      "loss": 0.5017,
+      "step": 990
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.8499235991807596e-05,
+      "loss": 0.5877,
+      "step": 995
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 4.065441137443541e-05,
+      "loss": 0.4836,
+      "step": 1000
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 4.2843184731518815e-05,
+      "loss": 0.4962,
+      "step": 1005
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 4.506292457970005e-05,
+      "loss": 0.5619,
+      "step": 1010
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 4.731096220573011e-05,
+      "loss": 0.5061,
+      "step": 1015
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 4.9584594874953847e-05,
+      "loss": 0.5603,
+      "step": 1020
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 5.188108908072324e-05,
+      "loss": 0.6256,
+      "step": 1025
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 5.419768383078854e-05,
+      "loss": 0.5088,
+      "step": 1030
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 5.653159396673597e-05,
+      "loss": 0.5927,
+      "step": 1035
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 5.888001351248702e-05,
+      "loss": 0.5919,
+      "step": 1040
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.124011904782824e-05,
+      "loss": 0.5993,
+      "step": 1045
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.36090731028942e-05,
+      "loss": 0.5514,
+      "step": 1050
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.598402756957074e-05,
+      "loss": 0.6111,
+      "step": 1055
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.836212712565718e-05,
+      "loss": 0.5716,
+      "step": 1060
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 7.074051266773294e-05,
+      "loss": 0.5673,
+      "step": 1065
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.311632474854093e-05,
+      "loss": 0.6117,
+      "step": 1070
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 7.54867070148039e-05,
+      "loss": 0.5824,
+      "step": 1075
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 7.784880964131884e-05,
+      "loss": 0.5873,
+      "step": 1080
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 8.019979275719533e-05,
+      "loss": 0.6133,
+      "step": 1085
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 8.253682986012616e-05,
+      "loss": 0.6222,
+      "step": 1090
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 8.485711121459308e-05,
+      "loss": 0.5468,
+      "step": 1095
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 8.715784722991633e-05,
+      "loss": 0.5227,
+      "step": 1100
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 8.943627181406567e-05,
+      "loss": 0.5709,
+      "step": 1105
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 9.168964569924647e-05,
+      "loss": 0.6087,
+      "step": 1110
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 9.391525973521692e-05,
+      "loss": 0.5605,
+      "step": 1115
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 9.611043814639816e-05,
+      "loss": 0.6505,
+      "step": 1120
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 9.827254174886847e-05,
+      "loss": 0.5743,
+      "step": 1125
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 0.00010039897112335537,
+      "loss": 0.5898,
+      "step": 1130
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.000102487169740429,
+      "loss": 0.5651,
+      "step": 1135
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.00010453462703412173,
+      "loss": 0.5988,
+      "step": 1140
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 0.00010653888142028633,
+      "loss": 0.6178,
+      "step": 1145
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.00010849752325608153,
+      "loss": 0.5959,
+      "step": 1150
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.00011040819773698719,
+      "loss": 0.6657,
+      "step": 1155
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.00011226860772790607,
+      "loss": 0.6,
+      "step": 1160
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.0001140765165249296,
+      "loss": 0.554,
+      "step": 1165
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.00011582975054444297,
+      "loss": 0.5723,
+      "step": 1170
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.00011752620193634387,
+      "loss": 0.6071,
+      "step": 1175
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.00011916383111823773,
+      "loss": 0.5496,
+      "step": 1180
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00012074066922755797,
+      "loss": 0.6531,
+      "step": 1185
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.00012225482048864924,
+      "loss": 0.6045,
+      "step": 1190
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00012370446449200064,
+      "loss": 0.6114,
+      "step": 1195
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 0.00012508785838284846,
+      "loss": 0.6003,
+      "step": 1200
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0001264033389565572,
+      "loss": 0.6637,
+      "step": 1205
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.00012764932465822253,
+      "loss": 0.6116,
+      "step": 1210
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.00012882431748412055,
+      "loss": 0.6878,
+      "step": 1215
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 0.00012992690478271,
+      "loss": 0.5817,
+      "step": 1220
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0001309557609530009,
+      "loss": 0.6061,
+      "step": 1225
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0001319096490382838,
+      "loss": 0.6419,
+      "step": 1230
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 0.00013278742221327952,
+      "loss": 0.5573,
+      "step": 1235
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 0.0001335880251629203,
+      "loss": 0.6822,
+      "step": 1240
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 0.0001343104953511231,
+      "loss": 0.6704,
+      "step": 1245
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 0.00013495396417800677,
+      "loss": 0.6309,
+      "step": 1250
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 0.00013551765802418287,
+      "loss": 0.5814,
+      "step": 1255
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 0.0001360008991808469,
+      "loss": 0.6252,
+      "step": 1260
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.00013640310666456482,
+      "loss": 0.6373,
+      "step": 1265
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.00013672379691576902,
+      "loss": 0.6937,
+      "step": 1270
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 0.0001369625843801236,
+      "loss": 0.6196,
+      "step": 1275
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0001371191819720623,
+      "loss": 0.6718,
+      "step": 1280
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.0001371934014199418,
+      "loss": 0.6286,
+      "step": 1285
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.00013718515349239374,
+      "loss": 0.6942,
+      "step": 1290
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.00013709444810560437,
+      "loss": 0.7029,
+      "step": 1295
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.00013692139431139254,
+      "loss": 0.6829,
+      "step": 1300
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.00013666620016610043,
+      "loss": 0.6676,
+      "step": 1305
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.0001363291724804556,
+      "loss": 0.6491,
+      "step": 1310
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.00013591071645070298,
+      "loss": 0.6058,
+      "step": 1315
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00013541133517145257,
+      "loss": 0.6635,
+      "step": 1320
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00013483162903082574,
+      "loss": 0.6435,
+      "step": 1325
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00013417229498863067,
+      "loss": 0.6009,
+      "step": 1330
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 0.00013343412573843465,
+      "loss": 0.6296,
+      "step": 1335
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.0001326180087545332,
+      "loss": 0.585,
+      "step": 1340
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00013172492522497574,
+      "loss": 0.6359,
+      "step": 1345
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.00013075594887191708,
+      "loss": 0.5417,
+      "step": 1350
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0001297122446607181,
+      "loss": 0.7232,
+      "step": 1355
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.3138461709022522,
+      "eval_runtime": 8.6365,
+      "eval_samples_per_second": 76.072,
+      "eval_steps_per_second": 9.61,
+      "step": 1359
     }
   ],
+  "max_steps": 1359,
+  "num_train_epochs": 3,
+  "total_flos": 1418815733760000.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:769876172d3c301363495fd900823b0065ee854650122c8c61f1ed321cfbfd85
-size 2991

 version https://git-lfs.github.com/spec/v1
+oid sha256:98b32292e517517120715d4e5ca63a376048fb88acff6625af239bf56bc4ec8d
+size 3055