commit from Mikivis

Browse files

Files changed (12) hide show

README copy.md +57 -0
all_results.json +8 -0
config.json +39 -0
generation_config.json +6 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +6 -0
tokenizer.json +0 -0
tokenizer_config.json +9 -0
train_results.json +8 -0
trainer_state.json +2320 -0
vocab.json +0 -0

README copy.md ADDED Viewed

	@@ -0,0 +1,57 @@

+---
+base_model: output_models/gpt2-large-news2
+tags:
+- generated_from_trainer
+datasets:
+- customized
+model-index:
+- name: gpt2-large-imdb3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gpt2-large-imdb3
+This model is a fine-tuned version of [output_models/gpt2-large-news2](https://huggingface.co/output_models/gpt2-large-news2) on the customized dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0003
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 6
+- total_train_batch_size: 6
+- total_eval_batch_size: 48
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+### Framework versions
+- Transformers 4.32.1
+- Pytorch 2.0.1+cu117
+- Datasets 2.10.1
+- Tokenizers 0.13.3

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.20408990072201288,
+    "train_runtime": 3001.4526,
+    "train_samples": 15311,
+    "train_samples_per_second": 15.304,
+    "train_steps_per_second": 2.551
+}

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "output_models/gpt2-large-news2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1280,
+  "n_head": 20,
+  "n_inner": null,
+  "n_layer": 36,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float16",
+  "transformers_version": "4.32.1",
+  "use_cache": true,
+  "vocab_size": 50257
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.32.1"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f08c06071c4ffcbcec65be8b75bfa6980004ae929a01aba1acb3f139446ab5ed
+size 1548202525

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.20408990072201288,
+    "train_runtime": 3001.4526,
+    "train_samples": 15311,
+    "train_samples_per_second": 15.304,
+    "train_steps_per_second": 2.551
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2320 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 7656,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.00029937304075235106,
+      "loss": 9.3164,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00029858934169278993,
+      "loss": 0.6489,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0002978056426332288,
+      "loss": 0.4228,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00029706112852664575,
+      "loss": 0.427,
+      "step": 80
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0002962774294670846,
+      "loss": 0.3268,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0002954937304075235,
+      "loss": 0.3841,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029471003134796237,
+      "loss": 0.3046,
+      "step": 140
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002939263322884012,
+      "loss": 0.4293,
+      "step": 160
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0002931426332288401,
+      "loss": 0.1906,
+      "step": 180
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000292358934169279,
+      "loss": 0.2197,
+      "step": 200
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00029157523510971785,
+      "loss": 0.2151,
+      "step": 220
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0002907915360501567,
+      "loss": 0.6428,
+      "step": 240
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0002900078369905956,
+      "loss": 0.3158,
+      "step": 260
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00028922413793103447,
+      "loss": 0.2448,
+      "step": 280
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00028844043887147334,
+      "loss": 0.3035,
+      "step": 300
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002876567398119122,
+      "loss": 0.3505,
+      "step": 320
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0002868730407523511,
+      "loss": 0.3061,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00028608934169278995,
+      "loss": 0.3133,
+      "step": 360
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002853056426332288,
+      "loss": 0.262,
+      "step": 380
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0002845219435736677,
+      "loss": 0.2784,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00028373824451410657,
+      "loss": 0.2731,
+      "step": 420
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028295454545454544,
+      "loss": 0.3788,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0002821708463949843,
+      "loss": 0.3265,
+      "step": 460
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0002813871473354232,
+      "loss": 0.2334,
+      "step": 480
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00028060344827586205,
+      "loss": 0.1356,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0002798197492163009,
+      "loss": 0.2673,
+      "step": 520
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0002790360501567398,
+      "loss": 0.2849,
+      "step": 540
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00027825235109717867,
+      "loss": 0.2471,
+      "step": 560
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002775078369905956,
+      "loss": 0.3119,
+      "step": 580
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002767241379310345,
+      "loss": 0.1796,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0002759404388714733,
+      "loss": 0.3145,
+      "step": 620
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0002751567398119122,
+      "loss": 0.1611,
+      "step": 640
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0002743730407523511,
+      "loss": 0.3529,
+      "step": 660
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002735893416927899,
+      "loss": 0.3456,
+      "step": 680
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0002728056426332288,
+      "loss": 0.3491,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0002720219435736677,
+      "loss": 0.195,
+      "step": 720
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002712382445141066,
+      "loss": 0.2192,
+      "step": 740
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0002704545454545454,
+      "loss": 0.1739,
+      "step": 760
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00026967084639498433,
+      "loss": 0.2026,
+      "step": 780
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0002688871473354232,
+      "loss": 0.233,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.000268103448275862,
+      "loss": 0.2002,
+      "step": 820
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0002673197492163009,
+      "loss": 0.231,
+      "step": 840
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002665360501567398,
+      "loss": 0.3921,
+      "step": 860
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0002657523510971787,
+      "loss": 0.1925,
+      "step": 880
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002649686520376175,
+      "loss": 0.3552,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00026418495297805643,
+      "loss": 0.2267,
+      "step": 920
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002634012539184953,
+      "loss": 0.3534,
+      "step": 940
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0002626175548589341,
+      "loss": 0.2003,
+      "step": 960
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.000261833855799373,
+      "loss": 0.346,
+      "step": 980
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0002610501567398119,
+      "loss": 0.2765,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0002602664576802508,
+      "loss": 0.2413,
+      "step": 1020
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0002594827586206896,
+      "loss": 0.2363,
+      "step": 1040
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00025869905956112853,
+      "loss": 0.1967,
+      "step": 1060
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0002579153605015674,
+      "loss": 0.1554,
+      "step": 1080
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0002571316614420062,
+      "loss": 0.2252,
+      "step": 1100
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0002563479623824451,
+      "loss": 0.181,
+      "step": 1120
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000255564263322884,
+      "loss": 0.2059,
+      "step": 1140
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0002547805642633229,
+      "loss": 0.277,
+      "step": 1160
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0002539968652037617,
+      "loss": 0.2648,
+      "step": 1180
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00025321316614420063,
+      "loss": 0.2366,
+      "step": 1200
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0002524294670846395,
+      "loss": 0.2848,
+      "step": 1220
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002516457680250783,
+      "loss": 0.1687,
+      "step": 1240
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0002508620689655172,
+      "loss": 0.1719,
+      "step": 1260
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0002500783699059561,
+      "loss": 0.2022,
+      "step": 1280
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000249294670846395,
+      "loss": 0.2323,
+      "step": 1300
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002485109717868338,
+      "loss": 0.3167,
+      "step": 1320
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002477272727272727,
+      "loss": 0.3036,
+      "step": 1340
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0002469435736677116,
+      "loss": 0.2246,
+      "step": 1360
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00024615987460815047,
+      "loss": 0.2255,
+      "step": 1380
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0002453761755485893,
+      "loss": 0.1319,
+      "step": 1400
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0002445924764890282,
+      "loss": 0.3164,
+      "step": 1420
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00024380877742946706,
+      "loss": 0.2751,
+      "step": 1440
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00024302507836990593,
+      "loss": 0.2745,
+      "step": 1460
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00024224137931034483,
+      "loss": 0.175,
+      "step": 1480
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00024145768025078367,
+      "loss": 0.2505,
+      "step": 1500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00024067398119122254,
+      "loss": 0.1579,
+      "step": 1520
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00023989028213166144,
+      "loss": 0.252,
+      "step": 1540
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0002391065830721003,
+      "loss": 0.2399,
+      "step": 1560
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00023832288401253915,
+      "loss": 0.2055,
+      "step": 1580
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023753918495297803,
+      "loss": 0.1904,
+      "step": 1600
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00023675548589341692,
+      "loss": 0.2144,
+      "step": 1620
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00023597178683385577,
+      "loss": 0.3134,
+      "step": 1640
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00023518808777429464,
+      "loss": 0.2602,
+      "step": 1660
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00023440438871473354,
+      "loss": 0.2455,
+      "step": 1680
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0002336206896551724,
+      "loss": 0.1987,
+      "step": 1700
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00023283699059561125,
+      "loss": 0.2623,
+      "step": 1720
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00023205329153605013,
+      "loss": 0.1964,
+      "step": 1740
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00023126959247648902,
+      "loss": 0.1326,
+      "step": 1760
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00023048589341692787,
+      "loss": 0.1879,
+      "step": 1780
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00022970219435736674,
+      "loss": 0.2028,
+      "step": 1800
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00022891849529780564,
+      "loss": 0.2501,
+      "step": 1820
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0002281347962382445,
+      "loss": 0.1488,
+      "step": 1840
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00022735109717868335,
+      "loss": 0.4818,
+      "step": 1860
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00022660658307210028,
+      "loss": 0.2238,
+      "step": 1880
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00022582288401253918,
+      "loss": 0.1812,
+      "step": 1900
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00022503918495297805,
+      "loss": 0.2077,
+      "step": 1920
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0002242554858934169,
+      "loss": 0.3253,
+      "step": 1940
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0002234717868338558,
+      "loss": 0.1034,
+      "step": 1960
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00022268808777429466,
+      "loss": 0.2807,
+      "step": 1980
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0002219043887147335,
+      "loss": 0.1279,
+      "step": 2000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00022112068965517238,
+      "loss": 0.1633,
+      "step": 2020
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00022033699059561128,
+      "loss": 0.2746,
+      "step": 2040
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002195924764890282,
+      "loss": 0.3271,
+      "step": 2060
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00021880877742946704,
+      "loss": 0.1907,
+      "step": 2080
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00021802507836990594,
+      "loss": 0.2101,
+      "step": 2100
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00021724137931034481,
+      "loss": 0.2494,
+      "step": 2120
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00021645768025078366,
+      "loss": 0.2288,
+      "step": 2140
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00021567398119122256,
+      "loss": 0.3093,
+      "step": 2160
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00021489028213166143,
+      "loss": 0.287,
+      "step": 2180
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002141065830721003,
+      "loss": 0.2078,
+      "step": 2200
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021332288401253914,
+      "loss": 0.137,
+      "step": 2220
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00021253918495297804,
+      "loss": 0.1099,
+      "step": 2240
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0002117554858934169,
+      "loss": 0.3843,
+      "step": 2260
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00021097178683385578,
+      "loss": 0.199,
+      "step": 2280
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00021018808777429466,
+      "loss": 0.1634,
+      "step": 2300
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00020940438871473353,
+      "loss": 0.1847,
+      "step": 2320
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0002086206896551724,
+      "loss": 0.204,
+      "step": 2340
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00020783699059561124,
+      "loss": 0.2773,
+      "step": 2360
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00020705329153605014,
+      "loss": 0.2178,
+      "step": 2380
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.000206269592476489,
+      "loss": 0.1345,
+      "step": 2400
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00020548589341692788,
+      "loss": 0.2335,
+      "step": 2420
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020470219435736675,
+      "loss": 0.1762,
+      "step": 2440
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.00020391849529780563,
+      "loss": 0.2742,
+      "step": 2460
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002031347962382445,
+      "loss": 0.1933,
+      "step": 2480
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00020235109717868334,
+      "loss": 0.2898,
+      "step": 2500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00020156739811912224,
+      "loss": 0.1313,
+      "step": 2520
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002007836990595611,
+      "loss": 0.3002,
+      "step": 2540
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00019999999999999998,
+      "loss": 0.1799,
+      "step": 2560
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00019921630094043885,
+      "loss": 0.1533,
+      "step": 2580
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00019843260188087773,
+      "loss": 0.1459,
+      "step": 2600
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001976489028213166,
+      "loss": 0.0983,
+      "step": 2620
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.00019686520376175544,
+      "loss": 0.1414,
+      "step": 2640
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.00019608150470219434,
+      "loss": 0.0895,
+      "step": 2660
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0001952978056426332,
+      "loss": 0.2354,
+      "step": 2680
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00019451410658307208,
+      "loss": 0.2174,
+      "step": 2700
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019373040752351098,
+      "loss": 0.1436,
+      "step": 2720
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00019294670846394982,
+      "loss": 0.2649,
+      "step": 2740
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0001921630094043887,
+      "loss": 0.0636,
+      "step": 2760
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001913793103448276,
+      "loss": 0.1868,
+      "step": 2780
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00019059561128526644,
+      "loss": 0.1904,
+      "step": 2800
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0001898119122257053,
+      "loss": 0.1308,
+      "step": 2820
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00018902821316614418,
+      "loss": 0.137,
+      "step": 2840
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018824451410658308,
+      "loss": 0.254,
+      "step": 2860
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.00018746081504702192,
+      "loss": 0.0717,
+      "step": 2880
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001866771159874608,
+      "loss": 0.2269,
+      "step": 2900
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001858934169278997,
+      "loss": 0.1747,
+      "step": 2920
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00018510971786833854,
+      "loss": 0.1203,
+      "step": 2940
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001843260188087774,
+      "loss": 0.1848,
+      "step": 2960
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00018354231974921628,
+      "loss": 0.1007,
+      "step": 2980
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018275862068965518,
+      "loss": 0.1569,
+      "step": 3000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00018197492163009402,
+      "loss": 0.1591,
+      "step": 3020
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001811912225705329,
+      "loss": 0.1572,
+      "step": 3040
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0001804075235109718,
+      "loss": 0.2005,
+      "step": 3060
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00017962382445141064,
+      "loss": 0.3693,
+      "step": 3080
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001788401253918495,
+      "loss": 0.08,
+      "step": 3100
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017805642633228838,
+      "loss": 0.1186,
+      "step": 3120
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00017727272727272728,
+      "loss": 0.256,
+      "step": 3140
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00017648902821316612,
+      "loss": 0.1547,
+      "step": 3160
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.000175705329153605,
+      "loss": 0.1491,
+      "step": 3180
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0001749216300940439,
+      "loss": 0.1137,
+      "step": 3200
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00017417711598746082,
+      "loss": 0.1857,
+      "step": 3220
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00017343260188087771,
+      "loss": 0.1474,
+      "step": 3240
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001726489028213166,
+      "loss": 0.1827,
+      "step": 3260
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00017186520376175548,
+      "loss": 0.1498,
+      "step": 3280
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00017108150470219433,
+      "loss": 0.1766,
+      "step": 3300
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001702978056426332,
+      "loss": 0.1888,
+      "step": 3320
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0001695141065830721,
+      "loss": 0.1367,
+      "step": 3340
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00016873040752351097,
+      "loss": 0.2071,
+      "step": 3360
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001679467084639498,
+      "loss": 0.1605,
+      "step": 3380
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0001671630094043887,
+      "loss": 0.1768,
+      "step": 3400
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00016637931034482758,
+      "loss": 0.2244,
+      "step": 3420
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00016559561128526643,
+      "loss": 0.2388,
+      "step": 3440
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001648119122257053,
+      "loss": 0.1979,
+      "step": 3460
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0001640282131661442,
+      "loss": 0.1179,
+      "step": 3480
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.00016324451410658307,
+      "loss": 0.1413,
+      "step": 3500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001624608150470219,
+      "loss": 0.1248,
+      "step": 3520
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0001616771159874608,
+      "loss": 0.1114,
+      "step": 3540
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00016089341692789968,
+      "loss": 0.1776,
+      "step": 3560
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016010971786833853,
+      "loss": 0.1801,
+      "step": 3580
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0001593260188087774,
+      "loss": 0.1853,
+      "step": 3600
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0001585423197492163,
+      "loss": 0.1798,
+      "step": 3620
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.00015775862068965517,
+      "loss": 0.1472,
+      "step": 3640
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.000156974921630094,
+      "loss": 0.1527,
+      "step": 3660
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0001561912225705329,
+      "loss": 0.2139,
+      "step": 3680
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015540752351097178,
+      "loss": 0.2081,
+      "step": 3700
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00015462382445141065,
+      "loss": 0.1635,
+      "step": 3720
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001538401253918495,
+      "loss": 0.1296,
+      "step": 3740
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001530564263322884,
+      "loss": 0.2432,
+      "step": 3760
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00015227272727272727,
+      "loss": 0.1605,
+      "step": 3780
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0001514890282131661,
+      "loss": 0.1522,
+      "step": 3800
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.000150705329153605,
+      "loss": 0.2146,
+      "step": 3820
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00014992163009404388,
+      "loss": 0.1325,
+      "step": 3840
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014913793103448275,
+      "loss": 0.1809,
+      "step": 3860
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.00014835423197492162,
+      "loss": 0.2366,
+      "step": 3880
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0001475705329153605,
+      "loss": 0.1686,
+      "step": 3900
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014678683385579936,
+      "loss": 0.1913,
+      "step": 3920
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00014600313479623824,
+      "loss": 0.2187,
+      "step": 3940
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0001452194357366771,
+      "loss": 0.1026,
+      "step": 3960
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00014443573667711598,
+      "loss": 0.1551,
+      "step": 3980
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014365203761755485,
+      "loss": 0.1526,
+      "step": 4000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00014286833855799372,
+      "loss": 0.2024,
+      "step": 4020
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001420846394984326,
+      "loss": 0.2133,
+      "step": 4040
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.00014130094043887146,
+      "loss": 0.1891,
+      "step": 4060
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00014051724137931033,
+      "loss": 0.2113,
+      "step": 4080
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0001397335423197492,
+      "loss": 0.1349,
+      "step": 4100
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00013894984326018808,
+      "loss": 0.1737,
+      "step": 4120
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013816614420062695,
+      "loss": 0.1878,
+      "step": 4140
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013738244514106582,
+      "loss": 0.1075,
+      "step": 4160
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0001365987460815047,
+      "loss": 0.1632,
+      "step": 4180
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013581504702194356,
+      "loss": 0.2316,
+      "step": 4200
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013503134796238243,
+      "loss": 0.1983,
+      "step": 4220
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001342476489028213,
+      "loss": 0.1181,
+      "step": 4240
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00013346394984326018,
+      "loss": 0.2729,
+      "step": 4260
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013268025078369905,
+      "loss": 0.1313,
+      "step": 4280
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.00013189655172413792,
+      "loss": 0.1696,
+      "step": 4300
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001311128526645768,
+      "loss": 0.1411,
+      "step": 4320
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00013032915360501566,
+      "loss": 0.2312,
+      "step": 4340
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012954545454545453,
+      "loss": 0.1416,
+      "step": 4360
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001287617554858934,
+      "loss": 0.2549,
+      "step": 4380
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.00012797805642633228,
+      "loss": 0.1749,
+      "step": 4400
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.00012719435736677115,
+      "loss": 0.2696,
+      "step": 4420
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012641065830721002,
+      "loss": 0.1975,
+      "step": 4440
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0001256269592476489,
+      "loss": 0.1476,
+      "step": 4460
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00012484326018808776,
+      "loss": 0.2008,
+      "step": 4480
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00012405956112852663,
+      "loss": 0.2124,
+      "step": 4500
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001232758620689655,
+      "loss": 0.1659,
+      "step": 4520
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012249216300940437,
+      "loss": 0.2319,
+      "step": 4540
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012170846394984326,
+      "loss": 0.1808,
+      "step": 4560
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00012092476489028212,
+      "loss": 0.2603,
+      "step": 4580
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00012014106583072099,
+      "loss": 0.1362,
+      "step": 4600
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00011935736677115986,
+      "loss": 0.2084,
+      "step": 4620
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.00011857366771159873,
+      "loss": 0.1471,
+      "step": 4640
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011778996865203762,
+      "loss": 0.1076,
+      "step": 4660
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011700626959247647,
+      "loss": 0.0918,
+      "step": 4680
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011622257053291536,
+      "loss": 0.1091,
+      "step": 4700
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00011543887147335422,
+      "loss": 0.1519,
+      "step": 4720
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0001146551724137931,
+      "loss": 0.2513,
+      "step": 4740
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011387147335423196,
+      "loss": 0.1536,
+      "step": 4760
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0001131269592476489,
+      "loss": 0.1891,
+      "step": 4780
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00011234326018808777,
+      "loss": 0.0574,
+      "step": 4800
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.00011155956112852663,
+      "loss": 0.259,
+      "step": 4820
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011077586206896551,
+      "loss": 0.1945,
+      "step": 4840
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00010999216300940437,
+      "loss": 0.1294,
+      "step": 4860
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.00010920846394984325,
+      "loss": 0.1014,
+      "step": 4880
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010842476489028212,
+      "loss": 0.0663,
+      "step": 4900
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.000107641065830721,
+      "loss": 0.099,
+      "step": 4920
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010685736677115987,
+      "loss": 0.1683,
+      "step": 4940
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.00010607366771159873,
+      "loss": 0.1132,
+      "step": 4960
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010528996865203761,
+      "loss": 0.1154,
+      "step": 4980
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.0001045062695924765,
+      "loss": 0.136,
+      "step": 5000
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0001037617554858934,
+      "loss": 0.2297,
+      "step": 5020
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00010297805642633228,
+      "loss": 0.1343,
+      "step": 5040
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010219435736677115,
+      "loss": 0.3136,
+      "step": 5060
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010141065830721002,
+      "loss": 0.1132,
+      "step": 5080
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00010062695924764889,
+      "loss": 0.1865,
+      "step": 5100
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.984326018808776e-05,
+      "loss": 0.2079,
+      "step": 5120
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 9.905956112852665e-05,
+      "loss": 0.1729,
+      "step": 5140
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 9.82758620689655e-05,
+      "loss": 0.142,
+      "step": 5160
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.749216300940439e-05,
+      "loss": 0.0524,
+      "step": 5180
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.670846394984325e-05,
+      "loss": 0.0875,
+      "step": 5200
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.592476489028212e-05,
+      "loss": 0.1345,
+      "step": 5220
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.5141065830721e-05,
+      "loss": 0.0688,
+      "step": 5240
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.435736677115986e-05,
+      "loss": 0.0485,
+      "step": 5260
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 9.357366771159875e-05,
+      "loss": 0.1336,
+      "step": 5280
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.27899686520376e-05,
+      "loss": 0.1525,
+      "step": 5300
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.200626959247649e-05,
+      "loss": 0.1442,
+      "step": 5320
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.122257053291535e-05,
+      "loss": 0.1454,
+      "step": 5340
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.043887147335422e-05,
+      "loss": 0.1166,
+      "step": 5360
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 8.96551724137931e-05,
+      "loss": 0.1235,
+      "step": 5380
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.887147335423196e-05,
+      "loss": 0.1546,
+      "step": 5400
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 8.808777429467085e-05,
+      "loss": 0.0918,
+      "step": 5420
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 8.73040752351097e-05,
+      "loss": 0.1139,
+      "step": 5440
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 8.652037617554859e-05,
+      "loss": 0.221,
+      "step": 5460
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.573667711598745e-05,
+      "loss": 0.1642,
+      "step": 5480
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.495297805642633e-05,
+      "loss": 0.0719,
+      "step": 5500
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 8.41692789968652e-05,
+      "loss": 0.1752,
+      "step": 5520
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.338557993730406e-05,
+      "loss": 0.1411,
+      "step": 5540
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.260188087774294e-05,
+      "loss": 0.1365,
+      "step": 5560
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.18181818181818e-05,
+      "loss": 0.0842,
+      "step": 5580
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 8.103448275862069e-05,
+      "loss": 0.0808,
+      "step": 5600
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.025078369905956e-05,
+      "loss": 0.275,
+      "step": 5620
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.946708463949843e-05,
+      "loss": 0.0826,
+      "step": 5640
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 7.86833855799373e-05,
+      "loss": 0.1477,
+      "step": 5660
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.789968652037616e-05,
+      "loss": 0.1992,
+      "step": 5680
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 7.711598746081504e-05,
+      "loss": 0.072,
+      "step": 5700
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 7.63322884012539e-05,
+      "loss": 0.2665,
+      "step": 5720
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 7.554858934169279e-05,
+      "loss": 0.0666,
+      "step": 5740
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.476489028213166e-05,
+      "loss": 0.1025,
+      "step": 5760
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 7.398119122257053e-05,
+      "loss": 0.1525,
+      "step": 5780
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.31974921630094e-05,
+      "loss": 0.1185,
+      "step": 5800
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 7.241379310344827e-05,
+      "loss": 0.0992,
+      "step": 5820
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.163009404388714e-05,
+      "loss": 0.1003,
+      "step": 5840
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.084639498432601e-05,
+      "loss": 0.1288,
+      "step": 5860
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.006269592476489e-05,
+      "loss": 0.0728,
+      "step": 5880
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 6.927899686520376e-05,
+      "loss": 0.1613,
+      "step": 5900
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 6.849529780564263e-05,
+      "loss": 0.1145,
+      "step": 5920
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.77115987460815e-05,
+      "loss": 0.0648,
+      "step": 5940
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.692789968652037e-05,
+      "loss": 0.0885,
+      "step": 5960
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 6.614420062695924e-05,
+      "loss": 0.1085,
+      "step": 5980
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.536050156739811e-05,
+      "loss": 0.1053,
+      "step": 6000
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 6.457680250783698e-05,
+      "loss": 0.1352,
+      "step": 6020
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.379310344827586e-05,
+      "loss": 0.0973,
+      "step": 6040
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 6.300940438871473e-05,
+      "loss": 0.142,
+      "step": 6060
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 6.22257053291536e-05,
+      "loss": 0.1304,
+      "step": 6080
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.144200626959247e-05,
+      "loss": 0.0908,
+      "step": 6100
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 6.065830721003134e-05,
+      "loss": 0.1432,
+      "step": 6120
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.987460815047021e-05,
+      "loss": 0.1487,
+      "step": 6140
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 5.909090909090908e-05,
+      "loss": 0.0856,
+      "step": 6160
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.8307210031347955e-05,
+      "loss": 0.0748,
+      "step": 6180
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 5.752351097178683e-05,
+      "loss": 0.1992,
+      "step": 6200
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.6739811912225704e-05,
+      "loss": 0.1685,
+      "step": 6220
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.5956112852664575e-05,
+      "loss": 0.0627,
+      "step": 6240
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 5.517241379310344e-05,
+      "loss": 0.172,
+      "step": 6260
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 5.438871473354231e-05,
+      "loss": 0.1226,
+      "step": 6280
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 5.360501567398118e-05,
+      "loss": 0.1186,
+      "step": 6300
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.282131661442006e-05,
+      "loss": 0.1241,
+      "step": 6320
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 5.203761755485893e-05,
+      "loss": 0.0736,
+      "step": 6340
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 5.12539184952978e-05,
+      "loss": 0.0678,
+      "step": 6360
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 5.0470219435736674e-05,
+      "loss": 0.1397,
+      "step": 6380
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 4.9686520376175545e-05,
+      "loss": 0.101,
+      "step": 6400
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.894200626959247e-05,
+      "loss": 0.0647,
+      "step": 6420
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 4.8236677115987456e-05,
+      "loss": 0.2068,
+      "step": 6440
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 4.745297805642633e-05,
+      "loss": 0.1025,
+      "step": 6460
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 4.66692789968652e-05,
+      "loss": 0.1642,
+      "step": 6480
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.588557993730407e-05,
+      "loss": 0.0305,
+      "step": 6500
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 4.510188087774295e-05,
+      "loss": 0.0775,
+      "step": 6520
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.431818181818182e-05,
+      "loss": 0.1824,
+      "step": 6540
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 4.3534482758620684e-05,
+      "loss": 0.1002,
+      "step": 6560
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 4.2750783699059555e-05,
+      "loss": 0.0517,
+      "step": 6580
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.1967084639498426e-05,
+      "loss": 0.0848,
+      "step": 6600
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 4.11833855799373e-05,
+      "loss": 0.0948,
+      "step": 6620
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 4.0399686520376176e-05,
+      "loss": 0.1325,
+      "step": 6640
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.961598746081505e-05,
+      "loss": 0.1376,
+      "step": 6660
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.883228840125392e-05,
+      "loss": 0.0648,
+      "step": 6680
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.804858934169279e-05,
+      "loss": 0.1276,
+      "step": 6700
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 3.7264890282131654e-05,
+      "loss": 0.149,
+      "step": 6720
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 3.648119122257053e-05,
+      "loss": 0.107,
+      "step": 6740
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 3.56974921630094e-05,
+      "loss": 0.185,
+      "step": 6760
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4913793103448275e-05,
+      "loss": 0.1403,
+      "step": 6780
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 3.4130094043887146e-05,
+      "loss": 0.1438,
+      "step": 6800
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 3.334639498432602e-05,
+      "loss": 0.1134,
+      "step": 6820
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.256269592476489e-05,
+      "loss": 0.1188,
+      "step": 6840
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.177899686520376e-05,
+      "loss": 0.1152,
+      "step": 6860
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.099529780564263e-05,
+      "loss": 0.0793,
+      "step": 6880
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 3.0211598746081502e-05,
+      "loss": 0.1372,
+      "step": 6900
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 2.942789968652037e-05,
+      "loss": 0.1271,
+      "step": 6920
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 2.8644200626959245e-05,
+      "loss": 0.1385,
+      "step": 6940
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.7860501567398116e-05,
+      "loss": 0.1751,
+      "step": 6960
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.7076802507836988e-05,
+      "loss": 0.1576,
+      "step": 6980
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.6293103448275862e-05,
+      "loss": 0.1017,
+      "step": 7000
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 2.550940438871473e-05,
+      "loss": 0.0664,
+      "step": 7020
+    },
+    {
+      "epoch": 2.76,
+      "learning_rate": 2.47257053291536e-05,
+      "loss": 0.143,
+      "step": 7040
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.3942006269592476e-05,
+      "loss": 0.0861,
+      "step": 7060
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 2.3158307210031347e-05,
+      "loss": 0.1744,
+      "step": 7080
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 2.2374608150470215e-05,
+      "loss": 0.1581,
+      "step": 7100
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.159090909090909e-05,
+      "loss": 0.1264,
+      "step": 7120
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 2.080721003134796e-05,
+      "loss": 0.143,
+      "step": 7140
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 2.0023510971786833e-05,
+      "loss": 0.0769,
+      "step": 7160
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.9239811912225707e-05,
+      "loss": 0.0678,
+      "step": 7180
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 1.8456112852664575e-05,
+      "loss": 0.157,
+      "step": 7200
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 1.7672413793103446e-05,
+      "loss": 0.1057,
+      "step": 7220
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.6888714733542318e-05,
+      "loss": 0.0881,
+      "step": 7240
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 1.610501567398119e-05,
+      "loss": 0.1222,
+      "step": 7260
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.532131661442006e-05,
+      "loss": 0.0618,
+      "step": 7280
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.4537617554858933e-05,
+      "loss": 0.0977,
+      "step": 7300
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 1.3753918495297806e-05,
+      "loss": 0.133,
+      "step": 7320
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.2970219435736676e-05,
+      "loss": 0.146,
+      "step": 7340
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 1.2186520376175549e-05,
+      "loss": 0.1474,
+      "step": 7360
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.1402821316614418e-05,
+      "loss": 0.1122,
+      "step": 7380
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.0619122257053291e-05,
+      "loss": 0.105,
+      "step": 7400
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 9.835423197492163e-06,
+      "loss": 0.0381,
+      "step": 7420
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 9.051724137931034e-06,
+      "loss": 0.13,
+      "step": 7440
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 8.268025078369905e-06,
+      "loss": 0.07,
+      "step": 7460
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 7.4843260188087765e-06,
+      "loss": 0.0485,
+      "step": 7480
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 6.700626959247648e-06,
+      "loss": 0.117,
+      "step": 7500
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.91692789968652e-06,
+      "loss": 0.0685,
+      "step": 7520
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 5.133228840125391e-06,
+      "loss": 0.1176,
+      "step": 7540
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 4.3495297805642625e-06,
+      "loss": 0.0584,
+      "step": 7560
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 3.5658307210031346e-06,
+      "loss": 0.1473,
+      "step": 7580
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 2.782131661442006e-06,
+      "loss": 0.0358,
+      "step": 7600
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 1.9984326018808776e-06,
+      "loss": 0.0831,
+      "step": 7620
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 1.2147335423197491e-06,
+      "loss": 0.0811,
+      "step": 7640
+    },
+    {
+      "epoch": 3.0,
+      "step": 7656,
+      "total_flos": 1.0017286729079194e+17,
+      "train_loss": 0.20408990072201288,
+      "train_runtime": 3001.4526,
+      "train_samples_per_second": 15.304,
+      "train_steps_per_second": 2.551
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 7656,
+  "num_train_epochs": 3,
+  "save_steps": 5000,
+  "total_flos": 1.0017286729079194e+17,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff