Task: SequenceClassification

Browse files

Files changed (10) hide show

README.md +202 -0
adapter_config.json +35 -0
adapter_model.safetensors +3 -0
merges.txt +0 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +30 -0
trainer_state-opt-bnb8-QLORA-super_glue-boolq-sequence_classification.json +2014 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+library_name: peft
+base_model: facebook/opt-6.7b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "facebook/opt-6.7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [
+    "score"
+  ],
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "k_proj",
+    "fc2",
+    "out_proj",
+    "v_proj",
+    "fc1"
+  ],
+  "task_type": "SEQ_CLS",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0096d0110d970ace7f3e6013d1ad5730a161b0818f18b176b5f1f494b79ee157
+size 75583208

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "add_bos_token": true,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "</s>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "errors": "replace",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "</s>"
+}

trainer_state-opt-bnb8-QLORA-super_glue-boolq-sequence_classification.json ADDED Viewed

	@@ -0,0 +1,2014 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.984,
+  "eval_steps": 1,
+  "global_step": 124,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.016,
+      "grad_norm": 19.792200088500977,
+      "learning_rate": 2.5e-05,
+      "loss": 0.9587,
+      "step": 1
+    },
+    {
+      "epoch": 0.016,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.2008212804794312,
+      "eval_runtime": 9.5896,
+      "eval_samples_per_second": 26.07,
+      "eval_steps_per_second": 3.337,
+      "step": 1
+    },
+    {
+      "epoch": 0.032,
+      "grad_norm": 26.413536071777344,
+      "learning_rate": 5e-05,
+      "loss": 1.0902,
+      "step": 2
+    },
+    {
+      "epoch": 0.032,
+      "eval_accuracy": 0.4,
+      "eval_loss": 1.1015820503234863,
+      "eval_runtime": 9.4487,
+      "eval_samples_per_second": 26.459,
+      "eval_steps_per_second": 3.387,
+      "step": 2
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 16.49271011352539,
+      "learning_rate": 4.959016393442623e-05,
+      "loss": 0.8807,
+      "step": 3
+    },
+    {
+      "epoch": 0.048,
+      "eval_accuracy": 0.428,
+      "eval_loss": 0.9215332269668579,
+      "eval_runtime": 9.4596,
+      "eval_samples_per_second": 26.428,
+      "eval_steps_per_second": 3.383,
+      "step": 3
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 30.666654586791992,
+      "learning_rate": 4.918032786885246e-05,
+      "loss": 0.9722,
+      "step": 4
+    },
+    {
+      "epoch": 0.064,
+      "eval_accuracy": 0.476,
+      "eval_loss": 0.8115702867507935,
+      "eval_runtime": 9.4643,
+      "eval_samples_per_second": 26.415,
+      "eval_steps_per_second": 3.381,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 10.605666160583496,
+      "learning_rate": 4.8770491803278687e-05,
+      "loss": 0.7957,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.476,
+      "eval_loss": 0.7770839929580688,
+      "eval_runtime": 9.4208,
+      "eval_samples_per_second": 26.537,
+      "eval_steps_per_second": 3.397,
+      "step": 5
+    },
+    {
+      "epoch": 0.096,
+      "grad_norm": 15.425003051757812,
+      "learning_rate": 4.836065573770492e-05,
+      "loss": 0.5228,
+      "step": 6
+    },
+    {
+      "epoch": 0.096,
+      "eval_accuracy": 0.504,
+      "eval_loss": 0.805004894733429,
+      "eval_runtime": 9.4526,
+      "eval_samples_per_second": 26.448,
+      "eval_steps_per_second": 3.385,
+      "step": 6
+    },
+    {
+      "epoch": 0.112,
+      "grad_norm": 10.599884033203125,
+      "learning_rate": 4.795081967213115e-05,
+      "loss": 0.739,
+      "step": 7
+    },
+    {
+      "epoch": 0.112,
+      "eval_accuracy": 0.532,
+      "eval_loss": 0.8277338743209839,
+      "eval_runtime": 9.4867,
+      "eval_samples_per_second": 26.353,
+      "eval_steps_per_second": 3.373,
+      "step": 7
+    },
+    {
+      "epoch": 0.128,
+      "grad_norm": 32.59059143066406,
+      "learning_rate": 4.754098360655738e-05,
+      "loss": 1.2898,
+      "step": 8
+    },
+    {
+      "epoch": 0.128,
+      "eval_accuracy": 0.564,
+      "eval_loss": 0.8153437376022339,
+      "eval_runtime": 9.4204,
+      "eval_samples_per_second": 26.538,
+      "eval_steps_per_second": 3.397,
+      "step": 8
+    },
+    {
+      "epoch": 0.144,
+      "grad_norm": 22.269615173339844,
+      "learning_rate": 4.713114754098361e-05,
+      "loss": 0.9083,
+      "step": 9
+    },
+    {
+      "epoch": 0.144,
+      "eval_accuracy": 0.612,
+      "eval_loss": 0.7878813743591309,
+      "eval_runtime": 9.4054,
+      "eval_samples_per_second": 26.581,
+      "eval_steps_per_second": 3.402,
+      "step": 9
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 8.692429542541504,
+      "learning_rate": 4.672131147540984e-05,
+      "loss": 0.5176,
+      "step": 10
+    },
+    {
+      "epoch": 0.16,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.7594003677368164,
+      "eval_runtime": 9.4569,
+      "eval_samples_per_second": 26.436,
+      "eval_steps_per_second": 3.384,
+      "step": 10
+    },
+    {
+      "epoch": 0.176,
+      "grad_norm": 9.585773468017578,
+      "learning_rate": 4.631147540983607e-05,
+      "loss": 0.7224,
+      "step": 11
+    },
+    {
+      "epoch": 0.176,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.7379999756813049,
+      "eval_runtime": 9.4177,
+      "eval_samples_per_second": 26.546,
+      "eval_steps_per_second": 3.398,
+      "step": 11
+    },
+    {
+      "epoch": 0.192,
+      "grad_norm": 10.833252906799316,
+      "learning_rate": 4.59016393442623e-05,
+      "loss": 0.8363,
+      "step": 12
+    },
+    {
+      "epoch": 0.192,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.7211699485778809,
+      "eval_runtime": 9.4924,
+      "eval_samples_per_second": 26.337,
+      "eval_steps_per_second": 3.371,
+      "step": 12
+    },
+    {
+      "epoch": 0.208,
+      "grad_norm": 17.36851692199707,
+      "learning_rate": 4.549180327868853e-05,
+      "loss": 0.868,
+      "step": 13
+    },
+    {
+      "epoch": 0.208,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.7057519555091858,
+      "eval_runtime": 9.4694,
+      "eval_samples_per_second": 26.401,
+      "eval_steps_per_second": 3.379,
+      "step": 13
+    },
+    {
+      "epoch": 0.224,
+      "grad_norm": 9.86408805847168,
+      "learning_rate": 4.508196721311476e-05,
+      "loss": 0.5603,
+      "step": 14
+    },
+    {
+      "epoch": 0.224,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.7084277272224426,
+      "eval_runtime": 9.4106,
+      "eval_samples_per_second": 26.566,
+      "eval_steps_per_second": 3.4,
+      "step": 14
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 6.7643585205078125,
+      "learning_rate": 4.467213114754098e-05,
+      "loss": 0.6958,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.7116777300834656,
+      "eval_runtime": 9.4526,
+      "eval_samples_per_second": 26.448,
+      "eval_steps_per_second": 3.385,
+      "step": 15
+    },
+    {
+      "epoch": 0.256,
+      "grad_norm": 13.049300193786621,
+      "learning_rate": 4.426229508196721e-05,
+      "loss": 0.5868,
+      "step": 16
+    },
+    {
+      "epoch": 0.256,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.7166406512260437,
+      "eval_runtime": 9.4248,
+      "eval_samples_per_second": 26.526,
+      "eval_steps_per_second": 3.395,
+      "step": 16
+    },
+    {
+      "epoch": 0.272,
+      "grad_norm": 12.840044021606445,
+      "learning_rate": 4.3852459016393444e-05,
+      "loss": 0.5497,
+      "step": 17
+    },
+    {
+      "epoch": 0.272,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.7239003777503967,
+      "eval_runtime": 9.4276,
+      "eval_samples_per_second": 26.518,
+      "eval_steps_per_second": 3.394,
+      "step": 17
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 9.021048545837402,
+      "learning_rate": 4.3442622950819674e-05,
+      "loss": 0.7557,
+      "step": 18
+    },
+    {
+      "epoch": 0.288,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.728591799736023,
+      "eval_runtime": 9.4602,
+      "eval_samples_per_second": 26.427,
+      "eval_steps_per_second": 3.383,
+      "step": 18
+    },
+    {
+      "epoch": 0.304,
+      "grad_norm": 15.930183410644531,
+      "learning_rate": 4.3032786885245904e-05,
+      "loss": 0.8174,
+      "step": 19
+    },
+    {
+      "epoch": 0.304,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.7309414148330688,
+      "eval_runtime": 9.4241,
+      "eval_samples_per_second": 26.528,
+      "eval_steps_per_second": 3.396,
+      "step": 19
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 25.526287078857422,
+      "learning_rate": 4.262295081967213e-05,
+      "loss": 0.9582,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.7253652215003967,
+      "eval_runtime": 9.487,
+      "eval_samples_per_second": 26.352,
+      "eval_steps_per_second": 3.373,
+      "step": 20
+    },
+    {
+      "epoch": 0.336,
+      "grad_norm": 16.851058959960938,
+      "learning_rate": 4.2213114754098365e-05,
+      "loss": 0.7394,
+      "step": 21
+    },
+    {
+      "epoch": 0.336,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.721359372138977,
+      "eval_runtime": 9.4839,
+      "eval_samples_per_second": 26.361,
+      "eval_steps_per_second": 3.374,
+      "step": 21
+    },
+    {
+      "epoch": 0.352,
+      "grad_norm": 16.92612648010254,
+      "learning_rate": 4.1803278688524595e-05,
+      "loss": 0.7682,
+      "step": 22
+    },
+    {
+      "epoch": 0.352,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.7189823985099792,
+      "eval_runtime": 9.4414,
+      "eval_samples_per_second": 26.479,
+      "eval_steps_per_second": 3.389,
+      "step": 22
+    },
+    {
+      "epoch": 0.368,
+      "grad_norm": 9.329913139343262,
+      "learning_rate": 4.1393442622950826e-05,
+      "loss": 0.5394,
+      "step": 23
+    },
+    {
+      "epoch": 0.368,
+      "eval_accuracy": 0.564,
+      "eval_loss": 0.7176367044448853,
+      "eval_runtime": 9.4362,
+      "eval_samples_per_second": 26.494,
+      "eval_steps_per_second": 3.391,
+      "step": 23
+    },
+    {
+      "epoch": 0.384,
+      "grad_norm": 16.587936401367188,
+      "learning_rate": 4.098360655737705e-05,
+      "loss": 0.7886,
+      "step": 24
+    },
+    {
+      "epoch": 0.384,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.7161562442779541,
+      "eval_runtime": 9.4353,
+      "eval_samples_per_second": 26.496,
+      "eval_steps_per_second": 3.392,
+      "step": 24
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 15.896271705627441,
+      "learning_rate": 4.057377049180328e-05,
+      "loss": 0.5579,
+      "step": 25
+    },
+    {
+      "epoch": 0.4,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.7171699404716492,
+      "eval_runtime": 9.4618,
+      "eval_samples_per_second": 26.422,
+      "eval_steps_per_second": 3.382,
+      "step": 25
+    },
+    {
+      "epoch": 0.416,
+      "grad_norm": 6.284942626953125,
+      "learning_rate": 4.016393442622951e-05,
+      "loss": 0.619,
+      "step": 26
+    },
+    {
+      "epoch": 0.416,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.7149707078933716,
+      "eval_runtime": 9.4462,
+      "eval_samples_per_second": 26.466,
+      "eval_steps_per_second": 3.388,
+      "step": 26
+    },
+    {
+      "epoch": 0.432,
+      "grad_norm": 7.851229667663574,
+      "learning_rate": 3.975409836065574e-05,
+      "loss": 0.6796,
+      "step": 27
+    },
+    {
+      "epoch": 0.432,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.7145332098007202,
+      "eval_runtime": 9.4497,
+      "eval_samples_per_second": 26.456,
+      "eval_steps_per_second": 3.386,
+      "step": 27
+    },
+    {
+      "epoch": 0.448,
+      "grad_norm": 6.50039529800415,
+      "learning_rate": 3.934426229508197e-05,
+      "loss": 0.8046,
+      "step": 28
+    },
+    {
+      "epoch": 0.448,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.7118340134620667,
+      "eval_runtime": 9.4429,
+      "eval_samples_per_second": 26.475,
+      "eval_steps_per_second": 3.389,
+      "step": 28
+    },
+    {
+      "epoch": 0.464,
+      "grad_norm": 10.894524574279785,
+      "learning_rate": 3.89344262295082e-05,
+      "loss": 0.6829,
+      "step": 29
+    },
+    {
+      "epoch": 0.464,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.7091230750083923,
+      "eval_runtime": 9.4254,
+      "eval_samples_per_second": 26.524,
+      "eval_steps_per_second": 3.395,
+      "step": 29
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 17.76140594482422,
+      "learning_rate": 3.8524590163934424e-05,
+      "loss": 0.8194,
+      "step": 30
+    },
+    {
+      "epoch": 0.48,
+      "eval_accuracy": 0.548,
+      "eval_loss": 0.7109335660934448,
+      "eval_runtime": 9.4302,
+      "eval_samples_per_second": 26.511,
+      "eval_steps_per_second": 3.393,
+      "step": 30
+    },
+    {
+      "epoch": 0.496,
+      "grad_norm": 4.884728908538818,
+      "learning_rate": 3.8114754098360655e-05,
+      "loss": 0.6432,
+      "step": 31
+    },
+    {
+      "epoch": 0.496,
+      "eval_accuracy": 0.536,
+      "eval_loss": 0.7137030959129333,
+      "eval_runtime": 9.4055,
+      "eval_samples_per_second": 26.58,
+      "eval_steps_per_second": 3.402,
+      "step": 31
+    },
+    {
+      "epoch": 0.512,
+      "grad_norm": 8.217907905578613,
+      "learning_rate": 3.7704918032786885e-05,
+      "loss": 0.6199,
+      "step": 32
+    },
+    {
+      "epoch": 0.512,
+      "eval_accuracy": 0.536,
+      "eval_loss": 0.7147109508514404,
+      "eval_runtime": 9.4314,
+      "eval_samples_per_second": 26.507,
+      "eval_steps_per_second": 3.393,
+      "step": 32
+    },
+    {
+      "epoch": 0.528,
+      "grad_norm": 5.067286014556885,
+      "learning_rate": 3.729508196721312e-05,
+      "loss": 0.5238,
+      "step": 33
+    },
+    {
+      "epoch": 0.528,
+      "eval_accuracy": 0.528,
+      "eval_loss": 0.7139023542404175,
+      "eval_runtime": 9.4057,
+      "eval_samples_per_second": 26.579,
+      "eval_steps_per_second": 3.402,
+      "step": 33
+    },
+    {
+      "epoch": 0.544,
+      "grad_norm": 9.185476303100586,
+      "learning_rate": 3.6885245901639346e-05,
+      "loss": 0.5065,
+      "step": 34
+    },
+    {
+      "epoch": 0.544,
+      "eval_accuracy": 0.54,
+      "eval_loss": 0.7080722451210022,
+      "eval_runtime": 9.4148,
+      "eval_samples_per_second": 26.554,
+      "eval_steps_per_second": 3.399,
+      "step": 34
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 10.447481155395508,
+      "learning_rate": 3.6475409836065576e-05,
+      "loss": 0.7825,
+      "step": 35
+    },
+    {
+      "epoch": 0.56,
+      "eval_accuracy": 0.556,
+      "eval_loss": 0.7053359150886536,
+      "eval_runtime": 9.4329,
+      "eval_samples_per_second": 26.503,
+      "eval_steps_per_second": 3.392,
+      "step": 35
+    },
+    {
+      "epoch": 0.576,
+      "grad_norm": 9.977537155151367,
+      "learning_rate": 3.6065573770491806e-05,
+      "loss": 0.7256,
+      "step": 36
+    },
+    {
+      "epoch": 0.576,
+      "eval_accuracy": 0.556,
+      "eval_loss": 0.7060820460319519,
+      "eval_runtime": 9.426,
+      "eval_samples_per_second": 26.522,
+      "eval_steps_per_second": 3.395,
+      "step": 36
+    },
+    {
+      "epoch": 0.592,
+      "grad_norm": 8.119141578674316,
+      "learning_rate": 3.5655737704918037e-05,
+      "loss": 0.7407,
+      "step": 37
+    },
+    {
+      "epoch": 0.592,
+      "eval_accuracy": 0.544,
+      "eval_loss": 0.7100077867507935,
+      "eval_runtime": 9.4303,
+      "eval_samples_per_second": 26.51,
+      "eval_steps_per_second": 3.393,
+      "step": 37
+    },
+    {
+      "epoch": 0.608,
+      "grad_norm": 13.609740257263184,
+      "learning_rate": 3.524590163934427e-05,
+      "loss": 0.6665,
+      "step": 38
+    },
+    {
+      "epoch": 0.608,
+      "eval_accuracy": 0.544,
+      "eval_loss": 0.7075429558753967,
+      "eval_runtime": 9.4113,
+      "eval_samples_per_second": 26.564,
+      "eval_steps_per_second": 3.4,
+      "step": 38
+    },
+    {
+      "epoch": 0.624,
+      "grad_norm": 22.365285873413086,
+      "learning_rate": 3.483606557377049e-05,
+      "loss": 0.8188,
+      "step": 39
+    },
+    {
+      "epoch": 0.624,
+      "eval_accuracy": 0.564,
+      "eval_loss": 0.7029336094856262,
+      "eval_runtime": 9.4257,
+      "eval_samples_per_second": 26.523,
+      "eval_steps_per_second": 3.395,
+      "step": 39
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 10.358452796936035,
+      "learning_rate": 3.442622950819672e-05,
+      "loss": 0.6671,
+      "step": 40
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6954512000083923,
+      "eval_runtime": 9.4493,
+      "eval_samples_per_second": 26.457,
+      "eval_steps_per_second": 3.386,
+      "step": 40
+    },
+    {
+      "epoch": 0.656,
+      "grad_norm": 15.979942321777344,
+      "learning_rate": 3.401639344262295e-05,
+      "loss": 0.7222,
+      "step": 41
+    },
+    {
+      "epoch": 0.656,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6924257874488831,
+      "eval_runtime": 9.4502,
+      "eval_samples_per_second": 26.454,
+      "eval_steps_per_second": 3.386,
+      "step": 41
+    },
+    {
+      "epoch": 0.672,
+      "grad_norm": 16.25983428955078,
+      "learning_rate": 3.360655737704918e-05,
+      "loss": 0.7285,
+      "step": 42
+    },
+    {
+      "epoch": 0.672,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6920918226242065,
+      "eval_runtime": 9.4123,
+      "eval_samples_per_second": 26.561,
+      "eval_steps_per_second": 3.4,
+      "step": 42
+    },
+    {
+      "epoch": 0.688,
+      "grad_norm": 7.8817853927612305,
+      "learning_rate": 3.319672131147541e-05,
+      "loss": 0.7068,
+      "step": 43
+    },
+    {
+      "epoch": 0.688,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.693978488445282,
+      "eval_runtime": 9.4142,
+      "eval_samples_per_second": 26.556,
+      "eval_steps_per_second": 3.399,
+      "step": 43
+    },
+    {
+      "epoch": 0.704,
+      "grad_norm": 11.203206062316895,
+      "learning_rate": 3.2786885245901635e-05,
+      "loss": 0.613,
+      "step": 44
+    },
+    {
+      "epoch": 0.704,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6923867464065552,
+      "eval_runtime": 9.4098,
+      "eval_samples_per_second": 26.568,
+      "eval_steps_per_second": 3.401,
+      "step": 44
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 8.55033016204834,
+      "learning_rate": 3.237704918032787e-05,
+      "loss": 0.5672,
+      "step": 45
+    },
+    {
+      "epoch": 0.72,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.695925772190094,
+      "eval_runtime": 9.4467,
+      "eval_samples_per_second": 26.464,
+      "eval_steps_per_second": 3.387,
+      "step": 45
+    },
+    {
+      "epoch": 0.736,
+      "grad_norm": 9.487948417663574,
+      "learning_rate": 3.19672131147541e-05,
+      "loss": 0.6208,
+      "step": 46
+    },
+    {
+      "epoch": 0.736,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.7002148628234863,
+      "eval_runtime": 9.4163,
+      "eval_samples_per_second": 26.55,
+      "eval_steps_per_second": 3.398,
+      "step": 46
+    },
+    {
+      "epoch": 0.752,
+      "grad_norm": 7.840662479400635,
+      "learning_rate": 3.155737704918033e-05,
+      "loss": 0.6282,
+      "step": 47
+    },
+    {
+      "epoch": 0.752,
+      "eval_accuracy": 0.608,
+      "eval_loss": 0.7034921646118164,
+      "eval_runtime": 9.4244,
+      "eval_samples_per_second": 26.527,
+      "eval_steps_per_second": 3.395,
+      "step": 47
+    },
+    {
+      "epoch": 0.768,
+      "grad_norm": 6.098258972167969,
+      "learning_rate": 3.114754098360656e-05,
+      "loss": 0.6129,
+      "step": 48
+    },
+    {
+      "epoch": 0.768,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.7040849328041077,
+      "eval_runtime": 9.3957,
+      "eval_samples_per_second": 26.608,
+      "eval_steps_per_second": 3.406,
+      "step": 48
+    },
+    {
+      "epoch": 0.784,
+      "grad_norm": 7.861691951751709,
+      "learning_rate": 3.073770491803279e-05,
+      "loss": 0.6396,
+      "step": 49
+    },
+    {
+      "epoch": 0.784,
+      "eval_accuracy": 0.608,
+      "eval_loss": 0.7040830254554749,
+      "eval_runtime": 9.396,
+      "eval_samples_per_second": 26.607,
+      "eval_steps_per_second": 3.406,
+      "step": 49
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 9.376338958740234,
+      "learning_rate": 3.0327868852459017e-05,
+      "loss": 0.5983,
+      "step": 50
+    },
+    {
+      "epoch": 0.8,
+      "eval_accuracy": 0.608,
+      "eval_loss": 0.7050849795341492,
+      "eval_runtime": 9.4089,
+      "eval_samples_per_second": 26.571,
+      "eval_steps_per_second": 3.401,
+      "step": 50
+    },
+    {
+      "epoch": 0.816,
+      "grad_norm": 8.683838844299316,
+      "learning_rate": 2.9918032786885248e-05,
+      "loss": 0.6681,
+      "step": 51
+    },
+    {
+      "epoch": 0.816,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.705935537815094,
+      "eval_runtime": 9.3804,
+      "eval_samples_per_second": 26.651,
+      "eval_steps_per_second": 3.411,
+      "step": 51
+    },
+    {
+      "epoch": 0.832,
+      "grad_norm": 17.765621185302734,
+      "learning_rate": 2.9508196721311478e-05,
+      "loss": 0.8503,
+      "step": 52
+    },
+    {
+      "epoch": 0.832,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.6994922161102295,
+      "eval_runtime": 9.4185,
+      "eval_samples_per_second": 26.544,
+      "eval_steps_per_second": 3.398,
+      "step": 52
+    },
+    {
+      "epoch": 0.848,
+      "grad_norm": 15.548516273498535,
+      "learning_rate": 2.9098360655737705e-05,
+      "loss": 0.7585,
+      "step": 53
+    },
+    {
+      "epoch": 0.848,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.692019522190094,
+      "eval_runtime": 9.5871,
+      "eval_samples_per_second": 26.077,
+      "eval_steps_per_second": 3.338,
+      "step": 53
+    },
+    {
+      "epoch": 0.864,
+      "grad_norm": 8.666825294494629,
+      "learning_rate": 2.8688524590163935e-05,
+      "loss": 0.5713,
+      "step": 54
+    },
+    {
+      "epoch": 0.864,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.68896484375,
+      "eval_runtime": 9.4277,
+      "eval_samples_per_second": 26.518,
+      "eval_steps_per_second": 3.394,
+      "step": 54
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 16.585477828979492,
+      "learning_rate": 2.8278688524590162e-05,
+      "loss": 0.7261,
+      "step": 55
+    },
+    {
+      "epoch": 0.88,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6847422122955322,
+      "eval_runtime": 9.4025,
+      "eval_samples_per_second": 26.589,
+      "eval_steps_per_second": 3.403,
+      "step": 55
+    },
+    {
+      "epoch": 0.896,
+      "grad_norm": 17.52354621887207,
+      "learning_rate": 2.7868852459016392e-05,
+      "loss": 0.7457,
+      "step": 56
+    },
+    {
+      "epoch": 0.896,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.6801777482032776,
+      "eval_runtime": 9.4431,
+      "eval_samples_per_second": 26.474,
+      "eval_steps_per_second": 3.389,
+      "step": 56
+    },
+    {
+      "epoch": 0.912,
+      "grad_norm": 14.731335639953613,
+      "learning_rate": 2.7459016393442626e-05,
+      "loss": 0.8242,
+      "step": 57
+    },
+    {
+      "epoch": 0.912,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6787323951721191,
+      "eval_runtime": 9.4268,
+      "eval_samples_per_second": 26.52,
+      "eval_steps_per_second": 3.395,
+      "step": 57
+    },
+    {
+      "epoch": 0.928,
+      "grad_norm": 6.853959083557129,
+      "learning_rate": 2.7049180327868856e-05,
+      "loss": 0.7688,
+      "step": 58
+    },
+    {
+      "epoch": 0.928,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6817187666893005,
+      "eval_runtime": 9.4078,
+      "eval_samples_per_second": 26.574,
+      "eval_steps_per_second": 3.401,
+      "step": 58
+    },
+    {
+      "epoch": 0.944,
+      "grad_norm": 13.072829246520996,
+      "learning_rate": 2.6639344262295087e-05,
+      "loss": 0.5804,
+      "step": 59
+    },
+    {
+      "epoch": 0.944,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.685714840888977,
+      "eval_runtime": 9.422,
+      "eval_samples_per_second": 26.534,
+      "eval_steps_per_second": 3.396,
+      "step": 59
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 8.29138469696045,
+      "learning_rate": 2.6229508196721314e-05,
+      "loss": 0.8167,
+      "step": 60
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6867265701293945,
+      "eval_runtime": 9.4234,
+      "eval_samples_per_second": 26.53,
+      "eval_steps_per_second": 3.396,
+      "step": 60
+    },
+    {
+      "epoch": 0.976,
+      "grad_norm": 5.209651470184326,
+      "learning_rate": 2.5819672131147544e-05,
+      "loss": 0.5874,
+      "step": 61
+    },
+    {
+      "epoch": 0.976,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6885351538658142,
+      "eval_runtime": 9.4091,
+      "eval_samples_per_second": 26.57,
+      "eval_steps_per_second": 3.401,
+      "step": 61
+    },
+    {
+      "epoch": 0.992,
+      "grad_norm": 8.127976417541504,
+      "learning_rate": 2.540983606557377e-05,
+      "loss": 0.6197,
+      "step": 62
+    },
+    {
+      "epoch": 0.992,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.6853671669960022,
+      "eval_runtime": 9.4343,
+      "eval_samples_per_second": 26.499,
+      "eval_steps_per_second": 3.392,
+      "step": 62
+    },
+    {
+      "epoch": 1.008,
+      "grad_norm": 4.938397407531738,
+      "learning_rate": 2.5e-05,
+      "loss": 0.6458,
+      "step": 63
+    },
+    {
+      "epoch": 1.008,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6829023361206055,
+      "eval_runtime": 9.4315,
+      "eval_samples_per_second": 26.507,
+      "eval_steps_per_second": 3.393,
+      "step": 63
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 15.248034477233887,
+      "learning_rate": 2.459016393442623e-05,
+      "loss": 0.7218,
+      "step": 64
+    },
+    {
+      "epoch": 1.024,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6791366934776306,
+      "eval_runtime": 9.4284,
+      "eval_samples_per_second": 26.516,
+      "eval_steps_per_second": 3.394,
+      "step": 64
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 5.217968463897705,
+      "learning_rate": 2.418032786885246e-05,
+      "loss": 0.6869,
+      "step": 65
+    },
+    {
+      "epoch": 1.04,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6775898337364197,
+      "eval_runtime": 9.4135,
+      "eval_samples_per_second": 26.558,
+      "eval_steps_per_second": 3.399,
+      "step": 65
+    },
+    {
+      "epoch": 1.056,
+      "grad_norm": 8.960049629211426,
+      "learning_rate": 2.377049180327869e-05,
+      "loss": 0.7135,
+      "step": 66
+    },
+    {
+      "epoch": 1.056,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6763710975646973,
+      "eval_runtime": 9.43,
+      "eval_samples_per_second": 26.511,
+      "eval_steps_per_second": 3.393,
+      "step": 66
+    },
+    {
+      "epoch": 1.072,
+      "grad_norm": 14.524127960205078,
+      "learning_rate": 2.336065573770492e-05,
+      "loss": 0.7343,
+      "step": 67
+    },
+    {
+      "epoch": 1.072,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.673941433429718,
+      "eval_runtime": 9.4381,
+      "eval_samples_per_second": 26.488,
+      "eval_steps_per_second": 3.39,
+      "step": 67
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 14.215781211853027,
+      "learning_rate": 2.295081967213115e-05,
+      "loss": 0.7439,
+      "step": 68
+    },
+    {
+      "epoch": 1.088,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.6748945116996765,
+      "eval_runtime": 9.4059,
+      "eval_samples_per_second": 26.579,
+      "eval_steps_per_second": 3.402,
+      "step": 68
+    },
+    {
+      "epoch": 1.104,
+      "grad_norm": 5.426934719085693,
+      "learning_rate": 2.254098360655738e-05,
+      "loss": 0.5504,
+      "step": 69
+    },
+    {
+      "epoch": 1.104,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6768242120742798,
+      "eval_runtime": 9.4117,
+      "eval_samples_per_second": 26.563,
+      "eval_steps_per_second": 3.4,
+      "step": 69
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 14.354090690612793,
+      "learning_rate": 2.2131147540983607e-05,
+      "loss": 0.696,
+      "step": 70
+    },
+    {
+      "epoch": 1.12,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.6765508055686951,
+      "eval_runtime": 9.4291,
+      "eval_samples_per_second": 26.514,
+      "eval_steps_per_second": 3.394,
+      "step": 70
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "grad_norm": 11.328275680541992,
+      "learning_rate": 2.1721311475409837e-05,
+      "loss": 0.6042,
+      "step": 71
+    },
+    {
+      "epoch": 1.1360000000000001,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.6768398284912109,
+      "eval_runtime": 9.4156,
+      "eval_samples_per_second": 26.552,
+      "eval_steps_per_second": 3.399,
+      "step": 71
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 9.158403396606445,
+      "learning_rate": 2.1311475409836064e-05,
+      "loss": 0.4853,
+      "step": 72
+    },
+    {
+      "epoch": 1.152,
+      "eval_accuracy": 0.604,
+      "eval_loss": 0.6750390529632568,
+      "eval_runtime": 9.4378,
+      "eval_samples_per_second": 26.489,
+      "eval_steps_per_second": 3.391,
+      "step": 72
+    },
+    {
+      "epoch": 1.168,
+      "grad_norm": 7.848287105560303,
+      "learning_rate": 2.0901639344262298e-05,
+      "loss": 0.6744,
+      "step": 73
+    },
+    {
+      "epoch": 1.168,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6753163933753967,
+      "eval_runtime": 9.4125,
+      "eval_samples_per_second": 26.56,
+      "eval_steps_per_second": 3.4,
+      "step": 73
+    },
+    {
+      "epoch": 1.184,
+      "grad_norm": 11.083074569702148,
+      "learning_rate": 2.0491803278688525e-05,
+      "loss": 0.7398,
+      "step": 74
+    },
+    {
+      "epoch": 1.184,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.676925778388977,
+      "eval_runtime": 9.421,
+      "eval_samples_per_second": 26.536,
+      "eval_steps_per_second": 3.397,
+      "step": 74
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 8.224617958068848,
+      "learning_rate": 2.0081967213114755e-05,
+      "loss": 0.6029,
+      "step": 75
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.677783191204071,
+      "eval_runtime": 9.4291,
+      "eval_samples_per_second": 26.514,
+      "eval_steps_per_second": 3.394,
+      "step": 75
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 17.132051467895508,
+      "learning_rate": 1.9672131147540985e-05,
+      "loss": 0.6935,
+      "step": 76
+    },
+    {
+      "epoch": 1.216,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.6787539124488831,
+      "eval_runtime": 9.4075,
+      "eval_samples_per_second": 26.575,
+      "eval_steps_per_second": 3.402,
+      "step": 76
+    },
+    {
+      "epoch": 1.232,
+      "grad_norm": 8.447811126708984,
+      "learning_rate": 1.9262295081967212e-05,
+      "loss": 0.7292,
+      "step": 77
+    },
+    {
+      "epoch": 1.232,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6795663833618164,
+      "eval_runtime": 9.4049,
+      "eval_samples_per_second": 26.582,
+      "eval_steps_per_second": 3.402,
+      "step": 77
+    },
+    {
+      "epoch": 1.248,
+      "grad_norm": 4.971631050109863,
+      "learning_rate": 1.8852459016393442e-05,
+      "loss": 0.6192,
+      "step": 78
+    },
+    {
+      "epoch": 1.248,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6786601543426514,
+      "eval_runtime": 9.4102,
+      "eval_samples_per_second": 26.567,
+      "eval_steps_per_second": 3.401,
+      "step": 78
+    },
+    {
+      "epoch": 1.264,
+      "grad_norm": 8.30854320526123,
+      "learning_rate": 1.8442622950819673e-05,
+      "loss": 0.6979,
+      "step": 79
+    },
+    {
+      "epoch": 1.264,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6776171922683716,
+      "eval_runtime": 9.4206,
+      "eval_samples_per_second": 26.537,
+      "eval_steps_per_second": 3.397,
+      "step": 79
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 9.044068336486816,
+      "learning_rate": 1.8032786885245903e-05,
+      "loss": 0.7554,
+      "step": 80
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.6768652200698853,
+      "eval_runtime": 9.4398,
+      "eval_samples_per_second": 26.484,
+      "eval_steps_per_second": 3.39,
+      "step": 80
+    },
+    {
+      "epoch": 1.296,
+      "grad_norm": 22.36913299560547,
+      "learning_rate": 1.7622950819672133e-05,
+      "loss": 0.7857,
+      "step": 81
+    },
+    {
+      "epoch": 1.296,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6760781407356262,
+      "eval_runtime": 9.4344,
+      "eval_samples_per_second": 26.499,
+      "eval_steps_per_second": 3.392,
+      "step": 81
+    },
+    {
+      "epoch": 1.312,
+      "grad_norm": 9.494186401367188,
+      "learning_rate": 1.721311475409836e-05,
+      "loss": 0.7903,
+      "step": 82
+    },
+    {
+      "epoch": 1.312,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6796757578849792,
+      "eval_runtime": 9.3991,
+      "eval_samples_per_second": 26.598,
+      "eval_steps_per_second": 3.405,
+      "step": 82
+    },
+    {
+      "epoch": 1.328,
+      "grad_norm": 6.161738395690918,
+      "learning_rate": 1.680327868852459e-05,
+      "loss": 0.714,
+      "step": 83
+    },
+    {
+      "epoch": 1.328,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6806288957595825,
+      "eval_runtime": 9.424,
+      "eval_samples_per_second": 26.528,
+      "eval_steps_per_second": 3.396,
+      "step": 83
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 10.077332496643066,
+      "learning_rate": 1.6393442622950818e-05,
+      "loss": 0.7107,
+      "step": 84
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6848242282867432,
+      "eval_runtime": 9.4189,
+      "eval_samples_per_second": 26.542,
+      "eval_steps_per_second": 3.397,
+      "step": 84
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 14.34889030456543,
+      "learning_rate": 1.598360655737705e-05,
+      "loss": 0.6276,
+      "step": 85
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6862617135047913,
+      "eval_runtime": 9.4148,
+      "eval_samples_per_second": 26.554,
+      "eval_steps_per_second": 3.399,
+      "step": 85
+    },
+    {
+      "epoch": 1.376,
+      "grad_norm": 9.223981857299805,
+      "learning_rate": 1.557377049180328e-05,
+      "loss": 0.7295,
+      "step": 86
+    },
+    {
+      "epoch": 1.376,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6857773661613464,
+      "eval_runtime": 9.4043,
+      "eval_samples_per_second": 26.584,
+      "eval_steps_per_second": 3.403,
+      "step": 86
+    },
+    {
+      "epoch": 1.392,
+      "grad_norm": 13.143969535827637,
+      "learning_rate": 1.5163934426229509e-05,
+      "loss": 0.6597,
+      "step": 87
+    },
+    {
+      "epoch": 1.392,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6872578263282776,
+      "eval_runtime": 9.4212,
+      "eval_samples_per_second": 26.536,
+      "eval_steps_per_second": 3.397,
+      "step": 87
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 22.58281898498535,
+      "learning_rate": 1.4754098360655739e-05,
+      "loss": 0.6335,
+      "step": 88
+    },
+    {
+      "epoch": 1.408,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6847929954528809,
+      "eval_runtime": 9.4232,
+      "eval_samples_per_second": 26.53,
+      "eval_steps_per_second": 3.396,
+      "step": 88
+    },
+    {
+      "epoch": 1.424,
+      "grad_norm": 12.670473098754883,
+      "learning_rate": 1.4344262295081968e-05,
+      "loss": 0.7245,
+      "step": 89
+    },
+    {
+      "epoch": 1.424,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.6834453344345093,
+      "eval_runtime": 9.4138,
+      "eval_samples_per_second": 26.557,
+      "eval_steps_per_second": 3.399,
+      "step": 89
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 20.81968879699707,
+      "learning_rate": 1.3934426229508196e-05,
+      "loss": 0.5546,
+      "step": 90
+    },
+    {
+      "epoch": 1.44,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6808554530143738,
+      "eval_runtime": 9.4208,
+      "eval_samples_per_second": 26.537,
+      "eval_steps_per_second": 3.397,
+      "step": 90
+    },
+    {
+      "epoch": 1.456,
+      "grad_norm": 8.033720016479492,
+      "learning_rate": 1.3524590163934428e-05,
+      "loss": 0.6482,
+      "step": 91
+    },
+    {
+      "epoch": 1.456,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6760781407356262,
+      "eval_runtime": 9.408,
+      "eval_samples_per_second": 26.573,
+      "eval_steps_per_second": 3.401,
+      "step": 91
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 9.656173706054688,
+      "learning_rate": 1.3114754098360657e-05,
+      "loss": 0.6814,
+      "step": 92
+    },
+    {
+      "epoch": 1.472,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.6791015863418579,
+      "eval_runtime": 9.4039,
+      "eval_samples_per_second": 26.585,
+      "eval_steps_per_second": 3.403,
+      "step": 92
+    },
+    {
+      "epoch": 1.488,
+      "grad_norm": 4.5396599769592285,
+      "learning_rate": 1.2704918032786885e-05,
+      "loss": 0.5693,
+      "step": 93
+    },
+    {
+      "epoch": 1.488,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6775078177452087,
+      "eval_runtime": 9.4321,
+      "eval_samples_per_second": 26.505,
+      "eval_steps_per_second": 3.393,
+      "step": 93
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 11.05844783782959,
+      "learning_rate": 1.2295081967213116e-05,
+      "loss": 0.5369,
+      "step": 94
+    },
+    {
+      "epoch": 1.504,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6771523356437683,
+      "eval_runtime": 9.4156,
+      "eval_samples_per_second": 26.552,
+      "eval_steps_per_second": 3.399,
+      "step": 94
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 19.972246170043945,
+      "learning_rate": 1.1885245901639344e-05,
+      "loss": 0.7144,
+      "step": 95
+    },
+    {
+      "epoch": 1.52,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6779101490974426,
+      "eval_runtime": 9.4028,
+      "eval_samples_per_second": 26.588,
+      "eval_steps_per_second": 3.403,
+      "step": 95
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 11.014993667602539,
+      "learning_rate": 1.1475409836065575e-05,
+      "loss": 0.6405,
+      "step": 96
+    },
+    {
+      "epoch": 1.536,
+      "eval_accuracy": 0.564,
+      "eval_loss": 0.6772187352180481,
+      "eval_runtime": 9.4126,
+      "eval_samples_per_second": 26.56,
+      "eval_steps_per_second": 3.4,
+      "step": 96
+    },
+    {
+      "epoch": 1.552,
+      "grad_norm": 8.04190444946289,
+      "learning_rate": 1.1065573770491803e-05,
+      "loss": 0.7893,
+      "step": 97
+    },
+    {
+      "epoch": 1.552,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6751992106437683,
+      "eval_runtime": 9.4142,
+      "eval_samples_per_second": 26.556,
+      "eval_steps_per_second": 3.399,
+      "step": 97
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 8.616044044494629,
+      "learning_rate": 1.0655737704918032e-05,
+      "loss": 0.6448,
+      "step": 98
+    },
+    {
+      "epoch": 1.568,
+      "eval_accuracy": 0.568,
+      "eval_loss": 0.6759804487228394,
+      "eval_runtime": 9.4235,
+      "eval_samples_per_second": 26.529,
+      "eval_steps_per_second": 3.396,
+      "step": 98
+    },
+    {
+      "epoch": 1.584,
+      "grad_norm": 12.122180938720703,
+      "learning_rate": 1.0245901639344262e-05,
+      "loss": 0.5828,
+      "step": 99
+    },
+    {
+      "epoch": 1.584,
+      "eval_accuracy": 0.576,
+      "eval_loss": 0.6741952896118164,
+      "eval_runtime": 9.4162,
+      "eval_samples_per_second": 26.55,
+      "eval_steps_per_second": 3.398,
+      "step": 99
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 15.246779441833496,
+      "learning_rate": 9.836065573770493e-06,
+      "loss": 0.6762,
+      "step": 100
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.572,
+      "eval_loss": 0.6730703115463257,
+      "eval_runtime": 9.406,
+      "eval_samples_per_second": 26.579,
+      "eval_steps_per_second": 3.402,
+      "step": 100
+    },
+    {
+      "epoch": 1.616,
+      "grad_norm": 16.69089126586914,
+      "learning_rate": 9.426229508196721e-06,
+      "loss": 0.6432,
+      "step": 101
+    },
+    {
+      "epoch": 1.616,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6738671660423279,
+      "eval_runtime": 9.4165,
+      "eval_samples_per_second": 26.549,
+      "eval_steps_per_second": 3.398,
+      "step": 101
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 8.9694242477417,
+      "learning_rate": 9.016393442622952e-06,
+      "loss": 0.5826,
+      "step": 102
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6729843616485596,
+      "eval_runtime": 9.4844,
+      "eval_samples_per_second": 26.359,
+      "eval_steps_per_second": 3.374,
+      "step": 102
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "grad_norm": 9.330092430114746,
+      "learning_rate": 8.60655737704918e-06,
+      "loss": 0.6224,
+      "step": 103
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.673214852809906,
+      "eval_runtime": 9.4192,
+      "eval_samples_per_second": 26.541,
+      "eval_steps_per_second": 3.397,
+      "step": 103
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 7.138861179351807,
+      "learning_rate": 8.196721311475409e-06,
+      "loss": 0.6262,
+      "step": 104
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6745429635047913,
+      "eval_runtime": 9.4226,
+      "eval_samples_per_second": 26.532,
+      "eval_steps_per_second": 3.396,
+      "step": 104
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 7.4160356521606445,
+      "learning_rate": 7.78688524590164e-06,
+      "loss": 0.6451,
+      "step": 105
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6730429530143738,
+      "eval_runtime": 9.4489,
+      "eval_samples_per_second": 26.458,
+      "eval_steps_per_second": 3.387,
+      "step": 105
+    },
+    {
+      "epoch": 1.696,
+      "grad_norm": 5.479573726654053,
+      "learning_rate": 7.3770491803278695e-06,
+      "loss": 0.5948,
+      "step": 106
+    },
+    {
+      "epoch": 1.696,
+      "eval_accuracy": 0.6,
+      "eval_loss": 0.6731171607971191,
+      "eval_runtime": 9.4414,
+      "eval_samples_per_second": 26.479,
+      "eval_steps_per_second": 3.389,
+      "step": 106
+    },
+    {
+      "epoch": 1.712,
+      "grad_norm": 9.357452392578125,
+      "learning_rate": 6.967213114754098e-06,
+      "loss": 0.7451,
+      "step": 107
+    },
+    {
+      "epoch": 1.712,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6747695207595825,
+      "eval_runtime": 9.4087,
+      "eval_samples_per_second": 26.571,
+      "eval_steps_per_second": 3.401,
+      "step": 107
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 10.986834526062012,
+      "learning_rate": 6.557377049180328e-06,
+      "loss": 0.5922,
+      "step": 108
+    },
+    {
+      "epoch": 1.728,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6725429892539978,
+      "eval_runtime": 9.4208,
+      "eval_samples_per_second": 26.537,
+      "eval_steps_per_second": 3.397,
+      "step": 108
+    },
+    {
+      "epoch": 1.744,
+      "grad_norm": 6.625186920166016,
+      "learning_rate": 6.147540983606558e-06,
+      "loss": 0.6454,
+      "step": 109
+    },
+    {
+      "epoch": 1.744,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6714960932731628,
+      "eval_runtime": 9.4316,
+      "eval_samples_per_second": 26.507,
+      "eval_steps_per_second": 3.393,
+      "step": 109
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 9.619455337524414,
+      "learning_rate": 5.737704918032787e-06,
+      "loss": 0.601,
+      "step": 110
+    },
+    {
+      "epoch": 1.76,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.671625018119812,
+      "eval_runtime": 9.4295,
+      "eval_samples_per_second": 26.512,
+      "eval_steps_per_second": 3.394,
+      "step": 110
+    },
+    {
+      "epoch": 1.776,
+      "grad_norm": 10.5454683303833,
+      "learning_rate": 5.327868852459016e-06,
+      "loss": 0.7236,
+      "step": 111
+    },
+    {
+      "epoch": 1.776,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6704453229904175,
+      "eval_runtime": 9.4138,
+      "eval_samples_per_second": 26.557,
+      "eval_steps_per_second": 3.399,
+      "step": 111
+    },
+    {
+      "epoch": 1.792,
+      "grad_norm": 9.553342819213867,
+      "learning_rate": 4.918032786885246e-06,
+      "loss": 0.7825,
+      "step": 112
+    },
+    {
+      "epoch": 1.792,
+      "eval_accuracy": 0.596,
+      "eval_loss": 0.673535168170929,
+      "eval_runtime": 9.4206,
+      "eval_samples_per_second": 26.538,
+      "eval_steps_per_second": 3.397,
+      "step": 112
+    },
+    {
+      "epoch": 1.808,
+      "grad_norm": 7.810243129730225,
+      "learning_rate": 4.508196721311476e-06,
+      "loss": 0.6302,
+      "step": 113
+    },
+    {
+      "epoch": 1.808,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.670703113079071,
+      "eval_runtime": 9.5051,
+      "eval_samples_per_second": 26.302,
+      "eval_steps_per_second": 3.367,
+      "step": 113
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "grad_norm": 15.086982727050781,
+      "learning_rate": 4.098360655737704e-06,
+      "loss": 0.6824,
+      "step": 114
+    },
+    {
+      "epoch": 1.8239999999999998,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6711757779121399,
+      "eval_runtime": 9.432,
+      "eval_samples_per_second": 26.505,
+      "eval_steps_per_second": 3.393,
+      "step": 114
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 13.564058303833008,
+      "learning_rate": 3.6885245901639347e-06,
+      "loss": 0.6208,
+      "step": 115
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6693046689033508,
+      "eval_runtime": 9.4215,
+      "eval_samples_per_second": 26.535,
+      "eval_steps_per_second": 3.396,
+      "step": 115
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "grad_norm": 7.943946361541748,
+      "learning_rate": 3.278688524590164e-06,
+      "loss": 0.6987,
+      "step": 116
+    },
+    {
+      "epoch": 1.8559999999999999,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.671625018119812,
+      "eval_runtime": 9.4001,
+      "eval_samples_per_second": 26.595,
+      "eval_steps_per_second": 3.404,
+      "step": 116
+    },
+    {
+      "epoch": 1.8719999999999999,
+      "grad_norm": 6.293920993804932,
+      "learning_rate": 2.8688524590163937e-06,
+      "loss": 0.5587,
+      "step": 117
+    },
+    {
+      "epoch": 1.8719999999999999,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.670785129070282,
+      "eval_runtime": 9.3933,
+      "eval_samples_per_second": 26.615,
+      "eval_steps_per_second": 3.407,
+      "step": 117
+    },
+    {
+      "epoch": 1.888,
+      "grad_norm": 5.374147415161133,
+      "learning_rate": 2.459016393442623e-06,
+      "loss": 0.6304,
+      "step": 118
+    },
+    {
+      "epoch": 1.888,
+      "eval_accuracy": 0.592,
+      "eval_loss": 0.6705155968666077,
+      "eval_runtime": 9.4015,
+      "eval_samples_per_second": 26.592,
+      "eval_steps_per_second": 3.404,
+      "step": 118
+    },
+    {
+      "epoch": 1.904,
+      "grad_norm": 11.269082069396973,
+      "learning_rate": 2.049180327868852e-06,
+      "loss": 0.4528,
+      "step": 119
+    },
+    {
+      "epoch": 1.904,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6711132526397705,
+      "eval_runtime": 9.4407,
+      "eval_samples_per_second": 26.481,
+      "eval_steps_per_second": 3.39,
+      "step": 119
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 20.449726104736328,
+      "learning_rate": 1.639344262295082e-06,
+      "loss": 0.7061,
+      "step": 120
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6705625057220459,
+      "eval_runtime": 9.4641,
+      "eval_samples_per_second": 26.416,
+      "eval_steps_per_second": 3.381,
+      "step": 120
+    },
+    {
+      "epoch": 1.936,
+      "grad_norm": 13.892779350280762,
+      "learning_rate": 1.2295081967213116e-06,
+      "loss": 0.5595,
+      "step": 121
+    },
+    {
+      "epoch": 1.936,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.670035183429718,
+      "eval_runtime": 9.4443,
+      "eval_samples_per_second": 26.471,
+      "eval_steps_per_second": 3.388,
+      "step": 121
+    },
+    {
+      "epoch": 1.952,
+      "grad_norm": 4.646062850952148,
+      "learning_rate": 8.19672131147541e-07,
+      "loss": 0.5968,
+      "step": 122
+    },
+    {
+      "epoch": 1.952,
+      "eval_accuracy": 0.588,
+      "eval_loss": 0.6705195307731628,
+      "eval_runtime": 9.4452,
+      "eval_samples_per_second": 26.468,
+      "eval_steps_per_second": 3.388,
+      "step": 122
+    },
+    {
+      "epoch": 1.968,
+      "grad_norm": 5.045331001281738,
+      "learning_rate": 4.098360655737705e-07,
+      "loss": 0.577,
+      "step": 123
+    },
+    {
+      "epoch": 1.968,
+      "eval_accuracy": 0.584,
+      "eval_loss": 0.6710820198059082,
+      "eval_runtime": 9.4702,
+      "eval_samples_per_second": 26.399,
+      "eval_steps_per_second": 3.379,
+      "step": 123
+    },
+    {
+      "epoch": 1.984,
+      "grad_norm": 12.286917686462402,
+      "learning_rate": 0.0,
+      "loss": 0.5765,
+      "step": 124
+    },
+    {
+      "epoch": 1.984,
+      "eval_accuracy": 0.58,
+      "eval_loss": 0.6720273494720459,
+      "eval_runtime": 9.4365,
+      "eval_samples_per_second": 26.493,
+      "eval_steps_per_second": 3.391,
+      "step": 124
+    },
+    {
+      "epoch": 1.984,
+      "step": 124,
+      "total_flos": 1.3708912645636096e+16,
+      "train_loss": 0.6877071011450983,
+      "train_runtime": 1489.9136,
+      "train_samples_per_second": 1.342,
+      "train_steps_per_second": 0.083
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 124,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 1.3708912645636096e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3c64fa07b9464577ce20395fa1ff2c5294abb10aff73054e31f522e63696da8
+size 5048

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff