diff --git "a/how_to_use.ipynb" "b/how_to_use.ipynb"
new file mode 100644--- /dev/null
+++ "b/how_to_use.ipynb"
@@ -0,0 +1,2939 @@
+{
+  "cells": [
+    {
+      "cell_type": "code",
+      "execution_count": 1,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "!pip install transformers accelerate bitsandbytes sentencepiece einops"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 1,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "c:\\Users\\horiy\\anaconda3\\envs\\qlora\\lib\\site-packages\\tqdm\\auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html\n",
+            "  from .autonotebook import tqdm as notebook_tqdm\n"
+          ]
+        },
+        {
+          "name": "stdout",
+          "output_type": "stream",
+          "text": [
+            "\n",
+            "===================================BUG REPORT===================================\n",
+            "Welcome to bitsandbytes. For bug reports, please run\n",
+            "\n",
+            "python -m bitsandbytes\n",
+            "\n",
+            " and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues\n",
+            "================================================================================\n",
+            "bin c:\\Users\\horiy\\anaconda3\\envs\\qlora\\lib\\site-packages\\bitsandbytes\\libbitsandbytes_cuda116.dll\n",
+            "CUDA SETUP: CUDA runtime path found: C:\\Program Files\\NVIDIA GPU Computing Toolkit\\CUDA\\v11.6\\bin\\cudart64_110.dll\n",
+            "CUDA SETUP: Highest compute capability among GPUs detected: 8.6\n",
+            "CUDA SETUP: Detected CUDA version 116\n",
+            "CUDA SETUP: Loading binary c:\\Users\\horiy\\anaconda3\\envs\\qlora\\lib\\site-packages\\bitsandbytes\\libbitsandbytes_cuda116.dll...\n"
+          ]
+        },
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "c:\\Users\\horiy\\anaconda3\\envs\\qlora\\lib\\site-packages\\bitsandbytes\\cuda_setup\\main.py:156: UserWarning: WARNING: The following directories listed in your path were found to be non-existent: {WindowsPath('C:/Users/horiy/anaconda3/envs/qlora/bin')}\n",
+            "  warn(msg)\n",
+            "c:\\Users\\horiy\\anaconda3\\envs\\qlora\\lib\\site-packages\\bitsandbytes\\cuda_setup\\main.py:156: UserWarning: C:\\Users\\horiy\\anaconda3\\envs\\qlora did not contain ['cudart64_110.dll', 'cudart64_120.dll', 'cudart64_12.dll'] as expected! Searching further paths...\n",
+            "  warn(msg)\n"
+          ]
+        }
+      ],
+      "source": [
+        "import torch\n",
+        "from transformers import AutoModelForCausalLM, AutoTokenizer\n",
+        "from peft import PeftModel\n",
+        "\n",
+        "MODEL_ID = \"AIBunCho/japanese-novel-gpt-j-6b\"\n",
+        "MODEL_QLORA_ID = \"tsukemono/japanese-novel-gpt-j-6b-qlora-marisa\""
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 2,
+      "metadata": {
+        "colab": {
+          "base_uri": "https://localhost:8080/"
+        },
+        "id": "VOmiOziuEr6N",
+        "outputId": "678b317e-f235-43f2-e443-1df05bd20253"
+      },
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "c:\\Users\\horiy\\anaconda3\\envs\\qlora\\lib\\site-packages\\transformers\\convert_slow_tokenizer.py:470: UserWarning: The sentencepiece tokenizer that you are converting to a fast tokenizer uses the byte fallback option which is not implemented in the fast tokenizers. In practice this means that the fast version of the tokenizer can produce unknown tokens whereas the sentencepiece version would have converted these unknown tokens into a sequence of byte tokens matching the original piece of text.\n",
+            "  warnings.warn(\n",
+            "Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.\n"
+          ]
+        }
+      ],
+      "source": [
+        "# tokenizer設定\n",
+        "tokenizer = AutoTokenizer.from_pretrained(\n",
+        "    MODEL_ID,\n",
+        "    use_fast=True,\n",
+        ")\n",
+        "ret_token = tokenizer(\"[SEP]\",  truncation=True, add_special_tokens=False)['input_ids'][-1]\n",
+        "bra_token = tokenizer(\"（\",  truncation=True, add_special_tokens=False)['input_ids'][-1]"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 4,
+      "metadata": {},
+      "outputs": [
+        {
+          "name": "stderr",
+          "output_type": "stream",
+          "text": [
+            "Loading checkpoint shards: 100%|██████████| 2/2 [00:27<00:00, 13.57s/it]\n",
+            "Downloading (…)/adapter_config.json: 100%|██████████| 502/502 [00:00<?, ?B/s] \n",
+            "Downloading adapter_model.bin: 100%|██████████| 66.2M/66.2M [00:07<00:00, 8.85MB/s]\n"
+          ]
+        },
+        {
+          "data": {
+            "text/plain": [
+              "PeftModelForCausalLM(\n",
+              "  (base_model): LoraModel(\n",
+              "    (model): GPTJForCausalLM(\n",
+              "      (transformer): GPTJModel(\n",
+              "        (wte): Embedding(50400, 4096)\n",
+              "        (drop): Dropout(p=0.0, inplace=False)\n",
+              "        (h): ModuleList(\n",
+              "          (0): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (1): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (2): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (3): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (4): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (5): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (6): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (7): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (8): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (9): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (10): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (11): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (12): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (13): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (14): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (15): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (16): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (17): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (18): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (19): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (20): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (21): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (22): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (23): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (24): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (25): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (26): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "          (27): GPTJBlock(\n",
+              "            (ln_1): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "            (attn): GPTJAttention(\n",
+              "              (attn_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (resid_dropout): Dropout(p=0.0, inplace=False)\n",
+              "              (k_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (v_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (q_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (out_proj): Linear8bitLt(\n",
+              "                in_features=4096, out_features=4096, bias=False\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "            )\n",
+              "            (mlp): GPTJMLP(\n",
+              "              (fc_in): Linear8bitLt(\n",
+              "                in_features=4096, out_features=16384, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=4096, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=16384, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (fc_out): Linear8bitLt(\n",
+              "                in_features=16384, out_features=4096, bias=True\n",
+              "                (lora_dropout): ModuleDict(\n",
+              "                  (default): Dropout(p=0.05, inplace=False)\n",
+              "                )\n",
+              "                (lora_A): ModuleDict(\n",
+              "                  (default): Linear(in_features=16384, out_features=8, bias=False)\n",
+              "                )\n",
+              "                (lora_B): ModuleDict(\n",
+              "                  (default): Linear(in_features=8, out_features=4096, bias=False)\n",
+              "                )\n",
+              "                (lora_embedding_A): ParameterDict()\n",
+              "                (lora_embedding_B): ParameterDict()\n",
+              "              )\n",
+              "              (act): NewGELUActivation()\n",
+              "              (dropout): Dropout(p=0.0, inplace=False)\n",
+              "            )\n",
+              "          )\n",
+              "        )\n",
+              "        (ln_f): LayerNorm((4096,), eps=1e-05, elementwise_affine=True)\n",
+              "      )\n",
+              "      (lm_head): Linear(in_features=4096, out_features=50400, bias=True)\n",
+              "    )\n",
+              "  )\n",
+              ")"
+            ]
+          },
+          "execution_count": 4,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "# model設定\n",
+        "model = AutoModelForCausalLM.from_pretrained(MODEL_ID, device_map=\"auto\", load_in_8bit=False, torch_dtype=torch.float16)\n",
+        "model = PeftModel.from_pretrained(model, MODEL_QLORA_ID, device_map=\"auto\")\n",
+        "model.eval()"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 5,
+      "metadata": {},
+      "outputs": [],
+      "source": [
+        "# テキスト生成関数の定義\n",
+        "def generate(text,maxTokens=512):\n",
+        "    prompt = f\"ユーザー: {text}[SEP]魔理沙: \"\n",
+        "    input_ids = tokenizer(prompt,\n",
+        "        return_tensors=\"pt\",\n",
+        "        truncation=True,\n",
+        "        add_special_tokens=False\n",
+        "    ).input_ids.cuda()\n",
+        "    with torch.no_grad():\n",
+        "        outputs = model.generate(\n",
+        "            input_ids = input_ids,\n",
+        "            max_length=maxTokens,\n",
+        "            do_sample=True,\n",
+        "            temperature=0.1,\n",
+        "            top_p=0.9,\n",
+        "            top_k=20,\n",
+        "            no_repeat_ngram_size=2,\n",
+        "            repetition_penalty=1.15,\n",
+        "            pad_token_id=tokenizer.pad_token_id,\n",
+        "            bad_words_ids=[[bra_token]],\n",
+        "            eos_token_id = [tokenizer.eos_token_id,ret_token]\n",
+        "        )\n",
+        "    outputs = tokenizer.decode(outputs.tolist()[0][input_ids.size(1):],skip_special_tokens=True)\n",
+        "    return outputs"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 6,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "'努力と根性だ! '"
+            ]
+          },
+          "execution_count": 6,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "generate(\"強さの秘訣はなんですか?\")"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 7,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "'良いんじゃないか。私は好きだぜ、この考え方は。ただ、ちょっと極端すぎる気もするけどな。 '"
+            ]
+          },
+          "execution_count": 7,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "generate(\"ブッダの思想についてどう思う?\")"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 8,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "'富士山だ! '"
+            ]
+          },
+          "execution_count": 8,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "generate(\"日本で一番高い山は?\")"
+      ]
+    },
+    {
+      "cell_type": "code",
+      "execution_count": 9,
+      "metadata": {},
+      "outputs": [
+        {
+          "data": {
+            "text/plain": [
+              "'そうだな。一言で言えば「忘れられた者の行きつく先」だな。 '"
+            ]
+          },
+          "execution_count": 9,
+          "metadata": {},
+          "output_type": "execute_result"
+        }
+      ],
+      "source": [
+        "generate(\"幻想郷ってどんな場所?\")"
+      ]
+    }
+  ],
+  "metadata": {
+    "accelerator": "GPU",
+    "colab": {
+      "gpuType": "T4",
+      "provenance": []
+    },
+    "gpuClass": "standard",
+    "kernelspec": {
+      "display_name": "Python 3",
+      "name": "python3"
+    },
+    "language_info": {
+      "codemirror_mode": {
+        "name": "ipython",
+        "version": 3
+      },
+      "file_extension": ".py",
+      "mimetype": "text/x-python",
+      "name": "python",
+      "nbconvert_exporter": "python",
+      "pygments_lexer": "ipython3",
+      "version": "3.10.12"
+    }
+  },
+  "nbformat": 4,
+  "nbformat_minor": 0
+}