takeofuture
/

llm-jp-3-13b-finetune-22_lora

Text Generation

Model card Files Files and versions Community

takeofuture commited on 25 days ago

Commit

be70762

·

verified ·

1 Parent(s): 3875cf0

Update README.md

Files changed (1) hide show

README.md +59 -0

README.md CHANGED Viewed

@@ -72,6 +72,65 @@
   prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
   print(prediction)
   ```
 ## **GOOGLE　COLABORATORYでのelyza_100_tvでの推論方法**
 以下のノートを参照してください

   prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
   print(prediction)
   ```
+- **ベンチマークの実施**
+  ```
+  from unsloth import FastLanguageModel
+  from peft import PeftModel
+  import torch
+  import json
+  from tqdm import tqdm
+  import re
+  #ベースとなるモデルと学習したLoRAのアダプタ（Hugging FaceのIDを指定）。
+  #model_id = "llm-jp/llm-jp-3-13b" #HUGGINGFACEをよりダウンロードするときはこちらを使いください
+  local_model_dir = "./models/llm-jp/llm-jp-3-13b"  # 事前にダウンロードしたモデルのローカルディレクトリ
+  adapter_id = "takeofuture/llm-jp-3-13b-finetune-22_lora"
+  HF_TOKEN = "HUGGINGFACEのTOKENを入れてください"
+  #unslothのFastLanguageModelで元のモデルをロード。
+  dtype = None # Noneにしておけば自動で設定
+  load_in_4bit = True # 今回は13Bモデルを扱うためTrue
+  model, tokenizer = FastLanguageModel.from_pretrained(
+    #model_name=model_id,
+    model_name=local_model_dir,
+    dtype=dtype,
+    load_in_4bit=load_in_4bit,
+    trust_remote_code=True,
+  )
+  model = PeftModel.from_pretrained(model, adapter_id, token = HF_TOKEN)
+  #タスクとなるデータの読み込み。
+  datasets = []
+  with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
+    item = ""
+    for line in f:
+      line = line.strip()
+      item += line
+      if item.endswith("}"):
+        datasets.append(json.loads(item))
+        item = ""
+  #推論モードに切り替え
+  FastLanguageModel.for_inference(model)
+  results = []
+  for dt in tqdm(datasets):
+    input = dt["input"]
+    print("\n\n=====================================================================================================================\n")
+    print("---指示---")
+    print(input)
+    prompt = f"""### 指示\n{input}\n### 回答\n"""
+    inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
+    if "token_type_ids" in inputs:
+        del inputs["token_type_ids"]
+    outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
+    prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
+    print("---回答---")
+    print(prediction)
+    results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
+  #結果をjsonlで保存。
+  json_file_id = re.sub(".*/", "", adapter_id)
+  with open(f"./{json_file_id}_output.jsonl", 'w', encoding='utf-8') as f:
+    for result in results:
+      json.dump(result, f, ensure_ascii=False)
+      f.write('\n')
+  ```
 ## **GOOGLE　COLABORATORYでのelyza_100_tvでの推論方法**
 以下のノートを参照してください