kazuHF
/

llm-jp-3-13b-it2_lora

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

kazuHF commited on Dec 17, 2024

Commit

632c98d

·

verified ·

1 Parent(s): 675c96f

Update README.md

Files changed (1) hide show

README.md +4 -12

README.md CHANGED Viewed

@@ -39,18 +39,10 @@ This llama model was trained 2x faster with [Unsloth](https://github.com/unsloth
 - 推論による出力のkeyは “task_id”, “input”, “output”
 4. 推論方法
-- Hugging FaceのIDとして、
-　model_id = "llm-jp/llm-jp-3-13b”, adapter_id = "kazuHF/llm-jp-3-13b-it2_lora"
-と指定し、
-　FastLanguageModel.from_pretrained( … model_id … )
-で元のモデルをロードする。そして
-　model = PeftModel.from_pretrained( … adaptor_id … )
-によって元のモデルとLoRAのアダプターを結合し、そのモデルのモードを
-　FastLanguageModel.for_inference(model)
-によって推論モードに変更する。
-入力を”””###\n 指示 入力 \n### 回答\n”””の形式にしてトークン化し、
-　model.generate( “input_ids”: …, “attention_mask”: …, …)
-によってpredictionを行い、それをdecodeして出力とする。
 5. ライセンス
 - ベースモデル: 国立情報学研究所 大規模言語モデル研究開発センターが公開しているllm-jp/llm-jp-3-13b。Apache 2.0 のライセンスを継承する。

 - 推論による出力のkeyは “task_id”, “input”, “output”
 4. 推論方法
+- Hugging FaceのIDとして、model_id = "llm-jp/llm-jp-3-13b”, adapter_id = "kazuHF/llm-jp-3-13b-it2_lora" と指定し、FastLanguageModel.from_pretrained( … model_id … )
+で元のモデルをロードする。
+- そして model = PeftModel.from_pretrained( … adaptor_id … )によって元のモデルとLoRAのアダプターを結合し、そのモデルのモードを FastLanguageModel.for_inference(model) によって推論モードに変更する。
+- 入力を”””###\n 指示 入力 \n### 回答\n”””の形式にしてトークン化し、model.generate( “input_ids”: …, “attention_mask”: …, …) によってpredictionを行い、それをdecodeして出力とする。
 5. ライセンス
 - ベースモデル: 国立情報学研究所 大規模言語モデル研究開発センターが公開しているllm-jp/llm-jp-3-13b。Apache 2.0 のライセンスを継承する。