Update README.md
Browse files
README.md
CHANGED
@@ -38,7 +38,7 @@ language:
|
|
38 |
|
39 |
東京大学 松尾・岩澤研究室 大規模言語モデル2024 最終課題
|
40 |
|
41 |
-
(作成日:2024年11月
|
42 |
|
43 |
https://weblab.t.u-tokyo.ac.jp/lecture/course-list/large-language-model/
|
44 |
|
@@ -46,13 +46,14 @@ https://weblab.t.u-tokyo.ac.jp/lecture/course-list/large-language-model/
|
|
46 |
以下は、elyza-tasks-100-TV_0.jsonlの回答用モデルコードです!
|
47 |
|
48 |
# -*- coding: utf-8 -*-
|
49 |
-
|
|
|
50 |
|
51 |
Automatically generated by Colab.
|
52 |
|
53 |
Original file is located at
|
54 |
https://colab.research.google.com/drive/1TLF_HtVz6ng9ZAWe7lHy59kiHBg3_3y0
|
55 |
-
|
56 |
|
57 |
!pip uninstall unsloth -y
|
58 |
!pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
|
@@ -106,7 +107,7 @@ model = FastLanguageModel.get_peft_model(
|
|
106 |
loftq_config = None,
|
107 |
max_seq_length = max_seq_length,)
|
108 |
|
109 |
-
HF_TOKEN = "*****" #@param {type:"string"} #My token is secret!
|
110 |
|
111 |
from datasets import load_dataset
|
112 |
|
@@ -123,9 +124,9 @@ prompt = """### 指示
|
|
123 |
|
124 |
|
125 |
|
126 |
-
|
127 |
formatting_prompts_func: 各データをプロンプトに合わせた形式に合わせる
|
128 |
-
|
129 |
EOS_TOKEN = tokenizer.eos_token # トークナイザーのEOSトークン(文末トークン)
|
130 |
def formatting_prompts_func(examples):
|
131 |
input = examples["text"] # 入力データ
|
@@ -152,7 +153,7 @@ output.disable_custom_widget_manager()
|
|
152 |
|
153 |
print(dataset["test"]["formatted_text"][3])
|
154 |
|
155 |
-
|
156 |
training_arguments: 学習の設定
|
157 |
|
158 |
- output_dir:
|
@@ -211,7 +212,7 @@ training_arguments: 学習の設定
|
|
211 |
|
212 |
- report_to:
|
213 |
- ログの送信先 ("wandb"/"tensorboard"など)
|
214 |
-
|
215 |
from trl import SFTTrainer
|
216 |
from transformers import TrainingArguments
|
217 |
from unsloth import is_bfloat16_supported
|
|
|
38 |
|
39 |
東京大学 松尾・岩澤研究室 大規模言語モデル2024 最終課題
|
40 |
|
41 |
+
(作成日:2024年11月30日 作成者:出水 利樹 #SoftBank #MONET Technologies)
|
42 |
|
43 |
https://weblab.t.u-tokyo.ac.jp/lecture/course-list/large-language-model/
|
44 |
|
|
|
46 |
以下は、elyza-tasks-100-TV_0.jsonlの回答用モデルコードです!
|
47 |
|
48 |
# -*- coding: utf-8 -*-
|
49 |
+
```
|
50 |
+
llm-jp-3-13b-finetune2.ipynb
|
51 |
|
52 |
Automatically generated by Colab.
|
53 |
|
54 |
Original file is located at
|
55 |
https://colab.research.google.com/drive/1TLF_HtVz6ng9ZAWe7lHy59kiHBg3_3y0
|
56 |
+
```
|
57 |
|
58 |
!pip uninstall unsloth -y
|
59 |
!pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
|
|
|
107 |
loftq_config = None,
|
108 |
max_seq_length = max_seq_length,)
|
109 |
|
110 |
+
HF_TOKEN = "*****" #@param {type:"string"} #My token is secret! by demimomi
|
111 |
|
112 |
from datasets import load_dataset
|
113 |
|
|
|
124 |
|
125 |
|
126 |
|
127 |
+
```
|
128 |
formatting_prompts_func: 各データをプロンプトに合わせた形式に合わせる
|
129 |
+
```
|
130 |
EOS_TOKEN = tokenizer.eos_token # トークナイザーのEOSトークン(文末トークン)
|
131 |
def formatting_prompts_func(examples):
|
132 |
input = examples["text"] # 入力データ
|
|
|
153 |
|
154 |
print(dataset["test"]["formatted_text"][3])
|
155 |
|
156 |
+
```
|
157 |
training_arguments: 学習の設定
|
158 |
|
159 |
- output_dir:
|
|
|
212 |
|
213 |
- report_to:
|
214 |
- ログの送信先 ("wandb"/"tensorboard"など)
|
215 |
+
```
|
216 |
from trl import SFTTrainer
|
217 |
from transformers import TrainingArguments
|
218 |
from unsloth import is_bfloat16_supported
|