kakerukc0506
commited on
Update README.md
Browse files
README.md
CHANGED
@@ -22,7 +22,7 @@
|
|
22 |
!pip install --upgrade --no-cache-dir "xxxx"
|
23 |
```
|
24 |
|
25 |
-
# Google Colab
|
26 |
```
|
27 |
!pip install --upgrade torch
|
28 |
!pip install --upgrade xformers
|
@@ -85,25 +85,12 @@ model = FastLanguageModel.get_peft_model(
|
|
85 |
max_seq_length = max_seq_length,
|
86 |
)
|
87 |
```
|
88 |
-
# 学習に用いるデータセットの指定
|
89 |
-
# 今回はLLM-jp の公開している Ichikara Instruction を使います。データにアクセスするためには申請が必要ですので、使いたい方のみ申請をしてください。
|
90 |
-
# Ichikara Instruciton を Hugging Face Hub にて公開することはお控えください。
|
91 |
-
# また、CC-BY-NC-SAですのでモデルはライセンスを継承する前提でお使いください。
|
92 |
-
|
93 |
-
# 下記のリンクから申請を終えた先に Google Drive があり、Distribution20241221_all というフォルダごとダウンロードしてください。
|
94 |
-
# 今回は「ichikara-instruction-003-001-1.json」を使います。必要であれば展開(!unzip など)し、データセットのパスを適切に指定してください。
|
95 |
-
# omnicampusの開発環境では取得したデータを左側にドラッグアンドドロップしてお使いください。
|
96 |
-
# Google Colab の場合も左のサイドバーよりドラッグ&ドロップでアップデートしてください。
|
97 |
-
|
98 |
-
# https://liat-aip.sakura.ne.jp/wp/llmのための日本語インストラクションデータ作成/llmのための日本語インストラクションデータ-公開/
|
99 |
-
# 関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)
|
100 |
```
|
101 |
from datasets import load_dataset
|
102 |
```
|
103 |
dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
|
104 |
|
105 |
-
# パスの指定にご注意ください。アップロードしたファイルを右クリックし、「パスをコピー」をクリック、上記の data_files と合致していることをご確認ください。Omnicampus のディレクトリ構造とは異なるかもしれません。
|
106 |
-
|
107 |
# 学習時のプロンプトフォーマットの定義
|
108 |
```
|
109 |
prompt = """### 指示
|
@@ -238,9 +225,7 @@ print(f"{start_gpu_memory} GB of memory reserved.")
|
|
238 |
trainer_stats = trainer.train()
|
239 |
```
|
240 |
|
241 |
-
#
|
242 |
-
# データセットの読み込み。
|
243 |
-
# omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
|
244 |
```
|
245 |
import json
|
246 |
datasets = []
|
|
|
22 |
!pip install --upgrade --no-cache-dir "xxxx"
|
23 |
```
|
24 |
|
25 |
+
# Google Colab のデフォルトで入っているパッケージをアップグレード
|
26 |
```
|
27 |
!pip install --upgrade torch
|
28 |
!pip install --upgrade xformers
|
|
|
85 |
max_seq_length = max_seq_length,
|
86 |
)
|
87 |
```
|
88 |
+
# 学習に用いるデータセットの指定(今回はLLM-jp の公開している Ichikara Instruction を使用。)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
89 |
```
|
90 |
from datasets import load_dataset
|
91 |
```
|
92 |
dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
|
93 |
|
|
|
|
|
94 |
# 学習時のプロンプトフォーマットの定義
|
95 |
```
|
96 |
prompt = """### 指示
|
|
|
225 |
trainer_stats = trainer.train()
|
226 |
```
|
227 |
|
228 |
+
# データセットの読み込み
|
|
|
|
|
229 |
```
|
230 |
import json
|
231 |
datasets = []
|