kakerukc0506 commited on
Commit
2c6d7a3
·
verified ·
1 Parent(s): 8172cd9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -18
README.md CHANGED
@@ -22,7 +22,7 @@
22
  !pip install --upgrade --no-cache-dir "xxxx"
23
  ```
24
 
25
- # Google Colab のデフォルトで入っているパッケージをアップグレード(Moriyasu さんありがとうございます)
26
  ```
27
  !pip install --upgrade torch
28
  !pip install --upgrade xformers
@@ -85,25 +85,12 @@ model = FastLanguageModel.get_peft_model(
85
  max_seq_length = max_seq_length,
86
  )
87
  ```
88
- # 学習に用いるデータセットの指定
89
- # 今回はLLM-jp の公開している Ichikara Instruction を使います。データにアクセスするためには申請が必要ですので、使いたい方のみ申請をしてください。
90
- # Ichikara Instruciton を Hugging Face Hub にて公開することはお控えください。
91
- # また、CC-BY-NC-SAですのでモデルはライセンスを継承する前提でお使いください。
92
-
93
- # 下記のリンクから申請を終えた先に Google Drive があり、Distribution20241221_all というフォルダごとダウンロードしてください。
94
- # 今回は「ichikara-instruction-003-001-1.json」を使います。必要であれば展開(!unzip など)し、データセットのパスを適切に指定してください。
95
- # omnicampusの開発環境では取得したデータを左側にドラッグアンドドロップしてお使いください。
96
- # Google Colab の場合も左のサイドバーよりドラッグ&ドロップでアップデートしてください。
97
-
98
- # https://liat-aip.sakura.ne.jp/wp/llmのための日本語インストラクションデータ作成/llmのための日本語インストラクションデータ-公開/
99
- # 関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)
100
  ```
101
  from datasets import load_dataset
102
  ```
103
  dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
104
 
105
- # パスの指定にご注意ください。アップロードしたファイルを右クリックし、「パスをコピー」をクリック、上記の data_files と合致していることをご確認ください。Omnicampus のディレクトリ構造とは異なるかもしれません。
106
-
107
  # 学習時のプロンプトフォーマットの定義
108
  ```
109
  prompt = """### 指示
@@ -238,9 +225,7 @@ print(f"{start_gpu_memory} GB of memory reserved.")
238
  trainer_stats = trainer.train()
239
  ```
240
 
241
- # ELYZA-tasks-100-TVの読み込み。事前にファイルをアップロードしてください
242
- # データセットの読み込み。
243
- # omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
244
  ```
245
  import json
246
  datasets = []
 
22
  !pip install --upgrade --no-cache-dir "xxxx"
23
  ```
24
 
25
+ # Google Colab のデフォルトで入っているパッケージをアップグレード
26
  ```
27
  !pip install --upgrade torch
28
  !pip install --upgrade xformers
 
85
  max_seq_length = max_seq_length,
86
  )
87
  ```
88
+ # 学習に用いるデータセットの指定(今回はLLM-jp の公開している Ichikara Instruction を使用。)
 
 
 
 
 
 
 
 
 
 
 
89
  ```
90
  from datasets import load_dataset
91
  ```
92
  dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
93
 
 
 
94
  # 学習時のプロンプトフォーマットの定義
95
  ```
96
  prompt = """### 指示
 
225
  trainer_stats = trainer.train()
226
  ```
227
 
228
+ # データセットの読み込み
 
 
229
  ```
230
  import json
231
  datasets = []