kakerukc0506
/

finellm-jp-3-13b-LoRA_unsloth2

@@ -22,7 +22,7 @@
 !pip install --upgrade --no-cache-dir "xxxx"
 ```
-# Google Colab のデフォルトで入っているパッケージをアップグレード（Moriyasu さんありがとうございます）
 ```
 !pip install --upgrade torch
 !pip install --upgrade xformers
@@ -85,25 +85,12 @@ model = FastLanguageModel.get_peft_model(
     max_seq_length = max_seq_length,
 )
 ```
-# 学習に用いるデータセットの指定
-# 今回はLLM-jp の公開している Ichikara Instruction を使います。データにアクセスするためには申請が必要ですので、使いたい方のみ申請をしてください。
-# Ichikara Instruciton を Hugging Face Hub にて公開することはお控えください。
-# また、CC-BY-NC-SAですのでモデルはライセンスを継承する前提でお使いください。
-# 下記のリンクから申請を終えた先に Google Drive があり、Distribution20241221_all というフォルダごとダウンロードしてください。
-# 今回は「ichikara-instruction-003-001-1.json」を使います。必要であれば展開（!unzip など）し、データセットのパスを適切に指定してください。
-# omnicampusの開発環境では取得したデータを左側にドラッグアンドドロップしてお使いください。
-# Google Colab の場合も左のサイドバーよりドラッグ&ドロップでアップデートしてください。
-# https://liat-aip.sakura.ne.jp/wp/llmのための日本語インストラクションデータ作成/llmのための日本語インストラクションデータ-公開/
-# 関根聡, 安藤まや, 後藤美知子, 鈴木久美, 河原大輔, 井之上直也, 乾健太郎. ichikara-instruction: LLMのための日本語インストラクションデータの構築. 言語処理学会第30回年次大会(2024)
 ```
 from datasets import load_dataset
 ```
 dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
-# パスの指定にご注意ください。アップロードしたファイルを右クリックし、「パスをコピー」をクリック、上記の data_files と合致していることをご確認ください。Omnicampus のディレクトリ構造とは異なるかもしれません。
 # 学習時のプロンプトフォーマットの定義
 ```
 prompt = """### 指示
@@ -238,9 +225,7 @@ print(f"{start_gpu_memory} GB of memory reserved.")
 trainer_stats = trainer.train()
 ```
-# ELYZA-tasks-100-TVの読み込み。事前にファイルをアップロードしてください
-# データセットの読み込み。
-# omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
 ```
 import json
 datasets = []

 !pip install --upgrade --no-cache-dir "xxxx"
 ```
+# Google Colab のデフォルトで入っているパッケージをアップグレード
 ```
 !pip install --upgrade torch
 !pip install --upgrade xformers
     max_seq_length = max_seq_length,
 )
 ```
+# 学習に用いるデータセットの指定(今回はLLM-jp の公開している Ichikara Instruction を使用。)
 ```
 from datasets import load_dataset
 ```
 dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
 # 学習時のプロンプトフォーマットの定義
 ```
 prompt = """### 指示
 trainer_stats = trainer.train()
 ```
+# データセットの読み込み
 ```
 import json
 datasets = []