モデル概要

AWSのtrn1インスタンスを用いて開発した大喜利言語モデルです。
事前学習後に大喜利データでFine-tuningしています。

学習データ

以下のコーパスを使用して、事前学習を行いました。その際のトークン数は477億トークンでした。

  • C4の日本語データ
  • CC-100の日本語データ
  • OSCARの日本語データ
  • Wikipediaの日本語ダンプデータ
  • 自社データ

Fine-tuningは、693万件の大喜利データを用いて行いました。

使用方法

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "watashiha/watashiha-gpt-6b"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)

if torch.cuda.is_available():
    model = model.to("cuda")

text = "お題:ホラー映画の「○○○から逃げろ!」<SEP>回答:"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)

output_ids = model.generate(
    token_ids,
    do_sample=True,
    max_new_tokens=32,
    top_p=0.9,
    top_k=50,
    pad_token_id=tokenizer.pad_token_id,
    eos_token_id=tokenizer.eos_token_id,
)
output = tokenizer.decode(output_ids.tolist()[0], skip_special_tokens=True)
print(output)
"""お題:ホラー映画の「○○○から逃げろ!」<SEP>回答:怖いもの知らずの大学生"""

性能比較

以下は各モデルを同様の条件でFine-tuningし、出力させたボケをケータイ大喜利レジェンドに4段階で評価してもらった結果です。

圏外:お題を日本語として理解できていない
1本:お題を理解はできているがボケとして成立していない(面白みがない)
2本:ボケとして成立している(面白みがある)
3本:面白い(一定以上の面白さがある)

圏外 1本 2本 3本
watashiha-gpt-6b 77 204 175 44
rinna/japanese-gpt-neox-3.6b 88 194 185 30
stabilityai/japanese-stablelm-base-alpha-7b 96 164 196 43
elyza/ELYZA-japanese-Llama-2-7b-fast 75 197 198 25

開発者

  • 内田 達弥 (UCHIDA, Tatsuya)
  • 小橋 洋平 (KOBASHI, Yohei)
  • 黒木 修弥 (KUROKI, Shuya)
  • 久保田 光 (KUBOTA, Hikaru)
  • 竹之内 大輔 (TAKENOUCHI, Daisuke)
Downloads last month
352
Safetensors
Model size
5.83B params
Tensor type
BF16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.