grapevine-AI
/

CALM3-22B-Chat-GGUF

Inference Endpoints

Model card Files Files and versions Community

CALM3-22B-Chat-GGUF / README.md

grapevine-AI's picture

Update README.md

29c5df9 verified 7 months ago

|

history blame contribute delete

1.62 kB

	---
	license: apache-2.0
	---
	# caution!
	このGGUFは本来の性能を十分に発揮できていない「暫定版」です。<br>
	これは2024年7月3日現在のllama.cppがCALM3モデル固有のpre-tokenization（≒前処理）をサポートしていないことに起因します。<br>
	妥協策として、pre-tokenization処理はllama.cppデフォルトのものを利用するように改造してありますが、これはモデルの性能低下を引き落としている可能性が極めて高いです。

	# What is this?
	CyberAgentの日英バイリンガル言語モデル[CyberAgentLM3-22B-Chat](https://huggingface.co/cyberagent/calm3-22b-chat)をGGUFフォーマットに変換したものです。

	# imatrix dataset
	日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
	また、imatrixの算出においてはq8_0精度のモデルを使用しました。これは、現行のCUDA版llama.cppがbf16での計算に非対応であり、またf16を使用した場合も原因不明のnanが検出されたためです。

	# Chat template
	```
	<\|im_start\|>system
	ここにSystem Promptを書きます。<\|im_end\|>
	<\|im_start\|>user
	ここにMessageを書きます。<\|im_end\|>
	<\|im_start\|>assistant


	```

	# Environment
	Windows版llama.cpp-b3274およびpre-tokenization関連に細工を施した改造版convert-hf-to-gguf.pyを使用して量子化作業を実施しました。

	# License
	apache-2.0

	# Developer
	CyberAgent