shibing624
/

text2vec-base-chinese

 print(sentence_embeddings)
 ```
+## Model speed up
+| Model                                                                                                                        | ATEC              | BQ                | LCQMC            | PAWSX            | STSB             |
+|------------------------------------------------------------------------------------------------------------------------------|-------------------|-------------------|------------------|------------------|------------------|
+| shibing624/text2vec-base-chinese (fp32, baseline)                                                                            | 0.31928           | 0.42672           | 0.70157          | 0.17214          | 0.79296          |
+| shibing624/text2vec-base-chinese (onnx-O4, [#29](https://huggingface.co/shibing624/text2vec-base-chinese/discussions/29))    | 0.31928           | 0.42672           | 0.70157          | 0.17214          | 0.79296          |
+| shibing624/text2vec-base-chinese (ov, [#27](https://huggingface.co/shibing624/text2vec-base-chinese/discussions/27))         | 0.31928           | 0.42672           | 0.70157          | 0.17214          | 0.79296          |
+| shibing624/text2vec-base-chinese (ov-qint8, [#30](https://huggingface.co/shibing624/text2vec-base-chinese/discussions/30))   | 0.30778 (-3.60%)  | 0.43474 (+1.88%)  | 0.69620 (-0.77%) | 0.16662 (-3.20%) | 0.79396 (+0.13%) |
+In short:
+1. ✅ shibing624/text2vec-base-chinese (onnx-O4), ONNX Optimized to [O4](https://huggingface.co/docs/optimum/en/onnxruntime/usage_guides/optimization) does not reduce performance, but gives a [~2x speedup](https://sbert.net/docs/sentence_transformer/usage/efficiency.html#benchmarks) on GPU.
+2. ✅ shibing624/text2vec-base-chinese (ov), OpenVINO does not reduce performance, but gives a 1.12x speedup on CPU.
+3. 🟡 shibing624/text2vec-base-chinese (ov-qint8), int8 quantization with OV incurs a small performance hit on some tasks, and a tiny performance gain on others, when quantizing with [Chinese STSB](https://huggingface.co/datasets/PhilipMay/stsb_multi_mt). Additionally, it results in a [4.78x speedup](https://sbert.net/docs/sentence_transformer/usage/efficiency.html#benchmarks) on CPU.
+- usage: shibing624/text2vec-base-chinese (onnx-O4), for gpu
+```
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer(
+    "shibing624/text2vec-base-chinese",
+    backend="onnx",
+    model_kwargs={"file_name": "model_O4.onnx"},
+)
+embeddings = model.encode(["怎么开通银行卡", "如何更换花呗绑定银行卡", "花呗更改绑定银行卡"])
+print(embeddings.shape)
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+```
+- usage: shibing624/text2vec-base-chinese (ov), for cpu
+```
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer(
+    "shibing624/text2vec-base-chinese",
+    backend="openvino",
+)
+embeddings = model.encode(["怎么开通银行卡", "如何更换花呗绑定银行卡", "花呗更改绑定银行卡"])
+print(embeddings.shape)
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+```
+- usage: shibing624/text2vec-base-chinese (ov-qint8), for cpu
+```
+from sentence_transformers import SentenceTransformer
+model = SentenceTransformer(
+    "shibing624/text2vec-base-chinese",
+    backend="onnx",
+    model_kwargs={"file_name": "model_qint8_avx512_vnni.onnx"},
+)
+embeddings = model.encode(["怎么开通银行卡", "如何更换花呗绑定银行卡", "花呗更改绑定银行卡"])
+print(embeddings.shape)
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+```
 ## Full Model Architecture
 ```