SentenceTransformer based on intfloat/multilingual-e5-large-instruct

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-large-instruct. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-large-instruct
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 1024 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 1024, 'out_features': 1024, 'bias': True, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (3): Dropout(
    (dropout_layer): Dropout(p=0.1, inplace=False)
  )
  (4): Dense({'in_features': 1024, 'out_features': 1024, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
  (5): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Thời điểm xem xét bổ nhiệm lại công chức lãnh đạo cấp Vụ theo quy định là bao lâu?',
    'Thời điểm xem xét bổ nhiệm lại, thời hạn giữ chức vụ\n1. Thời điểm xem xét bổ nhiệm lại \na) Chậm nhất là 90 ngày trước ngày hết thời hạn bổ nhiệm công chức, viên chức cấp vụ và cấp phòng, đơn vị thuộc Bộ phải tiến hành quy trình bổ nhiệm lại để quyết định hoặc trình cấp có thẩm quyền xem xét, quyết định bổ nhiệm lại hoặc không bổ nhiệm lại công chức lãnh đạo, quản lý;\nb) Quyết định bổ nhiệm lại công chức giữ chức vụ lãnh đạo, quản lý phải được ban hành trước ít nhất 01 ngày làm việc, tính đến ngày hết thời hạn bổ nhiệm.\n...',
    'Khoản 5. Cấp có thẩm quyền bổ nhiệm quyết định tiêu chuẩn, điều kiện về thành tích, kết quả và sản phẩm cụ thể phù hợp để thực hiện việc bổ nhiệm trong thời gian chưa có văn bản hướng dẫn nội dung quy định tại điểm b khoản 2 Điều 33 Nghị định này.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.9885
dot_accuracy 0.0097
manhattan_accuracy 0.9884
euclidean_accuracy 0.9885
max_accuracy 0.9885

Training Details

Training Dataset

Unnamed Dataset

  • Size: 114,456 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 24.33 tokens
    • max: 55 tokens
    • min: 23 tokens
    • mean: 263.88 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 111.33 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    Người phát ngôn của Bộ Công thương được quyền phát ngôn trong trường hợp đột xuất nào? Phát ngôn và cung cấp thông tin trong trường hợp đột xuất, bất thường
    1. Người phát ngôn Bộ Công an hoặc Người được ủy quyền phát ngôn của Bộ Công an có trách nhiệm phát ngôn và cung cấp thông tin kịp thời, chính xác cho báo chí trong các trường hợp đột xuất, bất thường sau đây:
    a) Khi Bộ Công an được Chính phủ giao chủ trì xử lý sự cố xảy ra liên quan đến nhiều bộ, ngành, tỉnh, thành phố trực thuộc trung ương;
    b) Khi xảy ra các sự kiện, vấn đề quan trọng có tác động lớn trong xã hội hoặc khi dư luận xuất hiện nhiều ý kiến không thống nhất về một vấn đề thuộc phạm vi quản lý của Bộ Công an nhằm cảnh báo kịp thời và định hướng dư luận.
    Trường hợp xảy ra vụ việc cần có ngay thông tin ban đầu của Bộ Công an, Người phát ngôn Bộ Công an hoặc Người được ủy quyền phát ngôn của Bộ Công an có trách nhiệm chủ động phát ngôn, cung cấp thông tin cho báo chí trong thời gian chậm nhất là 24 giờ, kể từ khi vụ việc xảy ra;
    c) Khi cơ quan báo chí hoặc cơ quan chỉ đạo, quản lý nhà nước về báo chí có yêu cầu phát ngôn và cung cấp thông tin về các sự kiện, vấn đề thuộc phạm vi quản lý nhà nước của Bộ Công an đã được nêu trên báo chí hoặc về các sự kiện, vấn đề quy định tại điểm b khoản này;
    d) Khi có căn cứ cho rằng báo chí đăng, phát thông tin sai sự thật liên quan đến Bộ Công an, Người phát ngôn Bộ Công an hoặc Người được ủy quyền phát ngôn của Bộ Công an có trách nhiệm yêu cầu cơ quan báo chí đó phải đăng, phát ý kiến phản hồi, cải chính theo quy định của pháp luật.
    2. Người thực hiện phát ngôn và cung cấp thông tin cho báo chí của đơn vị thuộc Bộ, Công an cấp tỉnh có trách nhiệm phát ngôn và cung cấp thông tin kịp thời, chính xác cho báo chí trong các trường hợp đột xuất, bất thường sau đây:
    a) Khi xảy ra các sự kiện, vấn đề quan trọng có tác động lớn trong xã hội hoặc khi dư luận xuất hiện nhiều ý kiến không thống nhất về một vấn đề thuộc phạm vi quản lý của cơ quan mình nhằm cảnh báo kịp thời và định hướng dư luận;
    b) Khi cơ quan báo chí hoặc cơ quan chỉ đạo, quản lý nhà nước về báo chí có yêu cầu phát ngôn và cung cấp thông tin về các sự kiện, vấn đề thuộc phạm vi quản lý nhà nước của cơ quan mình đã được nêu trên báo chí hoặc về các sự kiện, vấn đề quy định tại điểm a khoản này;
    c) Khi có căn cứ cho rằng báo chí đăng, phát thông tin sai sự thật liên quan đến đơn vị mình, người thực hiện phát ngôn và cung cấp thông tin cho báo chí của đơn vị thuộc Bộ, Công an cấp tỉnh có trách nhiệm yêu cầu cơ quan báo chí đó phải đăng, phát ý kiến phản hồi, cải chính theo quy định của pháp luật;
    d) Trường hợp cần tổ chức họp báo để cung cấp thông tin cho báo chí thì Thủ trưởng đơn vị thuộc Bộ, Giám đốc Công an cấp tỉnh phải báo cáo, xin ý kiến Bộ trưởng hoặc Thứ trưởng phụ trách
    Người phát ngôn được quyền từ chối trả lời những vấn đề về hoạt động của Chính phủ, Thủ tướng Chính phủ không thuộc thẩm quyền phát ngôn; được quyền cải chính những thông tin không đúng sự thật liên quan đến quan điểm và hoạt động của Chính phủ, Thủ tướng Chính phủ
    Lệ phí thực hiện thủ tục công nhận doanh nghiệp ưu tiên trong lĩnh vực hải quan là bao nhiêu? NỘI DỤNG CỤ THỂ CỦA TỪNG THỦ TỤC HÀNH CHÍNH THUỘC PHẠM VI CHỨC NĂNG QUẢN LÝ CỦA BỘ TÀI CHÍNH
    1. Tên thủ tục: Thủ tục công nhận doanh nghiệp ưu tiên trong lĩnh vực hải quan
    ...
    1.7. Kết quả thực hiện thủ tục hành chính:
    Quyết định công nhận doanh nghiệp ưu tiên (Mẫu 03/DNUT ban hành kèm theo Thông tư 07/2019/TT-BTC ngày 28/01/2019).
    1.8. Phí, lệ phí: không có.
    1.9. Tên mẫu đơn, mẫu tờ khai:
    - Doanh nghiệp xuất khẩu, nhập khẩu hàng hóa và Đại lý làm thủ tục hải quan nộp văn bản đề nghị áp dụng chế độ ưu tiên theo mẫu 02a/DNUT ban hành kèm theo Thông tư 07/2019/TT-BTC ngày 28/01/2019
    - Tổ chức, cá nhân nhập khẩu hàng hóa để thực hiện dự án đầu tư trọng điểm được Thủ tướng Chính phủ cho ý kiến trước khi cấp phép đầu tư đang trong giai đoạn xây dựng cơ bản nộp văn bản đề nghị áp dụng chế độ ưu tiên theo mẫu 02b/DNUT ban hành kèm theo Thông tư 72/2015/TT-BTC ngày 12/5/2015.
    ...
    Quyết định này áp dụng đối với cơ quan nhà nước, doanh nghiệp và tổ chức, cá nhân tham gia hoạt động nhập khẩu, sản xuất và kinh doanh hàng hóa quy định tại khoản 1 và khoản 2 Điều 3 Quyết định này.
    Chuẩn bị phiên họp giải quyết tranh chấp Điều 54. Chuẩn bị phiên họp giải quyết tranh chấp
    1. Trường hợp các bên không có thoả thuận khác hoặc quy tắc tố tụng của Trung tâm trọng tài không có quy định khác, thời gian và địa điểm mở phiên họp do Hội đồng trọng tài quyết định.
    2. Trường hợp các bên không có thoả thuận khác hoặc quy tắc tố tụng của Trung tâm trọng tài không có quy định khác, giấy triệu tập tham dự phiên họp phải được gửi cho các bên chậm nhất 30 ngày trước ngày mở phiên họp.
    Điều 3. Giải thích từ ngữ
    ...
    2. Thoả thuận trọng tài là thoả thuận giữa các bên về việc giải quyết bằng Trọng tài tranh chấp có thể phát sinh hoặc đã phát sinh.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 18,541 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 24.31 tokens
    • max: 51 tokens
    • min: 13 tokens
    • mean: 278.85 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 108.66 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    Địa điểm, cơ sở hạ tầng, trang thiết bị khảo nghiệm tính đồng nhất giống ngô được quy định như thế nào? Yêu cầu về khảo nghiệm
    4.1 Yêu cầu về địa điểm, cơ sở hạ tầng, trang thiết bị khảo nghiệm tính khác biệt, tính đồng nhất và tính ổn định giống lúa
    - Tổ chức thử nghiệm giống, sản phẩm cây trồng được cơ quan có thẩm quyền cấp giấy chứng nhận đăng ký hoạt động để kiểm tra chất lượng hạt giống gửi khảo nghiệm (ngoại trừ chỉ tiêu hạt khác giống) và phân tích các chỉ tiêu chất lượng sản phẩm cây trồng theo quy định tại 5.2.1;
    - Kho lưu mẫu giống khảo nghiệm và mẫu chuẩn: phải có thiết bị làm mát, điều chỉnh được nhiệt độ, ẩm độ. Đảm bảo nhiệt độ từ 5 °C đến 15 °C, độ ẩm tương đối từ 40 % đến 60 %. Thể tích kho tối thiểu 20 m3;
    - Trang thiết bị phục vụ cho quá trình khảo nghiệm như: kính lúp, bảng so màu, máy tính, máy in, thiết bị ghi hình, phần mềm xử lý số liệu;
    - Thiết bị, dụng cụ đo lường đã được kiểm định hoặc hiệu chuẩn định kỳ theo quy định, bao gồm: cân điện tử độ chính xác 0,1 g hoặc 0,01 g; cân có thể cân ít nhất 10 kg; máy đo độ ẩm hạt; dụng cụ đo nhiệt độ và độ ẩm, dụng cụ đo pH, kính hiển vi có độ phóng đại đến 400 lần;
    - Vật dụng để thiết kế, triển khai thí nghiệm trên đồng ruộng như: thước, bình phun hoặc máy phun thuốc bảo vệ thực vật, bảng, biển hiệu phục vụ khảo nghiệm và các dụng cụ cần thiết khác;
    - Trang bị bảo hộ lao động bao gồm: khẩu trang, quần áo bảo hộ lao động, ủng, găng tay;
    - Đủ diện tích đất để bố trí khảo nghiệm trên đồng ruộng, tối thiểu là 140 m2;
    - Bộ mẫu chuẩn của các giống biết đến rộng rãi.
    ...
    Khoản 1.12. Phụ lục 12: Yêu cầu kỹ thuật và phương pháp thử đối với trinatri citrat
    Hoạt động thương mại có những đặc điểm nào? 1. Hoạt động thương mại là hoạt động nhằm mục đích sinh lợi, bao gồm mua bán hàng hoá, cung ứng dịch vụ, đầu tư, xúc tiến thương mại và các hoạt động nhằm mục đích sinh lợi khác. Điều 2. Sửa đổi, bổ sung một số điều Nghị định số 20/2006/NĐ-CP ngày 20 tháng 02 năm 2006 của Chính phủ quy định chi tiết Luật Thương mại về kinh doanh dịch vụ giám định thương mại
    Cơ cấu tổ chức của Hội đồng phối hợp phổ biến giáo dục pháp luật Bộ Công an bao gồm những thành phần nào? Cơ cấu tổ chức của Hội đồng, chế độ làm việc và con dấu của Hội đồng
    ...
    2. Chế độ làm việc của Hội đồng
    a) Hội đồng làm việc theo nguyên tắc thảo luận tập thể, phát huy vai trò của từng thành viên Hội đồng;
    b) Các thành viên Hội đồng làm việc theo chế độ kiêm nhiệm;
    c) Hội đồng họp định kỳ 2 lần/năm, họp đột xuất theo yêu cầu của Chủ tịch Hội đồng hoặc theo ý kiến của tối thiểu ½ Ủy viên Hội đồng.
    3. Con dấu của Hội đồng
    Hội đồng sử dụng con dấu của Bộ Công an. Trong trường hợp Phó Chủ tịch Thường trực Hội đồng ký thay Chủ tịch Hội đồng thì sử dụng con dấu của Cơ quan Thường trực Hội đồng.
    4. Mối quan hệ giữa Hội đồng với các Tổng cục, Bộ Tư lệnh, đơn vị trực thuộc Bộ, Công an, Cảnh sát phòng cháy và chữa cháy tỉnh, thành phố trực thuộc Trung ương (Công an các đơn vị, địa phương)
    a) Hội đồng phối hợp phổ biến, giáo dục pháp luật Bộ Công an hướng dẫn, kiểm tra hoạt động phối hợp phổ biến, giáo dục pháp luật của Công an các đơn vị, địa phương;
    b) Công an các đơn vị, địa phương định kỳ sáu tháng, một năm có trách nhiệm báo cáo kết quả hoạt động phổ biến, giáo dục pháp luật của đơn vị, địa phương mình với Hội đồng phối hợp phổ biến, giáo dục pháp luật Bộ Công an (qua Cơ quan Thường trực Hội đồng).
    Thông tư này hướng dẫn về nghiệp vụ để thực hiện chức năng, nhiệm vụ, quyền hạn của các tổ chức pháp chế.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss max_accuracy
0.0280 100 2.4949 - -
0.0559 200 0.6501 - -
0.0839 300 0.3105 - -
0.1118 400 0.2505 - -
0.1398 500 0.2088 - -
0.1677 600 0.1804 - -
0.1957 700 0.1977 - -
0.2237 800 0.1602 - -
0.2516 900 0.1663 - -
0.2796 1000 0.1513 - -
0.3075 1100 0.1522 - -
0.3355 1200 0.1562 - -
0.3634 1300 0.155 - -
0.3914 1400 0.1542 - -
0.4193 1500 0.1326 - -
0.4473 1600 0.1572 - -
0.4753 1700 0.1307 - -
0.5032 1800 0.1428 - -
0.5312 1900 0.1446 - -
0.5591 2000 0.1275 0.0946 0.9849
0.5871 2100 0.1328 - -
0.6150 2200 0.1235 - -
0.6430 2300 0.1245 - -
0.6710 2400 0.1354 - -
0.6989 2500 0.1217 - -
0.7269 2600 0.1282 - -
0.7548 2700 0.1326 - -
0.7828 2800 0.1109 - -
0.8107 2900 0.1165 - -
0.8387 3000 0.1368 - -
0.8666 3100 0.1174 - -
0.8946 3200 0.1102 - -
0.9226 3300 0.1151 - -
0.9505 3400 0.1218 - -
0.9785 3500 0.1109 - -
1.0064 3600 0.1144 - -
1.0344 3700 0.1148 - -
1.0623 3800 0.1187 - -
1.0903 3900 0.1126 - -
1.1183 4000 0.1102 0.0833 0.9862
1.1462 4100 0.101 - -
1.1742 4200 0.1137 - -
1.2021 4300 0.0936 - -
1.2301 4400 0.0889 - -
1.2580 4500 0.0966 - -
1.2860 4600 0.0803 - -
1.3140 4700 0.0896 - -
1.3419 4800 0.095 - -
1.3699 4900 0.0979 - -
1.3978 5000 0.0973 - -
1.4258 5100 0.0911 - -
1.4537 5200 0.1029 - -
1.4817 5300 0.0914 - -
1.5096 5400 0.0909 - -
1.5376 5500 0.0923 - -
1.5656 5600 0.0856 - -
1.5935 5700 0.0849 - -
1.6215 5800 0.0835 - -
1.6494 5900 0.0957 - -
1.6774 6000 0.0951 0.0768 0.9887
1.7053 6100 0.0818 - -
1.7333 6200 0.099 - -
1.7613 6300 0.0893 - -
1.7892 6400 0.0897 - -
1.8172 6500 0.0837 - -
1.8451 6600 0.0993 - -
1.8731 6700 0.0855 - -
1.9010 6800 0.0852 - -
1.9290 6900 0.0823 - -
1.9569 7000 0.0869 - -
1.9849 7100 0.0823 - -
2.0129 7200 0.0851 - -
2.0408 7300 0.0833 - -
2.0688 7400 0.0873 - -
2.0967 7500 0.0857 - -
2.1247 7600 0.0828 - -
2.1526 7700 0.0717 - -
2.1806 7800 0.0967 - -
2.2086 7900 0.0713 - -
2.2365 8000 0.0782 0.0742 0.9882
2.2645 8100 0.0681 - -
2.2924 8200 0.0689 - -
2.3204 8300 0.0689 - -
2.3483 8400 0.0753 - -
2.3763 8500 0.0777 - -
2.4042 8600 0.0805 - -
2.4322 8700 0.0787 - -
2.4602 8800 0.0731 - -
2.4881 8900 0.0743 - -
2.5161 9000 0.0735 - -
2.5440 9100 0.074 - -
2.5720 9200 0.0663 - -
2.5999 9300 0.0706 - -
2.6279 9400 0.0675 - -
2.6559 9500 0.0796 - -
2.6838 9600 0.074 - -
2.7118 9700 0.0703 - -
2.7397 9800 0.0746 - -
2.7677 9900 0.0738 - -
2.7956 10000 0.076 0.0714 0.9885
2.8236 10100 0.0681 - -
2.8516 10200 0.0797 - -
2.8795 10300 0.0678 - -
2.9075 10400 0.0715 - -
2.9354 10500 0.0733 - -
2.9634 10600 0.0659 - -
2.9913 10700 0.0687 - -

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.2.0
  • Transformers: 4.45.2
  • PyTorch: 2.4.0+cu121
  • Accelerate: 1.0.1
  • Datasets: 3.0.2
  • Tokenizers: 0.20.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
3
Safetensors
Model size
560M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for hotamago/baai-general-embedding-finetune

Finetuned
(61)
this model

Evaluation results