anhtuansh's picture
Add new SentenceTransformer model
9f851fd verified
metadata
base_model: intfloat/multilingual-e5-base
library_name: sentence-transformers
metrics:
  - cosine_accuracy@1
  - cosine_accuracy@3
  - cosine_accuracy@5
  - cosine_accuracy@10
  - cosine_precision@1
  - cosine_precision@3
  - cosine_precision@5
  - cosine_precision@10
  - cosine_recall@1
  - cosine_recall@3
  - cosine_recall@5
  - cosine_recall@10
  - cosine_ndcg@10
  - cosine_mrr@10
  - cosine_map@100
pipeline_tag: sentence-similarity
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:10200
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      1.500.000 ( một triệu năm trăm_nghìn ) đồng / giấy_phép ( theo quy_định
      tại khoản b điều 4 thông_tư số 143 / 2016 / tt - btc ngày 26 / 9 / 2016
      của bộ tài_chính , có hiệu_lực thi_hành kể từ ngày 01 / 01 / 2017 ) .
    sentences:
      - >-
        phí lệ_phí của thủ_tục : thủ_tục cấp lại giấy_phép thành_lập văn_phòng
        đại_diện của thương_nhân nước_ngoài tại việt_nam là bao_nhiêu ?
      - khi nào người giải_quyết tố_cáo tạm đình_chỉ việc giải_quyết tố_cáo ?
      - >-
        người điều_khiển , người đi trên phương_tiện , phương_tiện xuất_cảnh ,
        nhập_cảnh qua cửa_khẩu biên_giới đất_liền phải thực_hiện thủ_tục
        biên_phòng điện_tử như thế_nào ?
  - source_sentence: |-
      bước 1 : tổ_chức sử_dụng đất chuẩn_bị hồ_sơ theo quy_định của pháp_luật ; 
       bước 2 : tổ_chức sử_dụng đất nộp hồ_sơ tại bộ_phận hành_chính công về tài_nguyên và môi_trường của ban quản_lý khu kinh_tế quảng_ninh tại trung_tâm phục_vụ hành_chính công tỉnh ; 
       bước 3 : cán_bộ bộ_phận hành_chính công về tài_nguyên và môi_trường kiểm_tra hồ_sơ và trao giấy tiếp_nhận hồ_sơ cho nhà đầu_tư ; 
       bước 4 : tổ_chức sử_dụng đất căn_cứ thời_gian ghi trên giấy tiếp_nhận hồ_sơ đến trung_tâm phục_vụ hành_chính công_nhận kết_quả .
    sentences:
      - >-
        khiếu_nại quyết_định kỷ_luật cán_bộ , công_chức được thực_hiện trong
        trường_hợp nào ?
      - >-
        trình_tự thực_hiện của thủ_tục : thủ_tục miễn , giảm tiền thuê đất trong
        khu kinh_tế ( trừ khu kinh_tế vân_đồn ) là gì ?
      - >-
        trường_hợp đã hết thời_hiệu yêu_cầu thi_hành án , đề_nghị khôi_phục
        thời_hiệu thi_hành án cần những thủ_tục gì ?
  - source_sentence: >-
      theo quy_định tại nghị_định số 91 / 2017 / nđ - cp ngày 31 / 7 / 2017 của
      chính_phủ quy_định chi_tiết thi_hành luật sửa_đổi , bổ_sung một_số điều
      của luật thi_đua , khen_thưởng năm 2013 : 
       trong thời_hạn 20 ngày_ngày làm_việc ( 30 ngày làm_việc đối_với trường_hợp phải lấy ý_kiến hiệp y ) kể từ ngày nhận đủ hồ_sơ theo quy_định , trưởng ban ban thi_đua - khen_thưởng trung_ương trình thủ_tướng chính_phủ xem_xét , quyết_định ; 
       sau khi nhận được quyết_định khen_thưởng của thủ_tướng chính_phủ , trong thời_hạn 10 ngày làm_việc , ban thi_đua - khen_thưởng trung_ương sao quyết_định và thông_báo kết_quả khen_thưởng cho bộ , ban , ngành , tỉnh , đoàn_thể trung_ương trình khen_thưởng ; 
       sau khi nhận được quyết_định khen_thưởng của cấp có thẩm_quyền , trong thời_hạn 10 ngày làm_việc , cơ_quan trình khen_thưởng thông_báo và gửi kết_quả khen_thưởng cho các trường_hợp được khen_thưởng ; 
       đối_với các trường_hợp không đủ điều_kiện , tiêu_chuẩn , hồ_sơ theo quy_định , trong thời_hạn 10ngày làm_việc kể từ ngày nhận đủ hồ_sơ theo quy_định , ban thi_đua - khen_thưởng trung_ương thông_báo bằng văn_bản cho bộ , ban , ngành , tỉnh , đoàn_thể trung_ương trình khen_thưởng .
    sentences:
      - >-
        yêu_cầu về xác_nhận quá_trình thực_hành trong cấp chứng_chỉ hành_nghề
        khám chữa bệnh là gì ?
      - >-
        đề_nghị cho biết thời_hạn thực_hiện thủ_tục tặng_thưởng " cờ thi_đua của
        chính_phủ " về thành_tích thi_đua theo đợt hoặc chuyên_đề
      - >-
        vợ_chồng tôi năm nay được 38 tuổi , nghề_nghiệp là nông_dân . vợ_chồng
        tôi muốn tham_gia bhxh tự_nguyện để khi về già có lương hưu . vậy
        vợ_chồng tôi có được đóng bhxh không ?
  - source_sentence: >-
      theo quy_định tại điểm c khoản 1 điều 211 luật doanh_nghiệp ,
      trường_hợp_doanh_nghiệp ngừng hoạt_động_kinh_doanh 01 năm mà không
      thông_báo với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế thì doanh_nghiệp
      thuộc trường_hợp bị thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp . -
      trình_tự , thủ_tục thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp thực_hiện
      theo quy_định tại khoản 3 điều 63 nghị_định số 78 / 2015 / nđ - cp được
      sửa_đổi , bổ_sung tại khoản 20 điều 1 nghị_định số 108 / 2018 / nđ - cp
      sửa_đổi , bổ_sung một_số điều của nghị_định số 78 / 2015 / nđ - cp. theo
      đó , phòng đăng_ký kinh_doanh thông_báo bằng văn_bản về hành_vi vi_phạm và
      yêu_cầu người đại_diện theo pháp_luật của doanh_nghiệp đến trụ_sở của
      phòng để giải_trình . sau 10 ngày làm_việc , kể từ ngày kết_thúc thời_hạn
      hẹn trong thông_báo mà người được yêu_cầu không đến hoặc nội_dung
      giải_trình không được chấp_thuận thì phòng đăng_ký kinh_doanh ra
      quyết_định thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp . - như_vậy , theo
      quy_định nêu trên việc công_ty ngừng hoạt_động_kinh_doanh 01 năm mà không
      thông_báo với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế là
      vi_phạm_quy_định pháp_luật và thuộc một trong các trường_hợp bị thu_hồi
      giấy chứng_nhận đăng_ký doanh_nghiệp .
    sentences:
      - >-
        thủ_tục và hồ_sơ xin phép chuyển_đổi mục_đích sử_dụng , di_dời , tháo_dỡ
        ?
      - >-
        thời_gian đăng_ký hoạt_động của chi_nhánh của tổ_chức trọng_tài
        nước_ngoài tại việt_nam được quy_định như thế_nào ?
      - >-
        công_ty tnhh xyz ngừng hoạt_động_kinh_doanh 01 năm mà không thông_báo
        với cơ_quan đăng_ký kinh_doanh và cơ_quan thuế ? trong trường_hợp này ,
        công_ty bị thu_hồi giấy chứng_nhận đăng_ký doanh_nghiệp thì có đúng
        quy_định pháp_luật hiện_hành không ?
  - source_sentence: >-
      thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để
      hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ
      hồ_sơ hợp_lệ .
    sentences:
      - >-
        tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành
        khóa học , có thời_hạn giải_quyết như thế_nào ?
      - >-
        thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công
        với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7
        / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác
        đối_với người việt_nam có công với cách_mạng , người tham_gia
        kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang
        định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm
        những giấy_tờ gì ?
      - >-
        nhiệm_vụ thiết_kế bvtc gồm nội_dung gì ? đơn_vị lập và thẩm_quyền
        phê_duyệt nhiệm_vụ thiết_kế bvtc ?
model-index:
  - name: SentenceTransformer based on intfloat/multilingual-e5-base
    results:
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 768
          type: dim_768
        metrics:
          - type: cosine_accuracy@1
            value: 0.5255731922398589
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6948853615520282
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.746031746031746
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8148148148148148
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5255731922398589
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23162845385067604
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1492063492063492
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08148148148148147
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5255731922398589
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6948853615520282
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.746031746031746
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8148148148148148
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.668368197420663
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6217123680748023
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6272561976101436
            name: Cosine Map@100
      - task:
          type: information-retrieval
          name: Information Retrieval
        dataset:
          name: dim 512
          type: dim_512
        metrics:
          - type: cosine_accuracy@1
            value: 0.5255731922398589
            name: Cosine Accuracy@1
          - type: cosine_accuracy@3
            value: 0.6948853615520282
            name: Cosine Accuracy@3
          - type: cosine_accuracy@5
            value: 0.7477954144620811
            name: Cosine Accuracy@5
          - type: cosine_accuracy@10
            value: 0.8042328042328042
            name: Cosine Accuracy@10
          - type: cosine_precision@1
            value: 0.5255731922398589
            name: Cosine Precision@1
          - type: cosine_precision@3
            value: 0.23162845385067604
            name: Cosine Precision@3
          - type: cosine_precision@5
            value: 0.1495590828924162
            name: Cosine Precision@5
          - type: cosine_precision@10
            value: 0.08042328042328041
            name: Cosine Precision@10
          - type: cosine_recall@1
            value: 0.5255731922398589
            name: Cosine Recall@1
          - type: cosine_recall@3
            value: 0.6948853615520282
            name: Cosine Recall@3
          - type: cosine_recall@5
            value: 0.7477954144620811
            name: Cosine Recall@5
          - type: cosine_recall@10
            value: 0.8042328042328042
            name: Cosine Recall@10
          - type: cosine_ndcg@10
            value: 0.6640518091551288
            name: Cosine Ndcg@10
          - type: cosine_mrr@10
            value: 0.6192075389826716
            name: Cosine Mrr@10
          - type: cosine_map@100
            value: 0.6251107289843334
            name: Cosine Map@100

SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base on the json dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("anhtuansh/multilingual-e5-base-Matryoshka-2e-11k")
# Run inference
sentences = [
    'thời_hạn giải_quyết việc gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học như sau : tối_đa 20 ngày làm_việc kể từ ngày nhận đủ hồ_sơ hợp_lệ .',
    'tôi muốn hỏi về gia_hạn thời_gian học_tập cho lưu học_sinh để hoàn_thành khóa học , có thời_hạn giải_quyết như thế_nào ?',
    'thành_phần hồ_sơ giải_quyết chế_độ hỗ_trợ đối_với người việt_nam có công với cách_mạng quy_định tại nghị_định số 102 / 2018 / nđ - cp ngày 20 / 7 / 2018 của chính_phủ về chế_độ hỗ_trợ và một_số chế_độ đãi_ngộ khác đối_với người việt_nam có công với cách_mạng , người tham_gia kháng_chiến , chiến_tranh bảo_vệ tổ_quốc và làm nhiệm_vụ quốc_tế đang định_cư ở nước_ngoài ( nghị_định số 102 / 2018 / nđ - cp ) , bao_gồm những giấy_tờ gì ?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric dim_768 dim_512
cosine_accuracy@1 0.5256 0.5256
cosine_accuracy@3 0.6949 0.6949
cosine_accuracy@5 0.746 0.7478
cosine_accuracy@10 0.8148 0.8042
cosine_precision@1 0.5256 0.5256
cosine_precision@3 0.2316 0.2316
cosine_precision@5 0.1492 0.1496
cosine_precision@10 0.0815 0.0804
cosine_recall@1 0.5256 0.5256
cosine_recall@3 0.6949 0.6949
cosine_recall@5 0.746 0.7478
cosine_recall@10 0.8148 0.8042
cosine_ndcg@10 0.6684 0.6641
cosine_mrr@10 0.6217 0.6192
cosine_map@100 0.6273 0.6251

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 10,200 training samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 266.29 tokens
    • max: 512 tokens
    • min: 10 tokens
    • mean: 59.35 tokens
    • max: 421 tokens
  • Samples:
    positive anchor
    1 . thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như sau : - bộ thông_tin và truyền_thông cấp giấy_phép cho cơ_quan , tổ_chức ở trung_ương ; cơ_quan , tổ_chức , cá_nhân nước_ngoài ; - ủy_ban nhân_dân cấp tỉnh cấp giấy_phép cho cơ_quan , tổ_chức , cá_nhân có trụ_sở hoặc cư_trú tại địa_phương ; chi_nhánh , văn_phòng đại_diện , đơn_vị trực_thuộc cơ_quan , tổ_chức ở trung_ương đặt tại địa_phương . 2 . hồ_sơ bao_gồm : - đơn đề_nghị cấp giấy_phép trong đó ghi rõ mục_đích , thời_gian , địa_điểm và tên các đơn_vị tham_gia triển_lãm , hội_chợ ; - danh_mục xuất_bản_phẩm để triển_lãm , hội_chợ theo mẫu quy_định . ( quy_định tại khoản 2 , 3 điều 44 luật xuất_bản ) hồ_sơ và thẩm_quyền cấp giấy_phép tổ_chức triển_lãm , hội_chợ xuất_bản_phẩm được quy_định cụ_thể như thế_nào ?
    - trường_hợp mất danh_mục và phiếu theo_dõi trừ lùi thì người khai hải_quan có hồ_sơ đề_nghị cơ_quan hải_quan nơi cấp danh_mục lần đầu_đề_nghị cấp lại , bao_gồm :
    + công_văn đề_nghị cấp lại danh_mục , phiếu theo_dõi trừ lùi trong đó nêu rõ : lý_do mất danh_mục , phiếu theo_dõi trừ lùi và cam_kết của người khai hải_quan về tính chính_xác của nội_dung khai_báo ;
    + bảng kê toàn_bộ tờ khai hải_quan ( điện_tử hoặc giấy ) của số_lượng hàng_hóa đã nhập_khẩu theo danh_mục ;
    + bản danh_mục và phiếu theo_dõi trừ lùi của cơ_quan hải_quan nơi làm thủ_tục nhập_khẩu lô hàng cuối_cùng trước khi thất_lạc ( 01 bản chụp có xác_nhận của cơ_quan hải_quan nơi nhập_khẩu ) .
    - khi làm thủ_tục hải_quan , người khai hải_quan nộp , xuất_trình cho cơ_quan hải_quan nơi đăng_ký tờ khai hải_quan các hồ_sơ sau :
    + hồ_sơ hải_quan theo quy_định hiện_hành ;
    + danh_mục hàng_hóa và phiếu theo_dõi trừ lùi đã đăng_ký với cơ_quan hải_quan ( bản giao người khai hải_quan ) để cơ_quan hải_quan làm thủ_tục thực_hiện...
    trường_hợp tôi làm mất danh_mục và phiếu theo_dõi trừ lùi hàng_hóa_nhập_khẩu dung_môi n - hexan dùng trong sản_xuất khô_dầu đậu_tương và dầu thực_vật , cám gạo trích ly và dầu cám thì cần làm những thủ_tục gì ?
    thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá là : tổng_cục thủy_sản . thẩm_quyền cấp giấy chứng_nhận cơ_sở đủ điều_kiện đăng_kiểm tàu cá ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 1,134 evaluation samples
  • Columns: positive and anchor
  • Approximate statistics based on the first 1000 samples:
    positive anchor
    type string string
    details
    • min: 4 tokens
    • mean: 268.67 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 58.82 tokens
    • max: 512 tokens
  • Samples:
    positive anchor
    việc thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất được tiến_hành như sau :
    bước 1 . vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương tiếp_nhận đề_nghị khen_thưởng của các đơn_vị thực thuộc .
    bước 2 . thẩm_định hồ_sơ , xin ý_kiến các cơ_quan liên_quan , báo_cáo hội_đồng thi_đua khen_thưởng cùng cấp , tổng_hợp trình bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố quyết_định khen_thưởng .
    bước 3 . khi có quyết_định của bộ_trưởng , thủ_trưởng đơn_vị , chủ_tịch ubnd tỉnh , thành_phố trực_thuộc trung_ương ; vụ , phòng , ban thi_đua – khen_thưởng các bộ , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương thông_báo quyết_định , viết bằng , đóng_dấu và cấp_phát cho đơn_vị trình khen .
    bước 4 . các trường_hợp không được khen_thưởng ( không đúng đối_tượng , không đủ tiêu_chuẩn , không đủ ...
    đề_nghị cho biết trình_tự thực_hiện thủ_tục tặng_thưởng bằng khen cấp bộ , ban , ngành , đoàn_thể trung_ương , tỉnh , thành_phố trực_thuộc trung_ương về thành_tích đột_xuất
    bông_thủy_tinh chống cháy là vật_liệu chống cháy , thuộc danh_mục phương_tiện pccc quy_định phụ_lục v nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều của luật phòng cháy và chữa_cháy . do đó , nếu đưa vào sử_dụng trong hạng_mục pccc của công_trình thì phải kiểm_định về pccc. tuy_nhiên , đối_với vật_liệu bông thủy_tinh cách_nhiệt chống cháy được các cơ_quan , tổ_chức , cá_nhân cần xem_xét tùy vào yêu_cầu cụ_thể của công_trình để đăng_ký kiểm_định “ tính nguy_hiểm cháy ” đối_với vật_liệu đó hoặc “ giới_hạn chịu_lửa ” của kết_cấu sử_dụng vật_liệu đó . thành_phần hồ_sơ đề_nghị kiểm_định được quy_định tại điểm a khoản 4 điều 18 thông_tư 66 / 2014 / tt - bca ngày 16 / 12 / 2014 quy_định chi_tiết thi_hành một_số điều của nghị_định số 79 / 2014 / nđ - cp ngày 31 / 7 / 2014 quy_định chi_tiết thi_hành một_số điều của luật phòng cháy và chữa_cháy và luật sửa_đổi , bổ_sung một_số điều ... bông_thủy_tinh cách_nhiệt chống cháy có phải kiểm_định không ? thành_phần hồ_sơ đề_nghị kiểm_định như thế_nào ?
    thẻ thường_trú không có thời_hạn nhưng định_kỳ 10 năm một lần , người nước_ngoài thường_trú phải đến nộp hồ_sơ tại phòng quản_lý xuất , nhập_cảnh công_an tỉnh , thành_phố trực_thuộc trung_ương để đề_nghị cấp đổi thẻ thường_trú . thẻ thường_trú có thời_hạn không ?
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512
        ],
        "matryoshka_weights": [
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • gradient_accumulation_steps: 2
  • learning_rate: 2e-05
  • num_train_epochs: 2
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.1
  • fp16: True
  • tf32: False
  • load_best_model_at_end: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 2
  • per_device_eval_batch_size: 2
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 2
  • eval_accumulation_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: False
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Click to expand
Epoch Step Training Loss Validation Loss dim_768_cosine_ndcg@10 dim_512_cosine_ndcg@10
0 0 - - 0.4448 0.4312
0.0039 10 0.7835 - - -
0.0078 20 0.8187 - - -
0.0118 30 0.6876 - - -
0.0157 40 0.6808 - - -
0.0196 50 0.6123 - - -
0.0235 60 0.509 - - -
0.0275 70 0.486 - - -
0.0314 80 0.3567 - - -
0.0353 90 0.2189 - - -
0.0392 100 0.2615 - - -
0.0431 110 0.2074 - - -
0.0471 120 0.2237 - - -
0.0510 130 0.1012 - - -
0.0549 140 0.2345 - - -
0.0588 150 0.0662 - - -
0.0627 160 0.1898 - - -
0.0667 170 0.1268 - - -
0.0706 180 0.1242 - - -
0.0745 190 0.0267 - - -
0.0784 200 0.2542 - - -
0.0824 210 0.1374 - - -
0.0863 220 0.1765 - - -
0.0902 230 0.0219 - - -
0.0941 240 0.0507 - - -
0.0980 250 0.0081 - - -
0.1020 260 0.0591 - - -
0.1059 270 0.1791 - - -
0.1098 280 0.2436 - - -
0.1137 290 0.0393 - - -
0.1176 300 0.3223 - - -
0.1216 310 0.0058 - - -
0.1255 320 0.1262 - - -
0.1294 330 0.0571 - - -
0.1333 340 0.3835 - - -
0.1373 350 0.0246 - - -
0.1412 360 0.0059 - - -
0.1451 370 0.1041 - - -
0.1490 380 0.0129 - - -
0.1529 390 0.3182 - - -
0.1569 400 0.0797 - - -
0.1608 410 0.2426 - - -
0.1647 420 0.0619 - - -
0.1686 430 0.0085 - - -
0.1725 440 0.0094 - - -
0.1765 450 0.0527 - - -
0.1804 460 0.3898 - - -
0.1843 470 0.0083 - - -
0.1882 480 0.3605 - - -
0.1922 490 0.1317 - - -
0.1961 500 0.004 - - -
0.2 510 0.1975 - - -
0.2039 520 0.0212 - - -
0.2078 530 0.0043 - - -
0.2118 540 0.2127 - - -
0.2157 550 0.0261 - - -
0.2196 560 0.0683 - - -
0.2235 570 0.0506 - - -
0.2275 580 0.0027 - - -
0.2314 590 0.03 - - -
0.2353 600 0.2365 - - -
0.2392 610 0.1259 - - -
0.2431 620 0.0756 - - -
0.2471 630 0.4209 - - -
0.2510 640 0.0894 - - -
0.2549 650 0.3116 - - -
0.2588 660 0.1631 - - -
0.2627 670 0.0091 - - -
0.2667 680 0.0673 - - -
0.2706 690 0.1827 - - -
0.2745 700 0.0177 - - -
0.2784 710 0.0474 - - -
0.2824 720 0.0332 - - -
0.2863 730 0.0089 - - -
0.2902 740 0.0475 - - -
0.2941 750 0.0014 - - -
0.2980 760 0.0421 - - -
0.3020 770 0.1841 - - -
0.3059 780 0.0097 - - -
0.3098 790 0.0427 - - -
0.3137 800 0.0423 - - -
0.3176 810 0.3602 - - -
0.3216 820 0.0221 - - -
0.3255 830 0.0037 - - -
0.3294 840 0.0377 - - -
0.3333 850 0.0038 - - -
0.3373 860 0.1476 - - -
0.3412 870 0.0324 - - -
0.3451 880 0.1596 - - -
0.3490 890 0.0654 - - -
0.3529 900 0.0234 - - -
0.3569 910 0.0233 - - -
0.3608 920 0.0106 - - -
0.3647 930 0.0286 - - -
0.3686 940 0.0261 - - -
0.3725 950 0.2406 - - -
0.3765 960 0.0122 - - -
0.3804 970 0.0743 - - -
0.3843 980 0.005 - - -
0.3882 990 0.0472 - - -
0.3922 1000 0.0305 - - -
0.3961 1010 0.0377 - - -
0.4 1020 0.0168 - - -
0.4039 1030 0.0087 - - -
0.4078 1040 0.0647 - - -
0.4118 1050 0.0404 - - -
0.4157 1060 0.0235 - - -
0.4196 1070 0.0409 - - -
0.4235 1080 0.0201 - - -
0.4275 1090 0.0174 - - -
0.4314 1100 0.0469 - - -
0.4353 1110 0.0156 - - -
0.4392 1120 0.1804 - - -
0.4431 1130 0.2808 - - -
0.4471 1140 0.0279 - - -
0.4510 1150 0.005 - - -
0.4549 1160 0.0326 - - -
0.4588 1170 0.0208 - - -
0.4627 1180 0.3428 - - -
0.4667 1190 0.0069 - - -
0.4706 1200 0.1131 - - -
0.4745 1210 0.0854 - - -
0.4784 1220 0.0444 - - -
0.4824 1230 0.1859 - - -
0.4863 1240 0.0025 - - -
0.4902 1250 0.0021 - - -
0.4941 1260 0.0134 - - -
0.4980 1270 0.2256 - - -
0.5020 1280 0.0054 - - -
0.5059 1290 0.0085 - - -
0.5098 1300 0.1381 - - -
0.5137 1310 0.0478 - - -
0.5176 1320 0.0744 - - -
0.5216 1330 0.03 - - -
0.5255 1340 0.0047 - - -
0.5294 1350 0.017 - - -
0.5333 1360 0.0191 - - -
0.5373 1370 0.0055 - - -
0.5412 1380 0.0056 - - -
0.5451 1390 0.1013 - - -
0.5490 1400 0.0071 - - -
0.5529 1410 0.0086 - - -
0.5569 1420 0.0446 - - -
0.5608 1430 0.0029 - - -
0.5647 1440 0.0096 - - -
0.5686 1450 0.0031 - - -
0.5725 1460 0.0061 - - -
0.5765 1470 0.058 - - -
0.5804 1480 0.0469 - - -
0.5843 1490 0.0936 - - -
0.5882 1500 0.0002 - - -
0.5922 1510 0.1647 - - -
0.5961 1520 0.0028 - - -
0.6 1530 0.003 - - -
0.6039 1540 0.0504 - - -
0.6078 1550 0.293 - - -
0.6118 1560 0.0016 - - -
0.6157 1570 0.0196 - - -
0.6196 1580 0.0038 - - -
0.6235 1590 0.0024 - - -
0.6275 1600 0.0008 - - -
0.6314 1610 0.0082 - - -
0.6353 1620 0.1108 - - -
0.6392 1630 0.0683 - - -
0.6431 1640 0.0232 - - -
0.6471 1650 0.0522 - - -
0.6510 1660 0.0494 - - -
0.6549 1670 0.0005 - - -
0.6588 1680 0.0281 - - -
0.6627 1690 0.0011 - - -
0.6667 1700 0.3549 - - -
0.6706 1710 0.046 - - -
0.6745 1720 0.0074 - - -
0.6784 1730 0.0184 - - -
0.6824 1740 0.0641 - - -
0.6863 1750 0.0995 - - -
0.6902 1760 0.1248 - - -
0.6941 1770 0.0033 - - -
0.6980 1780 0.0408 - - -
0.7020 1790 0.2557 - - -
0.7059 1800 0.0189 - - -
0.7098 1810 0.0062 - - -
0.7137 1820 0.0003 - - -
0.7176 1830 0.0019 - - -
0.7216 1840 0.0428 - - -
0.7255 1850 0.1242 - - -
0.7294 1860 0.007 - - -
0.7333 1870 0.0015 - - -
0.7373 1880 0.0315 - - -
0.7412 1890 0.0065 - - -
0.7451 1900 0.0001 - - -
0.7490 1910 0.0716 - - -
0.7529 1920 0.0123 - - -
0.7569 1930 0.0012 - - -
0.7608 1940 0.0217 - - -
0.7647 1950 0.0041 - - -
0.7686 1960 0.0007 - - -
0.7725 1970 0.1686 - - -
0.7765 1980 0.0983 - - -
0.7804 1990 0.0016 - - -
0.7843 2000 0.0016 - - -
0.7882 2010 0.1091 - - -
0.7922 2020 0.0409 - - -
0.7961 2030 0.2592 - - -
0.8 2040 0.5351 - - -
0.8039 2050 0.0017 - - -
0.8078 2060 0.0421 - - -
0.8118 2070 0.0002 - - -
0.8157 2080 0.0435 - - -
0.8196 2090 0.0397 - - -
0.8235 2100 0.0079 - - -
0.8275 2110 0.0004 - - -
0.8314 2120 0.2811 - - -
0.8353 2130 0.0047 - - -
0.8392 2140 0.0675 - - -
0.8431 2150 0.0039 - - -
0.8471 2160 0.0053 - - -
0.8510 2170 0.0067 - - -
0.8549 2180 0.0054 - - -
0.8588 2190 0.0076 - - -
0.8627 2200 0.0705 - - -
0.8667 2210 0.181 - - -
0.8706 2220 0.1272 - - -
0.8745 2230 0.124 - - -
0.8784 2240 0.3347 - - -
0.8824 2250 0.0066 - - -
0.8863 2260 0.0103 - - -
0.8902 2270 0.006 - - -
0.8941 2280 0.0007 - - -
0.8980 2290 0.0016 - - -
0.9020 2300 0.0504 - - -
0.9059 2310 0.0022 - - -
0.9098 2320 0.0137 - - -
0.9137 2330 0.007 - - -
0.9176 2340 0.0007 - - -
0.9216 2350 0.0428 - - -
0.9255 2360 0.0418 - - -
0.9294 2370 0.0035 - - -
0.9333 2380 0.0588 - - -
0.9373 2390 0.1052 - - -
0.9412 2400 0.0015 - - -
0.9451 2410 0.01 - - -
0.9490 2420 0.0009 - - -
0.9529 2430 0.0005 - - -
0.9569 2440 0.0015 - - -
0.9608 2450 0.0009 - - -
0.9647 2460 0.0445 - - -
0.9686 2470 0.0165 - - -
0.9725 2480 0.0865 - - -
0.9765 2490 0.0006 - - -
0.9804 2500 0.2017 - - -
0.9843 2510 0.0247 - - -
0.9882 2520 0.0594 - - -
0.9922 2530 0.0068 - - -
0.9961 2540 0.3455 - - -
1.0 2550 0.0015 0.0271 0.6577 0.6525
1.0039 2560 0.0004 - - -
1.0078 2570 0.0499 - - -
1.0118 2580 0.0491 - - -
1.0157 2590 0.0046 - - -
1.0196 2600 0.0106 - - -
1.0235 2610 0.0026 - - -
1.0275 2620 0.0087 - - -
1.0314 2630 0.0546 - - -
1.0353 2640 0.0002 - - -
1.0392 2650 0.0169 - - -
1.0431 2660 0.0001 - - -
1.0471 2670 0.122 - - -
1.0510 2680 0.0022 - - -
1.0549 2690 0.102 - - -
1.0588 2700 0.0024 - - -
1.0627 2710 0.0257 - - -
1.0667 2720 0.0196 - - -
1.0706 2730 0.0003 - - -
1.0745 2740 0.0007 - - -
1.0784 2750 0.1731 - - -
1.0824 2760 0.1533 - - -
1.0863 2770 0.1393 - - -
1.0902 2780 0.0049 - - -
1.0941 2790 0.0005 - - -
1.0980 2800 0.0014 - - -
1.1020 2810 0.012 - - -
1.1059 2820 0.0858 - - -
1.1098 2830 0.1745 - - -
1.1137 2840 0.0003 - - -
1.1176 2850 0.2558 - - -
1.1216 2860 0.0015 - - -
1.1255 2870 0.0633 - - -
1.1294 2880 0.0039 - - -
1.1333 2890 0.0073 - - -
1.1373 2900 0.0013 - - -
1.1412 2910 0.0002 - - -
1.1451 2920 0.2165 - - -
1.1490 2930 0.0007 - - -
1.1529 2940 0.1767 - - -
1.1569 2950 0.0003 - - -
1.1608 2960 0.0002 - - -
1.1647 2970 0.0025 - - -
1.1686 2980 0.0001 - - -
1.1725 2990 0.0002 - - -
1.1765 3000 0.0004 - - -
1.1804 3010 0.0448 - - -
1.1843 3020 0.0004 - - -
1.1882 3030 0.0022 - - -
1.1922 3040 0.0098 - - -
1.1961 3050 0.0 - - -
1.2 3060 0.1001 - - -
1.2039 3070 0.0001 - - -
1.2078 3080 0.0012 - - -
1.2118 3090 0.0128 - - -
1.2157 3100 0.0019 - - -
1.2196 3110 0.0005 - - -
1.2235 3120 0.001 - - -
1.2275 3130 0.0015 - - -
1.2314 3140 0.0011 - - -
1.2353 3150 0.0563 - - -
1.2392 3160 0.0068 - - -
1.2431 3170 0.0001 - - -
1.2471 3180 0.0021 - - -
1.2510 3190 0.0153 - - -
1.2549 3200 0.0808 - - -
1.2588 3210 0.0016 - - -
1.2627 3220 0.0009 - - -
1.2667 3230 0.0001 - - -
1.2706 3240 0.0012 - - -
1.2745 3250 0.0001 - - -
1.2784 3260 0.031 - - -
1.2824 3270 0.0005 - - -
1.2863 3280 0.0001 - - -
1.2902 3290 0.0024 - - -
1.2941 3300 0.0002 - - -
1.2980 3310 0.0002 - - -
1.3020 3320 0.0037 - - -
1.3059 3330 0.0009 - - -
1.3098 3340 0.0003 - - -
1.3137 3350 0.0008 - - -
1.3176 3360 0.0053 - - -
1.3216 3370 0.0004 - - -
1.3255 3380 0.0013 - - -
1.3294 3390 0.002 - - -
1.3333 3400 0.0001 - - -
1.3373 3410 0.0003 - - -
1.3412 3420 0.0007 - - -
1.3451 3430 0.0217 - - -
1.3490 3440 0.0059 - - -
1.3529 3450 0.0002 - - -
1.3569 3460 0.0002 - - -
1.3608 3470 0.0 - - -
1.3647 3480 0.0001 - - -
1.3686 3490 0.0006 - - -
1.3725 3500 0.003 - - -
1.3765 3510 0.0004 - - -
1.3804 3520 0.0022 - - -
1.3843 3530 0.0001 - - -
1.3882 3540 0.0003 - - -
1.3922 3550 0.0018 - - -
1.3961 3560 0.0 - - -
1.4 3570 0.0004 - - -
1.4039 3580 0.0003 - - -
1.4078 3590 0.0033 - - -
1.4118 3600 0.0013 - - -
1.4157 3610 0.0007 - - -
1.4196 3620 0.0005 - - -
1.4235 3630 0.0003 - - -
1.4275 3640 0.0003 - - -
1.4314 3650 0.0001 - - -
1.4353 3660 0.0002 - - -
1.4392 3670 0.0013 - - -
1.4431 3680 0.0037 - - -
1.4471 3690 0.0002 - - -
1.4510 3700 0.0001 - - -
1.4549 3710 0.0001 - - -
1.4588 3720 0.0024 - - -
1.4627 3730 0.0733 - - -
1.4667 3740 0.0007 - - -
1.4706 3750 0.0003 - - -
1.4745 3760 0.0408 - - -
1.4784 3770 0.0001 - - -
1.4824 3780 0.0009 - - -
1.4863 3790 0.0001 - - -
1.4902 3800 0.0 - - -
1.4941 3810 0.0013 - - -
1.4980 3820 0.0122 - - -
1.5020 3830 0.0 - - -
1.5059 3840 0.0023 - - -
1.5098 3850 0.0055 - - -
1.5137 3860 0.0002 - - -
1.5176 3870 0.0003 - - -
1.5216 3880 0.0005 - - -
1.5255 3890 0.0015 - - -
1.5294 3900 0.0016 - - -
1.5333 3910 0.0002 - - -
1.5373 3920 0.0002 - - -
1.5412 3930 0.0002 - - -
1.5451 3940 0.0009 - - -
1.5490 3950 0.0063 - - -
1.5529 3960 0.0056 - - -
1.5569 3970 0.0015 - - -
1.5608 3980 0.0002 - - -
1.5647 3990 0.0001 - - -
1.5686 4000 0.0061 - - -
1.5725 4010 0.0042 - - -
1.5765 4020 0.0009 - - -
1.5804 4030 0.0072 - - -
1.5843 4040 0.0014 - - -
1.5882 4050 0.0001 - - -
1.5922 4060 0.0043 - - -
1.5961 4070 0.0 - - -
1.6 4080 0.0 - - -
1.6039 4090 0.0003 - - -
1.6078 4100 0.0468 - - -
1.6118 4110 0.0 - - -
1.6157 4120 0.0011 - - -
1.6196 4130 0.0001 - - -
1.6235 4140 0.0002 - - -
1.6275 4150 0.0001 - - -
1.6314 4160 0.0001 - - -
1.6353 4170 0.0004 - - -
1.6392 4180 0.0004 - - -
1.6431 4190 0.0031 - - -
1.6471 4200 0.0004 - - -
1.6510 4210 0.0005 - - -
1.6549 4220 0.0006 - - -
1.6588 4230 0.0 - - -
1.6627 4240 0.0001 - - -
1.6667 4250 0.0261 - - -
1.6706 4260 0.001 - - -
1.6745 4270 0.0 - - -
1.6784 4280 0.0003 - - -
1.6824 4290 0.0011 - - -
1.6863 4300 0.0001 - - -
1.6902 4310 0.0002 - - -
1.6941 4320 0.0002 - - -
1.6980 4330 0.0001 - - -
1.7020 4340 0.0303 - - -
1.7059 4350 0.0008 - - -
1.7098 4360 0.0003 - - -
1.7137 4370 0.0005 - - -
1.7176 4380 0.0001 - - -
1.7216 4390 0.0004 - - -
1.7255 4400 0.0001 - - -
1.7294 4410 0.0001 - - -
1.7333 4420 0.0001 - - -
1.7373 4430 0.0001 - - -
1.7412 4440 0.0001 - - -
1.7451 4450 0.0 - - -
1.7490 4460 0.0001 - - -
1.7529 4470 0.0001 - - -
1.7569 4480 0.0002 - - -
1.7608 4490 0.0001 - - -
1.7647 4500 0.0002 - - -
1.7686 4510 0.0 - - -
1.7725 4520 0.0007 - - -
1.7765 4530 0.0004 - - -
1.7804 4540 0.0001 - - -
1.7843 4550 0.0001 - - -
1.7882 4560 0.0005 - - -
1.7922 4570 0.0001 - - -
1.7961 4580 0.007 - - -
1.8 4590 0.1356 - - -
1.8039 4600 0.0001 - - -
1.8078 4610 0.0001 - - -
1.8118 4620 0.0 - - -
1.8157 4630 0.0 - - -
1.8196 4640 0.0 - - -
1.8235 4650 0.0003 - - -
1.8275 4660 0.0001 - - -
1.8314 4670 0.0284 - - -
1.8353 4680 0.0002 - - -
1.8392 4690 0.0002 - - -
1.8431 4700 0.0001 - - -
1.8471 4710 0.0001 - - -
1.8510 4720 0.0 - - -
1.8549 4730 0.0004 - - -
1.8588 4740 0.0004 - - -
1.8627 4750 0.0001 - - -
1.8667 4760 0.0007 - - -
1.8706 4770 0.0032 - - -
1.8745 4780 0.0017 - - -
1.8784 4790 0.0002 - - -
1.8824 4800 0.0001 - - -
1.8863 4810 0.0002 - - -
1.8902 4820 0.0001 - - -
1.8941 4830 0.0005 - - -
1.8980 4840 0.0006 - - -
1.9020 4850 0.0001 - - -
1.9059 4860 0.0008 - - -
1.9098 4870 0.0 - - -
1.9137 4880 0.0004 - - -
1.9176 4890 0.0001 - - -
1.9216 4900 0.1319 - - -
1.9255 4910 0.0025 - - -
1.9294 4920 0.0002 - - -
1.9333 4930 0.0189 - - -
1.9373 4940 0.0088 - - -
1.9412 4950 0.0001 - - -
1.9451 4960 0.0 - - -
1.9490 4970 0.0014 - - -
1.9529 4980 0.0014 - - -
1.9569 4990 0.0001 - - -
1.9608 5000 0.0 - - -
1.9647 5010 0.0005 - - -
1.9686 5020 0.0001 - - -
1.9725 5030 0.0001 - - -
1.9765 5040 0.0001 - - -
1.9804 5050 0.0125 - - -
1.9843 5060 0.0025 - - -
1.9882 5070 0.0004 - - -
1.9922 5080 0.0009 - - -
1.9961 5090 0.095 - - -
2.0 5100 0.0001 0.0195 0.6684 0.6641
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.10.14
  • Sentence Transformers: 3.3.1
  • Transformers: 4.41.2
  • PyTorch: 2.1.2+cu121
  • Accelerate: 0.29.3
  • Datasets: 2.19.1
  • Tokenizers: 0.19.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}