SentenceTransformer based on bandi2716/klue-roberta-base-klue-sts

This is a sentence-transformers model finetuned from bandi2716/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: bandi2716/klue-roberta-base-klue-sts
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '후속 공정에서 추가 비용 발생이 예상되는 설비를 주문한 나라는?',
    '삼성중공업이 지난 1분기에 대규모 적자를 냈다. 해양플랜트 프로젝트의 잠재적 손실에 대비해 대규모 충당금을 쌓았기 때문이다. ▶본지 4월23일자 A13면 참조 삼성중공업은 1분기에 매출 3조4311억원, 영업손실 3625억원, 당기순손실 2724억원을 기록했다고 25일 공시했다. 작년 1분기에 4402억원의 영업이익과 3005억원의 당기순이익을 냈던 것과 비교하면 큰 폭으로 적자전환했다. 매출은 전년 동기 대비 11.7% 감소했을 뿐인데도 이익이 크게 줄어든 이유는 해양플랜트 프로젝트 손실에 대비해 약 5000억원의 충당금을 쌓았기 때문이라고 회사 측은 설명했다. 앞서 지난 2월부터 삼성중공업의 해양플랜트 프로젝트와 관련해 경영진단을 진행한 삼성그룹 컨트롤타워인 미래전략실은 대규모 부실이 있다고 판단하고 충당금을 쌓도록 했다. 삼성중공업 관계자는 “2012년에 수주한 호주 인펙스프로젝트의 익시스(Ichthys) 해양가스처리설비(CPF)와 지난해 수주한 나이지리아 에지나(Egina) 부유식 생산저장하역설비(FPSO) 등 2건의 해양플랜트 공사에서 손실이 예상된다”고 말했다. 그는 “인펙스프로젝트의 CPF는 상세설계 등 후속 공정에서 사양이 바뀌면서 작업 물량과 비용이 증가했으며, FPSO는 나이지리아 현지에서 생산 비용이 늘어날 것으로 보인다”고 덧붙였다. 삼성중공업은 2건의 해양플랜트 프로젝트 외에 다른 프로젝트는 정상적으로 진행되고 있다고 밝혔다. 회사 관계자는 “예상 손실을 1분기에 반영한 만큼 2분기부터는 경영 실적이 정상 수준으로 회복할 것”이라고 내다봤다.삼성중공업은 이날 실적전망 공시를 통해 올해 매출이 14조6000억원, 법인세 비용 차감 전 순이익이 2000억원 정도일 것이라고 밝혔다.',
    '차입금 갚기가 벅찬 한계기업 가운데 대기업이 늘면서 부실위험을 ‘대형화’하고 있다는 경고가 나왔다. 대기업 부실이 현실로 닥칠 경우 전체 자금시장의 불안으로 번질 수 있다는 우려다. LG경제연구원은 3일 ‘부실위험 기업의 대형화가 금융회사 건전성을 떨어뜨리고 있다’는 제목의 보고서에서 국내 금융회사의 부실자산 규모가 올 들어 지난 9월 말까지 6조8000억원 늘어난 39조8000억원에 달했다며 이같이 분석했다. 이한득 연구위원은 “올 들어 증가한 부실자산은 대부분 은행에서 발생했는데 대기업 대출이 특히 문제가 됐다”고 설명했다. 은행 부문의 경우 대기업의 부실채권 증가폭은 올 들어 9월까지 8조5000억원에 달해 지난해 같은 기간의 3조2000억원을 훨씬 웃돌았다. 같은 기간 중소기업의 부실채권 증가폭은 10조4000억원으로 전년 동기와 동일했다. 보고서는 올 들어 대기업의 부실 정도가 커지고 있다며 중소기업은 글로벌 금융위기 당시 구조조정이 상당히 진행된 반면 대기업은 최근에야 부실이 현실화되기 시작했기 때문이라고 분석했다. 이자보상배율 1을 밑돌아 영업이익으로 이자도 갚지 못하는 한계기업을 살펴봐도 대형화 추세가 두드러졌다. 전체 상장기업의 차입금 가운데 한계기업 차입금이 차지하는 비중은 2005년 13.3%에서 올해 상반기 34.0%로 확대됐다. 한계기업의 평균 차입금이 같은 기간 1270억원에서 6799억원으로 5.4배 뛴 데 따른 것이다. 한계기업의 차입금 가운데 대기업이 차지하는 비중이 93.2%에서 99.1%까지 치솟으면서 개별 부실의 덩치 자체가 커졌다. 이 연구위원은 “상장사 가운데 한계기업의 차입금은 대부분 대기업이 갖고 있는 셈”이라며 “1개 대기업의 부실은 25개 중소기업의 부실과 비슷할 정도로 시장에 미치는 영향이 크다는 게 문제”라고 우려했다.보고서는 위험을 최소화하려면 선제적인 구조조정이 해답이라며 부실 가능성이 높은 기업을 선별해 추가적인 자금 공급을 억제해야 부실 확산을 막을 수 있다고 지적했다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.8338
spearman_cosine 0.8345

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,552 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 8 tokens
    • mean: 17.68 tokens
    • max: 35 tokens
    • min: 229 tokens
    • mean: 438.65 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    2012년에 부일장학회의 주식반환에 대해 기각 결정을 내린 재판부는? 진실규명 결정을 받은 김지태의 유가족들은 2010년 6월에야 법원에 정수장학회와 국가를 상대로 낸 주식양도 등 청구소송을 냈다. 김씨 측은 "박 전 대통령이 사망하고 난 이후 1980년에 토지 반환청구 의사를 표시했고, 과거사정리위원회의 진실규명 결정을 송달받은 이후 손해배상을 청구한 것이므로 공소시효가 남아있다"고 주장했다.

    하지만 1심 재판부는 "소멸시효가 지났다"며 김씨 측의 청구를 기각했고, 2심 재판부도 김씨가 국가의 강박행위로 인해 재산을 헌납한 것은 인정하면서도 의사결정권이 완전히 박탈당한 상태는 아니었던 것으로 판단해 원고 패소 판결했다. 2012년 2월 24일 서울중앙지법 민사합의17부(재판장 염원섭)에 의해 5.16장학회의 ‘헌납’ 과정에서 강압이 있었음이 다시 한 번 입증되었다. 하지만 재판부는 김영우가 제기한 과거 부일장학회의 주식반환에 대해서는 공소시효 소멸을 이유로 기각하였다. 이에 국가의 범죄에 대해서는 공소 시효의 범위를 폭넓게 인정해줘야 한다는 비판도 제기되었다.

    대법원은 2014년 2월 13일 김지태씨 장남 영구 씨를 비롯한 유가족 6명이 정수장학회와 국가를 상대로 낸 주식양도 등 청구소송 상고심에서 심리불속행 기각 결정을 내렸다. '심리불속행'은 상고 사건 가운데 상고 대상이 아니라고 판단되는 사건은 더이상 심리하지 않고 기각하는 제도다.
    투자의 귀재'라 불리는 사람이 올해 번 돈은 얼마인가? 올해 전 세계에서 누가 가장 많은 돈을 벌었을까.미국 경제매체 마켓워치는 ‘투자의 귀재’ 워런 버핏 벅셔해서웨이 회장이 올해 세계에서 가장 많은 돈을 벌었다고 18일(현지시간) 보도했다. 스위스 자산정보업체 웰스엑스(Wealth-X)와 UBS 은행의 조사 결과 올초 464억달러였던 버핏의 자산이 127억달러(약 13조4500억원) 늘어 지난 11일 기준 591억달러가 됐다. 하루에 3700만달러(약 392억원)를 벌어들인 것이다. 빌 게이츠 마이크로소프트 회장은 726억달러의 자산을 보유해 1위 부자 자리를 지켰지만, 올해 버핏보다 적은 115억달러를 벌어 ‘올해 돈 많이 번 사람 순위’에서는 2위에 머물렀다.3위는 자산이 114억달러 증가한 카지노 업계의 거물 셸던 애델슨 라스베이거스샌즈 회장이 차지했다. 애델슨 회장은 지난 2월 방한해 “한국에 내국인 출입이 가능한 ‘오픈 카지노’ 설립 허가가 나면 40억60억달러(약 4조3000억6조5000억원)를 투자할 의향이 있다”고 밝힌 바 있다.113억달러를 번 제프 베저스 아마존 최고경영자(CEO)와 105억달러를 번 마크 저커버그 페이스북 CEO가 각각 4위와 5위에 올랐다. 특히 저커버그는 올해 모바일 광고 매출 증가로 페이스북 주가가 급등하자 자산가치가 크게 늘어난 경우다.6위는 103억달러를 번 손정의 일본 소프트뱅크 회장이었으며, 구글 공동 창업자인 세르게이 브린(93억달러)과 래리 페이지(93억달러)는 나란히 7위와 8위를 기록했다. 9위는 뤼즈허 갤럭시 엔터테인먼트 회장(83억달러)이, 10위는 행동주의 투자자 칼 아이칸(72억달러)이 차지했다.웰스엑스는 “현재 전 세계에는 2170명의 억만장자가 있다”며 “이들의 자산은 미국발 금융위기 직후인 2009년 3조1000억달러에서 올해 6조5000억달러로 늘었다”고 설명했다.
    DDP를 설계한 건축가의 출신 국가는? 옛 서울 동대문운동장 부지에 들어선 ‘동대문디자인플라자(DDP)’가 내달 21일 개장을 앞두고 파격적 위용을 드러냈다. 설계 당시부터 뜨거운 찬반 논란과 함께 화제를 모았기 때문에 준공 이후 서울의 ‘글로벌 명물 건축’으로 부상할 수 있을지 관심이 쏠리고 있다. 영국의 세계적 건축가인 자하 하디드(이라크 출신 여성건축가)가 국제현상공모를 통해 건축설계를 맡았다. 미확인 비행물체(UFO)가 연상될 정도로 이색적인 ‘비정형 건물(형태가 일정치 않은 건물)’이어서 건축계에 큰 파장을 일으켰다. 동대문 일대의 역사성과 지역성이 무시된 독불장군형 디자인이란 혹평과 미래 동대문의 발전상이 함축된 창조성이 돋보인다는 호평이 엇갈리면서 한동안 논쟁이 뜨거웠다. 건물의 비정형성이 워낙 강해 시공사인 삼성물산도 공사에 어려움이 많았다. 시공과정에서 첨단기술 적용은 물론 적잖은 진기록도 쏟아졌다. 같은 크기의 일반 건물(정형 건물)에 비해 공사기간도 거의 2배 이상(4년8개월) 걸렸다. 건물 외장을 감싸고 있는 알루미늄 패널(가로, 세로 1.5m)만도 4만5133장이 쓰였다. 패널이 모두 제각각이어서 공장 생산이 아닌 별도 제작으로 맞춰 붙였다. 건물 외관 면적이 축구장 3배 크기에 달했다. 삼성물산은 국내 공공공사 최초로 3차원 입체설계 방식인 BIM을 활용해 이들 패널을 제작했다. 비정형 외관의 노출 콘크리트 작업도 초고층 빌딩을 능가하는 난공사였다. 이진배 삼성물산 PM(프로젝트 매니지먼트) 상무는 “BIM 모델을 통해 새로운 거푸집 공법을 개발해 적용했고, 각기 다른 곡선과 형태로 설계된 실내 공사에서는 실물 크기 모형을 수차례 제작해 설계 원안의 느낌을 최대한 살렸다”고 말했다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss spearman_cosine
0 0 - 0.8345
0.4558 500 0.1638 -
0.9116 1000 0.1069 -

Framework Versions

  • Python: 3.10.12
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
6
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for bandi2716/klue-roberta-base-klue-sts-mrc

Base model

klue/roberta-base
Finetuned
(1)
this model

Evaluation results