SentenceTransformer based on Kerneld/klue-roberta-base-klue-sts

This is a sentence-transformers model finetuned from Kerneld/klue-roberta-base-klue-sts. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Kerneld/klue-roberta-base-klue-sts
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 tokens
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '올 가을 처분되는 오피스텔은 몇 실인가?',
    '공급과잉 논란으로 분양침체에 빠졌던 주거용 오피스텔 시장에 최근 수요자들의 관심이 쏠리고 있다. ‘8·28 전·월세 대책’에서 오피스텔을 근로자·서민 주택구입자금의 싼 이자로 대출받아 매입할 수 있도록 했기 때문이다. 또한 올 들어 신규 공급이 대폭 줄면서 미분양 물량 해소가 빨라졌고, 기존 오피스텔의 수익률이 5%를 웃도는 등 시장 전체가 회복 조짐을 보이고 있는 것도 한 요인이다.○아파트 같은 대출 지원과 세제혜택16일 부동산업계에 따르면 최근 정부가 오피스텔에 다양한 세제 및 대출 혜택을 주기로 해 관심이 높아지고 있다. 지난해 4월부터 오피스텔에 대한 매입 임대사업자 등록이 허용된 데다 ‘4·1 부동산 대책’에 따라 연말까지 오피스텔을 구입하면 향후 5년간 양도세가 면제된다.‘8·28 대책’에서는 연 2.8~3.6% 수준인 국민주택기금 지원 대상에 6억원 이하 주거용 오피스텔을 포함시켰다. 다만 부부합산 연 소득이 6000만원 이하여야 하고, 최대 대출금은 2억원까지다. 소형 오피스텔 임대사업자의 임대소득에 대한 소득세·법인세 20% 감면도 추진된다. 기준시가 3억원 이하의 소형 주거용 오피스텔 3실 이상을 5년 이상 임대받을 때 혜택을 볼 수 있다.분양마케팅업체인 반더펠트의 호한철 대표는 “서울 마포 광화문 강남 구로와 분당 정자동 등 업무 밀집지역 인근에서는 주거용 오피스텔 수요가 꾸준하다”며 “최근 정부 대책으로 오피스텔 구입자금 지원 혜택 등이 늘어나며 실수요자나 퇴직자들을 중심으로 분양 문의전화가 증가하고 있다”고 말했다.○올 가을 신규 분양 크게 늘어가을 분양 성수기를 맞아 주거용 오피스텔도 잇따라 선보인다. 전국적으로 10여개 단지, 7000실을 웃도는 규모다. 부동산 개발업체인 파크하비오는 다음달 서울 문정동에서 복합단지 ‘송파 파크 하비오’를 분양한다. 오피스텔이 3527실 규모로 서울 지하철 8호선 장지역이 걸어서 3분 거리다.부동산 개발업체인 엠디엠도 같은 달 경기 수원 광교신도시 업무 8블록에서 647실 규모의 ‘광교 레이크파크’를 공급한다. 35·40층 2개동 규모로 광교호수공원(204만㎡)을 내려다볼 수 있는 게 매력이다. 모든 가구가 남향 3개면 개방 형태로 설계됐다. 입주자에게 클럽라운지에서 365일 식사가 제공되는 이색 서비스도 이뤄진다.서울 강남권, 경기 성남시 정자동과 판교신도시 등에 있는 기존 오피스텔도 투자문의가 이어지고 있다. 지난달부터 임대사업을 염두에 둔 투자자들이 매입에 나서면서 거래가 늘고 있다.부동산114에 따르면 서울지역 오피스텔의 연간 평균 임대수익률은 지난달 기준으로 5.45% 수준이다. 경희궁의아침, 스페이스본 등 종로지역 오피스텔의 수익률은 연 10%에 이르는 것으로 조사됐다.',
    '“구글 검색에서 비슷한 주제의 논문이 있으면 가차 없이 떨어뜨리더라고요. 이처럼 엄격하게 새 아이디어만 평가하는 곳은 처음입니다.” 최근 삼성미래기술육성재단 연구과제에 응모한 대학교수는 이렇게 말했다.삼성미래기술육성재단(이사장 국양 서울대 물리천문학부 교수·사진)은 지난해 8월 연구진흥 목적의 공익 연구재단으로 출범했으며, 삼성전자가 5000억원을 내놨다. 수리과학, 물리, 화학, 생명과학 분야 및 융복합 분야에서 창의적이고 도전적인 연구과제를 선정해 연구부터 특허출원까지 전 과정을 지원한다.재단은 설립 취지에 따라 연구과제를 심사할 때 ‘독창성’을 최우선적으로 들여다본다. 응모자의 이름과 소속은 중요하지 않다. 재단 관계자는 “현재의 틀을 허무는 도전적인 과제를 선정한다는 방침”이라고 설명했다. 세계 유일 또는 세계 최고의 독창적인 프런티어 연구와 실패를 두려워하지 않고 과감히 도전하는 연구를 적극 지원하기 위해서다.학계에서는 이 같은 연구과제 평가 및 지원 방법이 미국의 고등방위연구계획국(DARPA)이나 국가과학재단(NSF)과 비슷하다고 말한다. 이들 기관은 미국 정부 차원에서 10~20년 뒤 먹거리를 찾는 일을 하고 있다. 삼성미래기술육성재단이 이처럼 엄격한 기준에 따라 연구과제를 뽑다 보니 참신하고 혁신적인 주제가 많이 나온다. 이원재 서울대 교수의 ‘장뇌축(gut-brain-axis) 연구’가 대표적이다. 장이 두뇌와 미주신경을 통해 소통하면서 사실상 ‘제2 두뇌’ 역할을 한다는 새로운 이론이다. 층간소음을 혁신적으로 줄여줄 수 있는 ‘스큐메타포러스’ 소재(김윤영 서울대 교수 연구)도 재단 연구과제 선정을 통해 소개됐다.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.8126
spearman_cosine 0.8199
pearson_manhattan 0.7642
spearman_manhattan 0.7843
pearson_euclidean 0.7619
spearman_euclidean 0.7827
pearson_dot 0.7933
spearman_dot 0.8151
pearson_max 0.8126
spearman_max 0.8199

Training Details

Training Dataset

Unnamed Dataset

  • Size: 17,552 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 8 tokens
    • mean: 17.8 tokens
    • max: 36 tokens
    • min: 241 tokens
    • mean: 438.87 tokens
    • max: 512 tokens
  • Samples:
    sentence_0 sentence_1
    한국콘텐츠진흥원장상을 받은 곳은? ㈜연필과지우개(대표 정일)가 자사의 인기 애니메이션 ‘에그로이’를 인형극으로 제작해 9월부터 관객을 직접 찾아가는 공연 서비스를 시작한다고 밝혔다. ‘에그로이’ 인형극은 언택트 시대를 맞아 방문 공연을 신청한 관객이 있는 곳으로 직접 찾아가 공연하거나 영상을 통해 제공하는 방식으로 제작될 예정이다. 이번 ‘에그로이’ 인형극 기획은 한국과학창의재단의 과학문화바우처 상품 공모 선정을 통해 이루어졌으며, 서울 전지역에서 과학문화바우처를 이용해 신청 가능하다. 작품명 ‘어둠의 비밀을 찾아서’로 명명된 ‘에그로이’ 인형극은 손인형극 형식의 약 50분 공연으로 구성되어 있고, 코로나19로 공연이 불가능한 곳은 USB 영상으로 전달한다. 공연 내용은 7세 이상의 아동을 대상으로 다양한 과학 상식과 원리가 우리 생활에 존재한다는 것을 보여주고, 생활 주변에서 평소 그냥 지나쳤던 것들을 과학적 영감으로 볼 수 있게 지적 호기심을 제공한다. ㈜연필과지우개에서는 과학 원리를 스토리 속의 캐릭터에 공감하면서 몰입해 보고 흥미를 누릴 수 있도록 준비했다고 전했다. 제작진은 총괄 정일 대표와 기획 원승준 이사, 홍보/마케팅 팀장 Albayrak Merve Gul, 미디어팀장 Ochieng Joshua Wera, 연출 김미영, 조연출 송영진, 최윤정, 임장현, 인형극 전문 배우 김미란, 권하은, 이인화, 이지원, 임서연, 예승미, 전가영, 전하영 등이 공연을 한다. ‘에그로이’는 최근 제작 완료를 앞둔 각각 1분 30초 길이인 100편의 애니메이션으로, 귀여운 달걀들과 도마뱀 요리사의 좌충우돌 스토리를 담고 있다. 아직 제작중인 애니메이션이지만 유튜브 등록 2주 만에 글로벌 조회수 100만 회를 넘기는 등 해외에서 벌써 작품성을 인정받아 활발하게 계약이 진행되고 있다. ㈜연필과지우개에서는 ‘에그로이’가 이미 미국, 중국, 대만, 인도, 인도네시아, 베트남, 인도, 체코, 브라질 등 9개 국가와 선계약을 완료했다고 밝혔다. 제작사 ㈜연필과지우개는 캐릭터 기반 콘텐츠 전문 기획 제작사이다. 2018년부터 한국콘텐츠 진흥원 CKL 기업지원센터에 입주해 있으며, 스타트업 리그 한국콘텐츠진흥원장상 수상, 대통령 순방 경제사절단 2회 참가, 아파트 브랜드 대우건설과 키즈카페 완공 등 국내에서도 높은 평가를 받고 있다. ㈜연필과지우개는 이번 인형극 제작을 통해 애니메이션에서 공연, TV인형극, 인형 판매 등으로 파생 상품화를 본격적으로 진행할 예정이다. 9월부터 찾아가는 인형극과 10월부터 OTT용 11분 길이의 52부작 해외 수출용 TV 인형극을 출시할 예정이다. ㈜연필과지우개 정일 대표는 “앞으로도 아동들이 과학 공연으로 과학에 대한 지속적인 관심과 미래 과학자의 꿈을 가질 수 있도록 이번 공연을 기획했다”며, “쎄서미스트리트처럼 전세계인에게 사랑받는 인형극을 제작하는 것을 목표로 하고 있다.”고 말했다.
    MICE 유치, 개최 활동을 지원하는 기관의 수장 이름은? 부산관광공사(사장 정희준)는 올해 부산의 MICE 산업 성장에 공로가 큰 주요인사 선정, 16일 부산힐튼호텔에서 부산 MICE 앰버서더 어워드 행사를 개최했다. 부산MICE 앰버서더는 ▲대형 국제회의 부산 유치, 개최에 기여한 인사 ▲국내학회·협회 임원 및 국제기구의 회원으로 활발하게 활동하는 인사 ▲국제회의 유치 정보를 부산에 지속적으로 제공하고 기여한 인사로 선정했다. 올해 부산MICE 앰버서더에는 부산대학교 선박해양플랜트기술연구원 백점기 원장을 비롯, 한국국제물류협회 김병진 회장, 창원대학교 신기삼 교수 등 17명이 선정되었다. 올해 앰버서더로 선정된 이들은 부산시, 부산관광공사, 부산지역업계와 힘을 합쳐 2022 세계현미경총회, 2021 아시아-오세아니아 면역학회 총회, 2022 국제내연기관협회 세계총회 등 굵직한 회의들을 부산으로 유치하는 성과를 거두었으며 연간활동을 통해 마이스도시 부산을 전세계에 알리는 데 주요한 역할을 해왔다. 부산MICE 앰버서더로 선정된 인사는 위촉패와 더불어 부산관광공사로부터 MICE유치개최와 관련된 연간 활동을 지원받게 된다. 이날 위촉식 행사에는 부산시 관계자를 비롯해 벡스코, 영화의 전당, 지역PCO, 호텔 등 부산 MICE 관련 유관기관 대표들이 함께 참석해 MICE 앰버서더들과 간담회를 갖고 부산 MICE 발전을 위한 협력방안도 모색하였다.
    치료에 실패한 혈액암 환자의 수는? T 세포 기반 차세대 면역 치료제 연구개발 전문 기업 네오이뮨텍은 지난달 자사의 ‘NT-I7’(efineptakin alfa)과 글로벌 제약 기업 로슈(Roche)의 면역관문억제제(PD-L1 저해제) ‘Tecentriq®’(티센트릭, atezolizumab)과의 병용 투여에 대한 공동임상 계약을 체결한 데 이어, 최근 FDA로부터 비소세포폐암(NSCLC) 1차 치료제의 임상2상 계획(IND) 승인을 획득함에 따라, 미국 현지에서 임상2상을 진행할 예정이라고 밝혔다. NT-I7은 네오이뮨텍이 개발 중인 T 세포의 증폭을 유도하는 First-in-Class 차세대 면역 항암제로, 단독 요법의 효능뿐 아니라 기존 항암치료제와 병용 투여 시 치료 효과의 시너지가 기대되는 신약이다. 각종 고형암 및 혈액암, 희귀질환, 감염성 질환 환자에 대한 임상을 계획 또는 진행 중이다. 지난 3년간 머크, 로슈, BMS 등 글로벌 선도기업들이 면역항암제의 효능을 증가시킬 수 있는 주요 파트너로 NT-I7에 주목하고 현재 4건의 병용임상에 대한 계약을 체결하고 임상을 진행하고 있다. 비소세포폐암은 폐암의 80~85%를 차지하고 있으며, 암사망의 주요 원인으로 꼽힌다. 2018년에는 전 세계적으로 약 210만 명의 환자가 비소세포폐암 진단을 받고 이 중 약 176만 명이 사망에 이를 정도로 혁신 치료제 개발이 시급한 질환이다. 네오이뮨텍은 이번 임상2상을 통해 치료 경험이 없는 4기 비소세포폐암 환자들에 대한 NT-I7과 Tecentriq®의 병용 치료 항암효과를 평가함으로써 비소세포폐암 1차 치료제로서의 효능을 검증할 예정이다. 앞선 면역관문억제제와의 병용 투여 임상1상을 통해 확인한 안전성 및 효능 결과를 고려하여 1,200㎍/㎏을 NT-I7의 2상을 위한 권장용량으로 결정했다. 양세환 네오이뮨텍 대표이사는 “Tecentriq®과 NT-I7을 병용하면, Tecentriq®을 단일제제로 사용하는 것보다 치료 효능이 증가할 뿐만 아니라, PD-L1 발현이 낮은 비소세포폐암 환자에게도 더 나은 효능을 제공할 것으로 기대된다”면서 “또한 기존의 화학적 치료를 견디기 어려워 받지 못하는 비소세포폐암 환자들에게 새로운 대안을 제시함으로써, 치료 혜택을 받을 수 있는 대상 환자도 더욱 확대될 것으로 기대된다”고 설명했다. 이어 “특히 이번 임상2상은 2차, 3차 치료 옵션이 아닌 1차 치료제로서의 안전성과 효능을 입증하기 위한 과정으로서 의미가 더욱 크다”고 강조했다.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • num_train_epochs: 1
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 16
  • per_device_eval_batch_size: 16
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss spearman_max
0 0 - 0.8199
0.4558 500 0.1651 -
0.9116 1000 0.113 -

Framework Versions

  • Python: 3.8.20
  • Sentence Transformers: 3.2.0
  • Transformers: 4.45.2
  • PyTorch: 2.0.1
  • Accelerate: 0.26.0
  • Datasets: 3.0.1
  • Tokenizers: 0.20.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
6
Safetensors
Model size
111M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for Kerneld/klue-roberta-base-klue-sts-mrc

Finetuned
(1)
this model

Evaluation results