tzem (__ _ __!)

korean_textbooks 데이터셋 정리 후 사전 학습 한 모델입니다. 비용 문제로 1 epoch만 진행하였습니다.

데이터셋 정리 내용:

  1. 데이터에 여러 번 반복되는 문장 있을 시 제거

  2. 한글이 없는 데이터 제거

  3. html 태그가 포함된 데이터 제거

  4. 토론 데이터 포맷 통일, 존댓말로 수정

  5. 토론 데이터에서 Phi를 철수로, Epsilon을 영희로 변경

  6. 기타 등등

Downloads last month
19
Safetensors
Model size
198M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.

Model tree for blueapple8259/tzem

Finetunes
1 model

Dataset used to train blueapple8259/tzem