SetFit with mini1013/master_domain

This is a SetFit model that can be used for Text Classification. This SetFit model uses mini1013/master_domain as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

Fine-tuning a Sentence Transformer with contrastive learning.
Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Type: SetFit
Sentence Transformer body: mini1013/master_domain
Classification head: a LogisticRegression instance
Maximum Sequence Length: 512 tokens
Number of Classes: 17 classes

Model Sources

Repository: SetFit on GitHub
Paper: Efficient Few-Shot Learning Without Prompts
Blogpost: SetFit: Efficient Few-Shot Learning Without Prompts

Model Labels

Label	Examples
1.0	'사노셀 사라처럼 콤부차 다이어트 1박스(2주분) 체지방 감소 유기산 [사노셀] 사라처럼 2주(14포) 주식회사 뉴솔바이오' '스키니랩 가르시니아 1000mg x 2정 x 14포 스윗퀸비' '그린스토어 슬림 라인컷 다이어트 112정(28일분) 가르시니아 캄보지아추출물 체지방감소 프레스밀(Press Mill)'
16.0	'네추럴라이즈 더퍼펙트 스킨 히알루론산 먹는 피부 콜라겐 영양제 1박스 2개월분 (주)엔라이즈' '이너비 아쿠아리치 더블업 600mg x 56캡슐 주식회사 제이더블유트레이드' '웰릿 웰릿 아쿠아필름 저분자 히알루론산 고함량 콜라겐 엘라스틴 14매 2box 모던알'
12.0	'바로푸드 와일드망고씨앗 20배 추출분말가루 200g 1통 믿을수있는친구들' '와일드망고 씨앗 가루 분말 (주)메디앤케어' '프롬바이오 아프리카망고 1개월 30정x1박스 아프리카망고 1개월 주식회사 프롬바이오'
8.0	'레몬밤차 레몬밤 추출물 티 잎 허브차 티백 주식회사 수명원' '[Solaray] 솔라레이 레몬 밤 475 mg, 100 베지캡슐 엘엔제이인터내셔널' '순수한집 레몬밤차 티백 50개입 33. 국화차 50티백x2개 (총100개입) (주)순수코퍼레이션'
9.0	'시네트롤 슬림 자몽 오렌지 추출물 60정 나린진 더 바디슬림 로얄캐네디언 라임마켓' '캐나다 시네트롤 슬림 60베지캡슐 고함량 로얄캐네디언 씨네트롤 효능 한스생활건강' '스키니랩 마시는 시네트롤 자몽 다이어트 4g x 14포 에이(A)'
3.0	'졸러 래보래토리즈 잔트랙스 잰트렉스 블루, 84소프트젤 84소프트젤 아하몰' '졸러 잔트렉스 블루 84캡슐 Zantrex Blue 2-잔트렉스 블랙 엘케이스토어' '톡스웰 정 600mg x 60정 60정x1개 더 나누다 인터내셔널(The nanuda international)'
5.0	'건레몬 건조레몬 말린레몬 50g 연금술차 레몬티 건레몬 건조레몬 50g 현우공업사' '그라비올라 300g 1팩 시간벌기' '대상 청정원 홍초 석류 900ML x 2개 리인터내셔널'
14.0	'판텐투컷 420mg x 90정 1개월분 잡(Job)상인' '센트럴포뮬러 써큐레드 120정 바른건강몰' '[NEW]메타그린 슬림업 리필형 420mg x 120정(2개월분) 2정소포장×60포 하나네트워크'
4.0	'오리온 닥터유 에너지바 40g 닥터유 호두에너지바40g 화진유통' '랩노쉬 단백쿠키 5종 20개입 (맛 선택)/ 수제 르뱅 단백질과자 프로틴쿠키 초코칩 피넛버터 10개입 2박스 (총 20개입) 메가글로벌001' '오리온 닥터유 에너지바 40g 오리온 닥터유 에너지바 40g 1개 (주) 굿 드림'
13.0	'비비랩 잔티젠 에스 600mg x 14캡슐 판다친구' '뉴트리디데이 다이어트 잔티젠 올뉴 600 30캡슐 1병 체중 체지방 감소 03_잔티젠 올뉴 3병 주식회사 더베이글' '슈퍼잔티젠 원 캡슐 다이어트 650mg x 14캡슐 이너뷰티(Inner Beauty)'
10.0	'로얄 캐네디언 시서스 파우더 300G 녹돌 이' '로얄케네디언 캐나다 시서스 분말 가루 파우더 300g 녹돌 씨' '스키니랩 행복한 시서스 다이어트 600mg x 28정 동의 조이앤존'
15.0	'캘리포니아 골드 뉴트리션 저분자 콜라겐 업 464g 마린콜라겐 펩타이드 히알루론산 1팩 조이제이몰' '트루엔 듀얼액상콜라겐 18ml x 30포 주식회사 제이제이몰' '지웨이 슈가 먹는 저분자 피쉬콜라겐 펩타이드 300달톤 150g 1통 슈가 피쉬 콜라겐 6통 (주)지웨이'
0.0	'CMG제약 슬림부스터02 800mg 42캡슐 건강청년' '악마다이어트 cla 프리미엄 60캡슐 160년 전통 독일산 체지방감소 기초대사량 증가 스몰케어' '인테로 CLA 공액리놀레산 공액리놀렌산 체지방감소 다이어트 식품 보조제 단기 8주분 2+1 (24주분) 주식회사 인테로'
6.0	'오리온 단백질칩 칠리살사맛 60g 닥터유 신상 프로틴 다이어트 과자 스낵 향기좋은날' '엑스텐트 오리지널 BCAA 레몬 라임 스퀴즈 1.4kg 망고 매드니스 어스몰원' '뉴트리코스트 베타-알라닌 언플레이버드 글루텐 프리 500g × 1개 와이에스 트레이딩'
11.0	'일동제약 비오비타 우리아이 쾌변젤리 월촌마트' '미궁365 대장사랑 오리지널 5g x 30포 1박스 위너스마일' '미궁365 대장사랑 오리지널 5g x 30포 제이컴퍼니'
2.0	'국내산 도라지 환 국산 셋그라운드' '[허닭] 닭가슴살 곤약볶음밥 250g 10종 1팩 01.닭가슴살 닭갈비 곤약 볶음밥 1팩 에이케이에스앤디 (주) AK인터넷쇼핑몰' '[라이틀리] 참치김치 곤약볶음밥 200g 대상주식회사'
7.0	'락토페린 2개월분 모로오렌지 시너지 c3g 모로실 활력포션 공식몰' '락토페린 글루타치온 모로오렌지 18000 1박스 베르가못 이너뷰티 그래스페드 뷰티영양제 한국생활건강연구소' '뉴트럴플랜 모로오렌지 레몬밤 락토페린 600mg x 120정 디에트데이'

Evaluation

Metrics

Label	Metric
all	0.7886

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("mini1013/master_cate_fd6")
# Run inference
preds = model("한끼곤약젤리 버라이어티팩 150ml x 30개입  지유인터내셔널")

Training Details

Training Set Metrics

Training set	Min	Median	Max
Word count	3	10.0988	23

Label	Training Sample Count
0.0	50
1.0	50
2.0	50
3.0	50
4.0	50
5.0	50
6.0	50
7.0	23
8.0	50
9.0	50
10.0	50
11.0	50
12.0	27
13.0	50
14.0	50
15.0	50
16.0	50

Training Hyperparameters

batch_size: (512, 512)
num_epochs: (20, 20)
max_steps: -1
sampling_strategy: oversampling
num_iterations: 40
body_learning_rate: (2e-05, 2e-05)
head_learning_rate: 2e-05
loss: CosineSimilarityLoss
distance_metric: cosine_distance
margin: 0.25
end_to_end: False
use_amp: False
warmup_proportion: 0.1
seed: 42
eval_max_steps: -1
load_best_model_at_end: False

Training Results

Epoch	Step	Training Loss	Validation Loss
0.008	1	0.4244	-
0.4	50	0.357	-
0.8	100	0.201	-
1.2	150	0.1331	-
1.6	200	0.0757	-
2.0	250	0.0294	-
2.4	300	0.0338	-
2.8	350	0.0214	-
3.2	400	0.0108	-
3.6	450	0.0059	-
4.0	500	0.0046	-
4.4	550	0.0065	-
4.8	600	0.0023	-
5.2	650	0.0004	-
5.6	700	0.0002	-
6.0	750	0.0022	-
6.4	800	0.0021	-
6.8	850	0.0022	-
7.2	900	0.0021	-
7.6	950	0.004	-
8.0	1000	0.0002	-
8.4	1050	0.0003	-
8.8	1100	0.0002	-
9.2	1150	0.0013	-
9.6	1200	0.003	-
10.0	1250	0.0015	-
10.4	1300	0.0002	-
10.8	1350	0.0001	-
11.2	1400	0.0001	-
11.6	1450	0.0001	-
12.0	1500	0.0001	-
12.4	1550	0.0001	-
12.8	1600	0.0001	-
13.2	1650	0.0001	-
13.6	1700	0.0001	-
14.0	1750	0.0001	-
14.4	1800	0.0001	-
14.8	1850	0.0001	-
15.2	1900	0.0001	-
15.6	1950	0.0001	-
16.0	2000	0.0001	-
16.4	2050	0.0001	-
16.8	2100	0.0001	-
17.2	2150	0.0001	-
17.6	2200	0.0001	-
18.0	2250	0.0001	-
18.4	2300	0.0001	-
18.8	2350	0.0001	-
19.2	2400	0.0001	-
19.6	2450	0.0001	-
20.0	2500	0.0001	-

Framework Versions

Python: 3.10.12
SetFit: 1.1.0.dev0
Sentence Transformers: 3.1.1
Transformers: 4.46.1
PyTorch: 2.4.0+cu121
Datasets: 2.20.0
Tokenizers: 0.20.0

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}

mini1013
/

master_cate_fd6