livinNector's picture
Add SetFit model
bacdf85 verified
metadata
base_model: microsoft/Multilingual-MiniLM-L12-H384
library_name: setfit
metrics:
  - accuracy
pipeline_tag: text-classification
tags:
  - setfit
  - sentence-transformers
  - text-classification
  - generated_from_setfit_trainer
widget:
  - text: >-
      பரபரப்பான அரசியலுக்கு மத்தியில் மக்களை மகிழ்விக்கும் இரண்டு ஜோக்கர்கள்

      #நாங்கநலமாஇல்லை_ஸ்டாலின்

      #DrugLordSudalai #Drug_Mafia_Kazhagam #dravidamodel #Resign_Stalin
      #DmkDrugSmugglers #DMKFails #GoBackstalin #drugs #Drugs_Mafia_DMK
      #DMKFails #dmkgovernment #DMKFailsTN #Election2024 
  - text: >-
      திராவிட மாடலின் வளர்ச்சி என்பது சான்றுடன் நிரூபிக்கப்பட்டது! போலியாக
      உருவாக்கப்பட்ட பிம்பமல்ல!

      #Dravidianmodel 

      #Vote4DMK 
  - text: |-
      "பயனற்ற MP-யாக மாறன் இருக்கிறார்"
      #VinojPSelvam #dayanidhimaran #dmk
      #bjp #CentralChennai 
  - text: >-
      நேரிடியாக தனது ஆதரவை பாடலின் மூலம் *நாம் தமிழர் கட்சியின் மைக்
      சின்னத்திற்கு* வாக்கு கேட்டு *அண்ணன் விஜய்* அவர்கள் பாடிய பாடல். 


      கேம்பைன தான் தொறக்கட்டுமா...

      *#மைக்  கையில் எடுக்கட்டுமா...*


      என்று பாடியுள்ளார்

      #மக்களின்_சின்னம்_மைக் 
  - text: |-
      நமது சின்னம் ஒலிவாங்கி (மைக்)
      #மக்களின்_சின்னம்_மைக்
      #Mike_VoiceOfPeople
      #Elections2024
      #கள்ளக்குறிச்சி
       
       
inference: true

SetFit with microsoft/Multilingual-MiniLM-L12-H384

This is a SetFit model that can be used for Text Classification. This SetFit model uses microsoft/Multilingual-MiniLM-L12-H384 as the Sentence Transformer embedding model. A LogisticRegression instance is used for classification.

The model has been trained using an efficient few-shot learning technique that involves:

  1. Fine-tuning a Sentence Transformer with contrastive learning.
  2. Training a classification head with features from the fine-tuned Sentence Transformer.

Model Details

Model Description

Model Sources

Model Labels

Label Examples
2
  • '#மக்களின்_சின்னம்_மைக் \n#Mike_VoiceOfPeople \n#Seeman\n\nகனிம வளங்கள் \nயாரு யாரால் கொள்ளை அடிக்க பட்டது ?\n\n#பாசிச_பாஜக #திருட்டு_திமுக \n#அடிமைஅதிமுக #செத்துபோன_காங்கிரஸ் '
  • 'கனவுகளை வெளிப்படுத்தும் \nதலைவர்களுடன் \nஎங்களின்\nசின்னம் 🎙️.\n\n#மக்களின்_சின்னம்_மைக்.\n\n~\n#சீமானின்_சின்னம்_ஒலிவாங்கி 🎙️'
  • 'டேய் உபிஸ், எனக்கு ஒரு\nஉண்மை தெரிஞ்சாகணும்...\n\nஇந்த பொட்டி கோவாலு அப்போ\nபேசுனது பொய்யா இல்ல இப்போ\nபேசுறது பொய்யா!? 😬😂\n#NoVoteToDMK\n\n#Katchatheevu #IPL2024 #2GScam\n#SenthilBalaji #Drug_Mafia_DMK\n#PappuDiwas #EDRaid #DMKFailsTN '
0
  • 'கட்சி மாறிய 19 Ex.MLA க்கள், ஸ்டாலினுக்கு முத்தம், TR பாலுவின் கணக்கு
6
  • 'ஜீவநதி ப்ரியன்\xa0 mm ok'
  • 'Siva Siva\xa0 என்னது'
  • 'கவலைகள் மறந்து சிரிக்கTMP prank paarunkaEnjoy pannunka'
3
  • '#நாம்தமிழர் கட்சிக்கு ஆதரவாக லண்டன் ஈழதமிழர்கள்..\n\nநாம்தமிழர் என்பது அனைத்து உலக தமிழர்களுக்கானது..\n\n#ParliamentElection2024\n\n#சீமானின்_சின்னம்_ஒலிவாங்கி\n#NTK_Symbol_Mike '
  • 'ஒவ்வொரு வாக்கும் நம் இனம் காக்கும்\n#மக்களின்_சின்னம்_மைக் '
  • 'சகோதரர் ராகுல் காந்திக்கு ஜூன் 4ல் இனிப்பான வெற்றியை தருவோம்- முதலமைச்சர் மு.க.ஸ்டாலின்\n\n#TNCM #MKStalin #sweetvictory #RahulGandhi #DMK #Congress #Tamilnadunews #Jewellery #Jewelleryseized #Madurai #Siddaramaiah #KarnatakaCM #NDA #Congress #ipl #ipl2024 #PunjabvsRajasthan #Cricket #Sportsnews #MMNews #Maalaimalar'
4
  • 'அக் - 17-ம் தேதி 52வது ஆண்டில் அடியெடுத்து வைக்கும் அதிமுக
1
  • 'ஜனநாயத்தின் நம் வாக்கு என்பது வலிமைமிக்க ஆயுதம்\nஅதை அநீதிக்கு எதிராக ஏந்துவோம்! \n\n \n\n#மக்களின்_சின்னம்_ஒலிவாங்கி #Mike_ThePeoplesChoice \n#Elections2024 \n#எங்கள்_வாக்கு_விற்பனைக்கு_அல்ல \n#MyVote_IsNot_ForSale '
  • 'அண்டப்புளுகு ஆகாசப்புளுகு திமுக.\n\nமக்கள எந்தளவுக்கு முட்டாள் பயலுக ன்னு நெனைக்கிறாய்ங்க?\n\n#DMKFailsTN'
  • 'கோவையில் நடைபெறும் பிரம்மாண்ட பொதுக்கூட்டத்தில் முதலமைச்சர் மு.க.ஸ்டாலின் மற்றும் ராகுல் காந்தி\n\n#Kovai #MKStalin #Rahul_Gandhi #DinakaranNews '
5
  • 'MGRன் அதிமுக இன்று இல்லை அதிமுக கோட்டையை தகர்த்த திமுக!\n\nFull video limk : \n\n#Nakkheeran #MKStalin #DMK '
  • 'ஜெயலலிதா ஆட்சியில் தமிழ்நாட்டிற்கு வர அஞ்சும் மோடி எடப்பாடி ஆட்சிக்காலத்திலும் வந்தது குறைவு..\nஆனால் ஸ்டாலின் ஆட்சிக்காலத்தில் வாரவிடுமுறை போல் அடிக்கடி தமிழ்நாடு வருகிறார். அது மட்டுமல்ல RSS ஊர்வலமும் நடக்கிறது. புரிகிறதா திமுக பிஜேபி கள்ள உறவு…'
  • 'கோவையில் முதலமைச்சர் மு.க.ஸ்டாலின், காங்கிரஸ் எம்.பி. ராகுல் காந்தி கூட்டாக தேர்தல் பரப்புரை!\n\n#Theekkathir

Uses

Direct Use for Inference

First install the SetFit library:

pip install setfit

Then you can load this model and run inference.

from setfit import SetFitModel

# Download from the 🤗 Hub
model = SetFitModel.from_pretrained("livinNector/tam-political-classification-setfit")
# Run inference
preds = model("\"பயனற்ற MP-யாக மாறன் இருக்கிறார்\"
#VinojPSelvam #dayanidhimaran #dmk
#bjp #CentralChennai ")

Training Details

Training Set Metrics

Training set Min Median Max
Word count 1 17.8534 348
Label Training Sample Count
0 1361
1 790
2 637
3 575
4 412
5 406
6 171

Training Hyperparameters

  • batch_size: (32, 32)
  • num_epochs: (1, 1)
  • max_steps: -1
  • sampling_strategy: oversampling
  • num_iterations: 1
  • body_learning_rate: (2e-05, 1e-05)
  • head_learning_rate: 0.01
  • loss: CosineSimilarityLoss
  • distance_metric: cosine_distance
  • margin: 0.25
  • end_to_end: True
  • use_amp: False
  • warmup_proportion: 0.1
  • l2_weight: 0.01
  • seed: 42
  • eval_max_steps: -1
  • load_best_model_at_end: True

Training Results

Epoch Step Training Loss Validation Loss
0.0074 1 0.438 -
0.3676 50 0.3051 -
0.7353 100 0.2648 0.2556

Framework Versions

  • Python: 3.10.12
  • SetFit: 1.1.0
  • Sentence Transformers: 3.3.1
  • Transformers: 4.45.2
  • PyTorch: 2.4.1+cu121
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

@article{https://doi.org/10.48550/arxiv.2209.11055,
    doi = {10.48550/ARXIV.2209.11055},
    url = {https://arxiv.org/abs/2209.11055},
    author = {Tunstall, Lewis and Reimers, Nils and Jo, Unso Eun Seo and Bates, Luke and Korat, Daniel and Wasserblat, Moshe and Pereg, Oren},
    keywords = {Computation and Language (cs.CL), FOS: Computer and information sciences, FOS: Computer and information sciences},
    title = {Efficient Few-Shot Learning Without Prompts},
    publisher = {arXiv},
    year = {2022},
    copyright = {Creative Commons Attribution 4.0 International}
}