LLaMA-3-8B-Instruct-TR-DPO
LLaMA-3-8B-Instruct-TR-DPO is a finetuned version of Meta-LLaMA-3-8B-Instruct, which has been trained on a preference dataset generated synthetically.
Training Info
Base Model: Meta-LLaMA-3-8B-Instruct
Training Data: A synthetically generated preference dataset consisting of 10K samples was used. No proprietary data was utilized.
Training Time: 3 hours on a single RTX 6000 Ada
QLoRA Configs:
- lora_r: 64
- lora_alpha: 32
- lora_dropout: 0.05
- lora_target_linear: true
The aim was to finetune the model to enhance the output format and content quality for the Turkish language. It is not necessarily smarter than the base model, but its outputs are more likable and preferable.
Compared to the base model, LLaMA-3-8B-Instruct-TR-DPO is more fluent and coherent in Turkish. It can generate more informative and detailed answers for a given instruction.
It should be noted that the model will still generate incorrect or nonsensical outputs, so please verify the outputs before using them.
How to use
You can use the below code snippet to use the model:
from transformers import BitsAndBytesConfig
import transformers
import torch
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model_id = "Metin/LLaMA-3-8B-Instruct-TR-DPO"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16 ,'quantization_config': bnb_config},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant. Always reply in Turkish."},
{"role": "user", "content": "Python'da bir ΓΆΔenin bir listede geΓ§ip geΓ§mediΔini nasΔ±l kontrol edebilirim?"},
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=512,
eos_token_id=terminators,
do_sample=True,
temperature=0.2,
top_p=0.9,
)
print(outputs[0]["generated_text"][len(prompt):])
OpenLLMTurkishLeaderboard_v0.2 benchmark results
- MMLU_TR_V0.2: 49.83%
- Truthful_QA_TR_V0.2: 52.32%
- ARC_TR_V0.2: 44.37%
- HellaSwag_TR_V0.2: 45.58%
- GSM8K_TR_V0.2: 54.21%
- Winogrande_TR_V0.2: 55.06%
- Average: 50.22%
These scores may differ from what you will get when you run the same benchmarks, as I did not use any inference engine (vLLM, TensorRT-LLM, etc.)
Output Example (DPO Model vs Base Model)
Testing the model with a single example is not an accurate method. However, an example is provided here to showcase the model's capabilities.
Model: LLaMA-3-8B-Instruct-TR-DPO
Input
Yeni bir derin ΓΆΔrenme modelinin tanΔ±tΔ±mΔ± iΓ§in bir etkinlik planΔ± hazΔ±rla.
Output
Harika bir fikir!
Etkinlik PlanΔ±: "Deep Learning Modeli TanΔ±tΔ±mΔ±"
**AdΔ±m 1: Γn-BaΕlangΔ±Γ§**
* KonuΕma konusu: "Deep Learning Modeli TanΔ±tΔ±mΔ±"
* KatΔ±lΔ±mcΔ± profili: Bilimsel ve teknoloji odaklΔ± profesyoneller, ΓΆΔrenciler ve araΕtΔ±rmacΔ±lar
* Etkinlik sΓΌresi: 2 saat
**AdΔ±m 2: GiriΕ**
* Sunum: "Deep Learning Modeli Tanıtımı: Tarihçesi ve Temelleri"
* Sunum iΓ§eriΔi: Deep learning modelinin tarihi, temel kavramlarΔ± (ΓΆrneΔin, ANN, CNN, RNN), uygulamalarΔ± ve avantajlarΔ±
* Sunum sΓΌresi: 30 dakika
**AdΔ±m 3: Modelin ΓalΔ±Εma Γrnekleri**
* Sunum: "Deep Learning Modelinin ΓalΔ±Εma Γrnekleri"
* Sunum iΓ§eriΔi: Modelin uygulamalarΔ± (ΓΆrneΔin, gΓΆrΓΌntΓΌ sΔ±nΔ±flandΔ±rma, doΔal dil iΕleme, makine ΓΆΔrenimi)
* Sunum sΓΌresi: 45 dakika
**AdΔ±m 4: KatΔ±lΔ±mcΔ± SorularΔ± ve TartΔ±Εma**
* KatΔ±lΔ±mcΔ± sorularΔ±na cevap verme
* TartΔ±Εma: Modelin avantajlarΔ± ve dezavantajlarΔ±, uygulamalarΔ± ve gelecekteki geliΕmeleri
**Adım 5: Sonuç**
* Sunum: "Deep Learning Modelinin Sonuçları"
* Sunum iΓ§eriΔi: Modelin sonuΓ§larΔ±, uygulamalarΔ± ve gelecekteki geliΕmeleri
* Sunum sΓΌresi: 15 dakika
**Etkinlik NotlarΔ±**
* Sunumlar ve tartΔ±Εmalar iΓ§in gerekli malzemeleri hazΔ±rlayΔ±n
* Katılımcıların sorularına cevap verme için yeterli zaman ayırın
* Etkinlik sonrasΔ± katΔ±lΔ±mcΔ±larΔ±n geri bildirimlerini alΔ±n
Umarım bu etkinlik planı sizin için yardımcı olur!
Model: LLaMA-3-8B-Instruct
Input
Harika bir fikir! AΕaΔΔ±daki etkinlik planΔ±nΔ± hazΔ±rladΔ±m:
**Etkinlik AdΔ±:** "Derin ΓΔrenme Modelinin TanΔ±tΔ±mΔ±"
**Etkinlik AmacΔ±:** Derin ΓΆΔrenme modelinin tanΔ±tΔ±mΔ± ve uygulamalarΔ± hakkΔ±nda bilgi sahibi olmak.
**Etkinlik PlanΔ±:**
1. **GiriΕ:** Derin ΓΆΔrenme modelinin tanΔ±tΔ±mΔ± ve ΓΆnemi hakkΔ±nda kΔ±sa bir konuΕma.
2. **Teorik BΓΆlΓΌm:** Derin ΓΆΔrenme modelinin teorik temelleri ve Γ§alΔ±Εma prensipleri hakkΔ±nda sunum.
3. **Uygulama BΓΆlΓΌm:** Derin ΓΆΔrenme modelinin uygulamalarΔ± ve baΕarΔ±larΔ± hakkΔ±nda sunum.
4. **Pratik BΓΆlΓΌm:** Derin ΓΆΔrenme modelinin pratik uygulamalarΔ± ve deneyimi hakkΔ±nda sunum.
5. **Soru-Cevap BΓΆlΓΌm:** Derin ΓΆΔrenme modelinin sorularΔ±na cevap verme.
6. **SonuΓ§ BΓΆlΓΌm:** Derin ΓΆΔrenme modelinin tanΔ±tΔ±mΔ± ve uygulamalarΔ± hakkΔ±nda sonuΓ§ ve tavsiye.
**Etkinlik Malzemeleri:**
* Sunum araçları (slaj, powerpoint, vs.)
* Derin ΓΆΔrenme modelinin uygulamalarΔ± hakkΔ±nda ΓΆrnekler ve grafikler
* Derin ΓΆΔrenme modelinin teorik temelleri hakkΔ±nda kitap ve makaleler
* Derin ΓΆΔrenme modelinin pratik uygulamalarΔ± hakkΔ±nda deneyimi hakkΔ±nda sunum
**Etkinlik SΓΌresi:** 2 saat
**KatΔ±lΔ±mcΔ± SayΔ±sΔ±:** 20-30 kiΕi
**Etkinlik Yeri:** Bilimsel toplantΔ± salonu veya online platform
**Etkinlik Tarih ve Saati:** 10:00-12:00
**Etkinlik Dili:** Türkçe
**Etkinlik KatΔ±lΔ±mcΔ±larΔ±:** Bilimsel toplantΔ± salonunda veya online platformda katΔ±lΔ±mcΔ±lar.
**Etkinlik SonuΓ§larΔ±:** Derin ΓΆΔrenme modelinin tanΔ±tΔ±mΔ± ve uygulamalarΔ± hakkΔ±nda bilgi sahibi olmak.
**Etkinlik Tavsiyesi:** Derin ΓΆΔrenme modelinin tanΔ±tΔ±mΔ± ve uygulamalarΔ± hakkΔ±nda bilgi sahibi olmak.
- Downloads last month
- 2,753
Model tree for Metin/LLaMA-3-8B-Instruct-TR-DPO
Base model
meta-llama/Meta-Llama-3-8B-InstructSpaces using Metin/LLaMA-3-8B-Instruct-TR-DPO 6
Evaluation results
- 5-shot on MMLU_TR_V0.2self-reported0.498
- 0-shot on Truthful_QA_V0.2self-reported0.523
- 25-shot on ARC_TR_V0.2self-reported0.444
- 10-shot on HellaSwag_TR_V0.2self-reported0.456
- 5-shot on GSM8K_TR_V0.2self-reported0.542
- 5-shot on Winogrande_TR_V0.2self-reported0.551