File size: 1,373 Bytes
a41b709 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
---
license: apache-2.0
language:
- es
tags:
- nlp
- quantization
- llama
- instruct
- unal
pretty_name: Llama 3-8B Quantized Model
size_categories:
- 1B<n<10B
task_categories:
- text-generation
- causal-lm
---
**Título**: Llama 3-8B Quantized Model
**Descripción**: Este modelo está basado en **Meta-Llama 3-8B**, ajustado y cuantizado para tareas de lenguaje en español. La cuantización a 4 bits reduce significativamente los requerimientos de hardware, manteniendo un desempeño competitivo.
**Características del modelo**:
- **Modelo base**: Meta-Llama 3-8B.
- **Cuantización**: 4 bits (int4), optimizado para GPUs de bajo consumo.
- **Tamaño**: Menor a los modelos estándar de 8 bits, ideal para entornos de recursos limitados.
- **Idiomas soportados**: Español principalmente, con comprensión básica en otros idiomas.
**Ejemplo de uso**:
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_NAME = "JulianVelandia/Llama-3-8B-unal-instruct-q"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, device_map="auto")
prompt = "Describe los beneficios de la cuantización en modelos de lenguaje."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
|