T铆tulo: Llama 3-8B Quantized Model
Descripci贸n: Este modelo est谩 basado en Meta-Llama 3-8B, ajustado y cuantizado para tareas de lenguaje en espa帽ol. La cuantizaci贸n a 4 bits reduce significativamente los requerimientos de hardware, manteniendo un desempe帽o competitivo.

Caracter铆sticas del modelo:

  • Modelo base: Meta-Llama 3-8B.
  • Cuantizaci贸n: 4 bits (int4), optimizado para GPUs de bajo consumo.
  • Tama帽o: Menor a los modelos est谩ndar de 8 bits, ideal para entornos de recursos limitados.
  • Idiomas soportados: Espa帽ol principalmente, con comprensi贸n b谩sica en otros idiomas.

Ejemplo de uso:

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_NAME = "JulianVelandia/Llama-3-8B-unal-instruct-q"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, device_map="auto")

prompt = "Describe los beneficios de la cuantizaci贸n en modelos de lenguaje."
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
Downloads last month
4
Safetensors
Model size
4.65B params
Tensor type
F32
U8
Inference API
Unable to determine this model's library. Check the docs .