neuralmagic
/

TinyLlama-1.1B-Chat-v1.0-marlin

Text Generation

text-generation-inference

Inference Endpoints

4-bit precision

Model card Files Files and versions Community

TinyLlama-1.1B-Chat-v1.0-marlin

2 contributors

History: 5 commits

robertgshaw2's picture

Create quantization/apply_gptq_save_marlin.py

9d40424 verified 11 months ago