metadata

base_model:
  - unsloth/Meta-Llama-3.1-8B
  - THUDM/LongReward-llama3.1-8b-DPO
library_name: transformers
tags:
  - mergekit
  - peft

LongReward-r16-LoRA

This is a LoRA extracted from a language model. It was extracted using mergekit.

LoRA Details

This LoRA adapter was extracted from THUDM/LongReward-llama3.1-8b-DPO and uses unsloth/Meta-Llama-3.1-8B as a base.

Parameters

The following command was used to extract this LoRA adapter:

mergekit-extract-lora THUDM/LongReward-llama3.1-8b-DPO unsloth/Meta-Llama-3.1-8B OUTPUT_PATH --no-lazy-unpickle --skip-undecomposable --rank=16 --extend-vocab --model_name=LongReward-r16-LoRA --verbose