XueyingJia
/

qwen-0.5b-sft-HH-online-dpo-ground-truth-lead

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

qwen-0.5b-sft-HH-online-dpo-ground-truth-lead / runs

1 contributor

History: 27 commits

XueyingJia's picture

Training in progress, step 2699

02d718e verified about 1 month ago