AA_preference_random_0_80

This model is a fine-tuned version of llava-hf/llava-v1.6-mistral-7b-hf on the AA_preference_random_0_80 dataset. It achieves the following results on the evaluation set:

Loss: 0.5567
Rewards/chosen: -0.0039
Rewards/rejected: -2.3714
Rewards/accuracies: 0.8021
Rewards/margins: 2.3675
Logps/rejected: -234.5394
Logps/chosen: -232.6765
Logits/rejected: -2.2685
Logits/chosen: -2.3031

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-06
train_batch_size: 8
eval_batch_size: 8
seed: 42
distributed_type: multi-GPU
num_devices: 8
gradient_accumulation_steps: 4
total_train_batch_size: 256
total_eval_batch_size: 64
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 10
num_epochs: 3.0

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.576	0.4673	50	0.5725	0.8730	-0.1201	0.7318	0.9931	-212.0256	-223.9073	-2.4706	-2.4964
0.508	0.9346	100	0.5507	-0.2081	-1.7933	0.7865	1.5852	-228.7584	-234.7186	-2.4439	-2.4604
0.2512	1.4019	150	0.5608	0.2020	-1.8022	0.7865	2.0042	-228.8469	-230.6172	-2.2977	-2.3324
0.3125	1.8692	200	0.5447	0.4722	-1.5712	0.8099	2.0434	-226.5372	-227.9149	-2.2994	-2.3304
0.1519	2.3364	250	0.5571	0.1894	-2.0352	0.8047	2.2246	-231.1766	-230.7427	-2.3302	-2.3582
0.1708	2.8037	300	0.5571	0.0000	-2.3612	0.8073	2.3612	-234.4372	-232.6371	-2.2672	-2.3019

Framework versions

Transformers 4.45.2
Pytorch 2.4.0+cu121
Datasets 2.21.0
Tokenizers 0.20.3

htlou
/

mm-interp-AA_preference_random_0_80

AA_preference_random_0_80

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for htlou/mm-interp-AA_preference_random_0_80

Evaluation results