ejbejaranos
/

Llama3-8B-ITCL-Bitnet1.6B-4k-mGPU-8bits

Generated from Trainer

Model card Files Files and versions Community

Llama3-8B-ITCL-Bitnet1.6B-4k-mGPU-8bits / experimento_resultados /arquitectura_antes.txt

ejbejaranos's picture

Training in progress, step 500

eee8c91 verified 4 months ago

history blame contribute delete

1.15 kB

	LlamaForCausalLM(
	(model): LlamaModel(
	(embed_tokens): Embedding(128256, 4096)
	(layers): ModuleList(
	(0-5): 6 x LlamaDecoderLayer(
	(self_attn): LlamaSdpaAttention(
	(q_proj): Linear(in_features=4096, out_features=4096, bias=False)
	(k_proj): Linear(in_features=4096, out_features=4096, bias=False)
	(v_proj): Linear(in_features=4096, out_features=4096, bias=False)
	(o_proj): Linear(in_features=4096, out_features=4096, bias=False)
	(rotary_emb): LlamaRotaryEmbedding()
	)
	(mlp): LlamaMLP(
	(gate_proj): Linear(in_features=4096, out_features=2048, bias=False)
	(up_proj): Linear(in_features=4096, out_features=2048, bias=False)
	(down_proj): Linear(in_features=2048, out_features=4096, bias=False)
	(act_fn): SiLU()
	)
	(input_layernorm): LlamaRMSNorm((4096,), eps=1e-06)
	(post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-06)
	)
	)
	(norm): LlamaRMSNorm((4096,), eps=1e-06)
	(rotary_emb): LlamaRotaryEmbedding()
	)
	(lm_head): Linear(in_features=4096, out_features=128256, bias=False)
	)