LlamaForCausalLM( (model): LlamaModel( (embed_tokens): Embedding(128256, 4096) (layers): ModuleList( (0-5): 6 x LlamaDecoderLayer( (self_attn): LlamaSdpaAttention( (q_proj): Linear(in_features=4096, out_features=4096, bias=False) (k_proj): Linear(in_features=4096, out_features=4096, bias=False) (v_proj): Linear(in_features=4096, out_features=4096, bias=False) (o_proj): Linear(in_features=4096, out_features=4096, bias=False) (rotary_emb): LlamaRotaryEmbedding() ) (mlp): LlamaMLP( (gate_proj): Linear(in_features=4096, out_features=2048, bias=False) (up_proj): Linear(in_features=4096, out_features=2048, bias=False) (down_proj): Linear(in_features=2048, out_features=4096, bias=False) (act_fn): SiLU() ) (input_layernorm): LlamaRMSNorm((4096,), eps=1e-06) (post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-06) ) ) (norm): LlamaRMSNorm((4096,), eps=1e-06) (rotary_emb): LlamaRotaryEmbedding() ) (lm_head): Linear(in_features=4096, out_features=128256, bias=False) )