Upload 6 files

Browse files

Files changed (6) hide show

AutoModel.pth +3 -0
model_config.json +29 -0
tokenizer_config.json +32 -0
vocab.json +0 -0
vocab.txt +0 -0
配置权重 +1309 -0

AutoModel.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27227c5532d3027b044ad00c12c4aed1334e910459edf80b6b0f2bc83e673198
+size 3237240570

model_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+    "model_name": "AutoModel",
+    "model_type": "multimodal-transformer",
+    "hidden_size": 768,
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "intermediate_size": 2048,
+    "hidden_dropout_prob": 0.1,
+    "attention_probs_dropout_prob": 0.1,
+    "image_size": 224,
+    "image_channels": 3,
+    "patch_size": 16,
+    "max_position_embeddings": 512,
+    "vocab_size": 30522,
+    "type_vocab_size": 2,
+    "audio_sample_rate": 16000,
+    "audio_frame_size": 1024,
+    "audio_hop_size": 512,
+    "enable_vqa": true,
+    "enable_caption": true,
+    "enable_retrieval": true,
+    "enable_asr": true,
+    "enable_realtime_asr": true,
+    "batch_size": 32,
+    "learning_rate": 0.0001,
+    "weight_decay": 0.01,
+    "warmup_steps": 10000,
+    "max_steps": 100000
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+    "tokenizer_name": "AutoTokenizer",
+    "pretrained_model_name": "AutoModel",
+    "vocab": {
+        "vocab_size": 30522,
+        "model_max_length": 512,
+        "padding_side": "right",
+        "truncation_side": "right",
+        "special_tokens": {
+            "pad_token": "[PAD]",
+            "unk_token": "[UNK]",
+            "cls_token": "[CLS]",
+            "sep_token": "[SEP]",
+            "mask_token": "[MASK]"
+        },
+        "tokenizer_type": "WordPiece",
+        "lowercase": true,
+        "pad_token_id": 0,
+        "unk_token_id": 100,
+        "cls_token_id": 101,
+        "sep_token_id": 102,
+        "mask_token_id": 103
+    },
+    "normalization": {
+        "lowercase": true,
+        "strip_accents": true
+    },
+    "preprocessing": {
+        "do_lower_case": true,
+        "handle_chinese_chars": true
+    }
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

配置权重 ADDED Viewed

	@@ -0,0 +1,1309 @@

+配置文件已生成: C:\Users\baby7\Desktop\fastAPI\model_config.json
+{
+  "model_info": {
+    "total_layers": 176,
+    "layers": [
+      {
+        "name": "image_encoder.encoder_layer.0.weight",
+        "shape": [
+          64,
+          3,
+          3,
+          3
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "image_encoder.encoder_layer.0.bias",
+        "shape": [
+          64
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "image_encoder.encoder_layer.4.weight",
+        "shape": [
+          768,
+          788544
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "image_encoder.encoder_layer.4.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_layer.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.0.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.1.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.2.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.3.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.4.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.5.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.6.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.7.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.8.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.9.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.10.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.self_attn.in_proj_weight",
+        "shape": [
+          2304,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.self_attn.in_proj_bias",
+        "shape": [
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.self_attn.out_proj.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.self_attn.out_proj.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.linear1.weight",
+        "shape": [
+          2048,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.linear1.bias",
+        "shape": [
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.linear2.weight",
+        "shape": [
+          768,
+          2048
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.linear2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.norm1.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.norm1.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.norm2.weight",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "text_encoder.transformer_encoder.layers.11.norm2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "audio_encoder.encoder_layer.0.weight",
+        "shape": [
+          768,
+          16000
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "audio_encoder.encoder_layer.0.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "audio_encoder.encoder_layer.2.weight",
+        "shape": [
+          768,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "audio_encoder.encoder_layer.2.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "fusion_layer.fusion_layer.weight",
+        "shape": [
+          768,
+          2304
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "fusion_layer.fusion_layer.bias",
+        "shape": [
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "vqa_layer.vqa_layer.weight",
+        "shape": [
+          30522,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "vqa_layer.vqa_layer.bias",
+        "shape": [
+          30522
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "caption_layer.caption_layer.weight",
+        "shape": [
+          30522,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "caption_layer.caption_layer.bias",
+        "shape": [
+          30522
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "retrieval_layer.retrieval_layer.weight",
+        "shape": [
+          30522,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "retrieval_layer.retrieval_layer.bias",
+        "shape": [
+          30522
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "asr_layer.asr_layer.weight",
+        "shape": [
+          30522,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "asr_layer.asr_layer.bias",
+        "shape": [
+          30522
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "realtime_asr_layer.realtime_asr_layer.weight",
+        "shape": [
+          30522,
+          768
+        ],
+        "dtype": "torch.float32"
+      },
+      {
+        "name": "realtime_asr_layer.realtime_asr_layer.bias",
+        "shape": [
+          30522
+        ],
+        "dtype": "torch.float32"
+      }
+    ]
+  },
+  "file_info": {
+    "path": "C:\\Users\\baby7\\Desktop\\fastAPI\\AutoModel.pth",
+    "size": 3237240570,
+    "last_modified": 1735983514.6732724
+  }
+}