HuggingFaceM4
/

VLM_WebSight_finetuned

@@ -192,7 +192,7 @@ class SiglipVisionModelOutput(ModelOutput):
 class SiglipVisionEmbeddings(nn.Module):
-    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.config = config
         self.embed_dim = config.hidden_size
@@ -565,7 +565,7 @@ class SiglipMLP(nn.Module):
 # Copied from transformers.models.clip.modeling_clip.CLIPEncoderLayer with CLIP->Siglip
 class SiglipEncoderLayer(nn.Module):
-    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.embed_dim = config.hidden_size
         self.self_attn = (
@@ -1001,7 +1001,7 @@ class SiglipEncoder(nn.Module):
 class SiglipVisionTransformer(nn.Module):
-    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.config = config
         embed_dim = config.hidden_size
@@ -1012,7 +1012,7 @@ class SiglipVisionTransformer(nn.Module):
         self.head = SiglipMultiheadAttentionPoolingHead(config)
     # @add_start_docstrings_to_model_forward(SIGLIP_VISION_INPUTS_DOCSTRING)
-    # @replace_return_docstrings(output_type=BaseModelOutputWithPooling, config_class=VMistralVisionConfig)
     def forward(
         self,
         pixel_values,
@@ -1058,7 +1058,7 @@ class SiglipVisionTransformer(nn.Module):
 class SiglipMultiheadAttentionPoolingHead(nn.Module):
     """Multihead Attention Pooling."""
-    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.probe = nn.Parameter(torch.randn(1, 1, config.hidden_size))
@@ -1084,7 +1084,7 @@ class SiglipMultiheadAttentionPoolingHead(nn.Module):
 #     SIGLIP_START_DOCSTRING,
 # )
 class SiglipVisionModel(nn.Module):
-    def __init__(self, config: VMistralVisionConfig):
         super().__init__()
         self.vision_model = SiglipVisionTransformer(config)
@@ -1096,7 +1096,7 @@ class SiglipVisionModel(nn.Module):
     #     return self.vision_model.embeddings.patch_embedding
     # @add_start_docstrings_to_model_forward(SIGLIP_VISION_INPUTS_DOCSTRING)
-    # @replace_return_docstrings(output_type=BaseModelOutputWithPooling, config_class=VMistralVisionConfig)
     def forward(
         self,
         pixel_values,

 class SiglipVisionEmbeddings(nn.Module):
+    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.config = config
         self.embed_dim = config.hidden_size
 # Copied from transformers.models.clip.modeling_clip.CLIPEncoderLayer with CLIP->Siglip
 class SiglipEncoderLayer(nn.Module):
+    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.embed_dim = config.hidden_size
         self.self_attn = (
 class SiglipVisionTransformer(nn.Module):
+    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.config = config
         embed_dim = config.hidden_size
         self.head = SiglipMultiheadAttentionPoolingHead(config)
     # @add_start_docstrings_to_model_forward(SIGLIP_VISION_INPUTS_DOCSTRING)
+    # @replace_return_docstrings(output_type=BaseModelOutputWithPooling, config_class=Img2HTMLVisionConfig)
     def forward(
         self,
         pixel_values,
 class SiglipMultiheadAttentionPoolingHead(nn.Module):
     """Multihead Attention Pooling."""
+    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.probe = nn.Parameter(torch.randn(1, 1, config.hidden_size))
 #     SIGLIP_START_DOCSTRING,
 # )
 class SiglipVisionModel(nn.Module):
+    def __init__(self, config: Img2HTMLVisionConfig):
         super().__init__()
         self.vision_model = SiglipVisionTransformer(config)
     #     return self.vision_model.embeddings.patch_embedding
     # @add_start_docstrings_to_model_forward(SIGLIP_VISION_INPUTS_DOCSTRING)
+    # @replace_return_docstrings(output_type=BaseModelOutputWithPooling, config_class=Img2HTMLVisionConfig)
     def forward(
         self,
         pixel_values,