ai4bharat
/

indictrans2-en-indic-dist-200M

text2text-generation

Model card Files Files and versions Community

pranjalchitale commited on 6 days ago

Commit

aba31e1

·

verified ·

1 Parent(s): ca1b3a6

Fixes Tie Weights.

Files changed (1) hide show

modeling_indictrans.py +8 -7

modeling_indictrans.py CHANGED Viewed

@@ -1644,7 +1644,7 @@ class IndicTransModel(IndicTransPreTrainedModel):
 # Copied from transformers.models.m2m_100.modeling_m2m_100.M2M100ForConditionalGeneration->IndicTrans
 class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMixin):
     base_model_prefix = "model"
-    _tied_weights_keys = None
     _label_smoothing = 0.0
     def __init__(self, config: IndicTransConfig):
@@ -1654,19 +1654,20 @@ class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMi
             config.decoder_embed_dim, config.decoder_vocab_size, bias=False
         )
-        if config.share_decoder_input_output_embed:
-            self.lm_head.weight = self.model.decoder.embed_tokens.weight
         self.post_init()
     def tie_weights(self):
-        pass
     def get_encoder(self):
-        return self.model.get_encoder()
     def get_decoder(self):
-        return self.model.get_decoder()
     def get_output_embeddings(self):
         return self.lm_head

 # Copied from transformers.models.m2m_100.modeling_m2m_100.M2M100ForConditionalGeneration->IndicTrans
 class IndicTransForConditionalGeneration(IndicTransPreTrainedModel, GenerationMixin):
     base_model_prefix = "model"
+    _tied_weights_keys = ["decoder.embed_tokens.weight", "lm_head.weight"]
     _label_smoothing = 0.0
     def __init__(self, config: IndicTransConfig):
             config.decoder_embed_dim, config.decoder_vocab_size, bias=False
         )
         self.post_init()
     def tie_weights(self):
+       if self.config.share_decoder_input_output_embed:
+           self._tie_or_clone_weights(self.decoder.embed_tokens, self.lm_head)
     def get_encoder(self):
+        return self.model.encoder
     def get_decoder(self):
+        return self.model.decoder
+    def get_input_embeddings(self):
+        return self.model.encoder.embed_tokens
     def get_output_embeddings(self):
         return self.lm_head