Tu2003716
/

COCOM_disabled_flash_attn

Model card Files Files and versions Community

Use Longformer

#3

by Plasmarine - opened Dec 9, 2024

base: refs/heads/main

←

from: refs/pr/3

Discussion Files changed

Files changed (1) hide show

modeling_cocom.py +2 -2

modeling_cocom.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, PreTrainedModel, PretrainedConfig, AutoModel
 import torch
 import math
 from peft import get_peft_model, LoraConfig, TaskType
@@ -263,7 +263,7 @@ class COCOM(PreTrainedModel):
             attention_mask=dec_attention_mask.to(device),
             do_sample=False,
             top_p=None,
-            max_new_tokens=max_new_tokens
             )
         decoded = self.decoder_tokenizer.batch_decode(output_ids, skip_special_tokens=True)
         return decoded

+from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig, PreTrainedModel, PretrainedConfig, AutoModel,LongformerForCausalLM, LongformerTokenizer
 import torch
 import math
 from peft import get_peft_model, LoraConfig, TaskType
             attention_mask=dec_attention_mask.to(device),
             do_sample=False,
             top_p=None,
+            max_new_tokens=min(max_new_tokens, 4096)
             )
         decoded = self.decoder_tokenizer.batch_decode(output_ids, skip_special_tokens=True)
         return decoded