Nechba
/

coin_reco

@@ -559,6 +559,7 @@ class SelfAttention(torch.nn.Module):
             key_layer = apply_rotary_pos_emb(key_layer, rotary_pos_emb)
         # adjust key and value for inference
         if kv_cache is not None:
             cache_k, cache_v = kv_cache
             key_layer = torch.cat((cache_k, key_layer), dim=2)

             key_layer = apply_rotary_pos_emb(key_layer, rotary_pos_emb)
         # adjust key and value for inference
+        print("kv_cache",kv_cache)
         if kv_cache is not None:
             cache_k, cache_v = kv_cache
             key_layer = torch.cat((cache_k, key_layer), dim=2)