Spaces:

dayannex
/

anonimizador

Sleeping

dayannex commited on Jul 9, 2024

Commit

2959130

1 Parent(s): 4369a32

app texto limite size

Files changed (1) hide show

app.py CHANGED Viewed

@@ -335,7 +335,7 @@ class ModeloDataset:
     def aplicar_modelo(self,_sentences,idioma, etiquetas):
         if idioma=="es":
             self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
-            tokenized_text=[self.tokenizer.tokenize(sentence[:250]) for sentence in _sentences]
             ids = [self.tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]
             MAX_LEN=128
@@ -376,7 +376,7 @@ class ModeloDataset:
             print('idioma:',idioma)
             self.tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-roberta-large-finetuned-conll03-english")
-            tokenized_text=[self.tokenizer.tokenize(sentence) for sentence in _sentences]
             ids = [self.tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]

     def aplicar_modelo(self,_sentences,idioma, etiquetas):
         if idioma=="es":
             self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
+            tokenized_text=[self.tokenizer.tokenize(sentence[:500]) for sentence in _sentences]
             ids = [self.tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]
             MAX_LEN=128
             print('idioma:',idioma)
             self.tokenizer = AutoTokenizer.from_pretrained("FacebookAI/xlm-roberta-large-finetuned-conll03-english")
+            tokenized_text=[self.tokenizer.tokenize(sentence[:500]) for sentence in _sentences]
             ids = [self.tokenizer.convert_tokens_to_ids(x) for x in tokenized_text]