Spaces:

dayannex
/

anonimizador

Sleeping

App Files Files Community

dayannex commited on Jul 5, 2024

Commit

6633793

1 Parent(s): 0895315

app modified orden tokens

Browse files

Files changed (1) hide show

app.py +15 -11

app.py CHANGED Viewed

@@ -61,7 +61,7 @@ class Model:
              self.modelo_ner="FacebookAI/xlm-roberta-large-finetuned-conll03-english"
              self.model = AutoModelForTokenClassification.from_pretrained(self.modelo_ner)
         self.categorizar_texto(self.texto)
-   def reordenacion_tokens(self,tokens):
         i=0
         new_tokens=[]
@@ -69,7 +69,7 @@ class Model:
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
-                 if  token.startswith("▁"):
                     new_tokens.append(token)
@@ -111,7 +111,7 @@ class Model:
         for token in tokens:
             if pre_tokens[i]=='O' or 'MISC' in pre_tokens[i]:
-              new_labels.append(' ' +token.replace('▁',''))
             else:
                new_labels.append(' ' + pre_tokens[i])
             i=i+1
@@ -227,17 +227,21 @@ class Model:
         if (self.idioma=='es'):
             out1 = self.salida_json(tokens,predicted_tokens_classes) #spanish solo palabras sensibles
             if etiquetas:
-                out2 = self.salida_texto_anonimizado(ids,predicted_tokens_classes) #solo identificadores
-            else:
-                out2 = self.salida_texto_anonimizado(ids,self.reemplazo_fake(predicted_tokens_classes)) #español texto completo
         else:
-            new_tokens,ig_tokens=self.reordenacion_tokens(tokens)
             new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
@@ -264,7 +268,7 @@ class ModeloDataset:
         self.modelo_ner=""
         self.categoria_texto=""
         self.tokenizer  = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
-    def reordenacion_tokens(self,tokens):
         i=0
         new_tokens=[]
@@ -272,7 +276,7 @@ class ModeloDataset:
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
-                 if  token.startswith("▁"):
                     new_tokens.append(token)
@@ -394,7 +398,7 @@ class ModeloDataset:
             new_identificadores=[]
             for item in tokenized_text:
-               aux1, aux2= self.reordenacion_tokens(item)
                new_tokens.append(aux1)
                ig_tok.append(aux2)

              self.modelo_ner="FacebookAI/xlm-roberta-large-finetuned-conll03-english"
              self.model = AutoModelForTokenClassification.from_pretrained(self.modelo_ner)
         self.categorizar_texto(self.texto)
+   def reordenacion_tokens(self,tokens,caracter):
         i=0
         new_tokens=[]
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
+                 if  token.startswith(caracter):
                     new_tokens.append(token)
         for token in tokens:
             if pre_tokens[i]=='O' or 'MISC' in pre_tokens[i]:
+              new_labels.append(' ' +token.replace('▁','').replace('Ġ',''))
             else:
                new_labels.append(' ' + pre_tokens[i])
             i=i+1
         if (self.idioma=='es'):
+            new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'Ġ')
+            new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
             out1 = self.salida_json(tokens,predicted_tokens_classes) #spanish solo palabras sensibles
             if etiquetas:
+                out2 = self.salida_texto(new_tokens,new_identificadores)#solo identificadores
+                #out2 = self.salida_texto_anonimizado(ids,predicted_tokens_classes) #solo identificadores
+            else:
+                out2 = self.salida_texto(new_tokens,self.reemplazo_fake(new_identificadores))
+                #out2 = self.salida_texto_anonimizado(ids,self.reemplazo_fake(predicted_tokens_classes)) #español texto completo
         else:
+            new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'_')
             new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
         self.modelo_ner=""
         self.categoria_texto=""
         self.tokenizer  = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
+    def reordenacion_tokens(self,tokens,caracter):
         i=0
         new_tokens=[]
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
+                 if  token.startswith(caracter):
                     new_tokens.append(token)
             new_identificadores=[]
             for item in tokenized_text:
+               aux1, aux2= self.reordenacion_tokens(item,"_")
                new_tokens.append(aux1)
                ig_tok.append(aux2)