Spaces:

dayannex
/

anonimizador

Sleeping

App Files Files Community

dayannex commited on Jul 5, 2024

Commit

9e63716

1 Parent(s): 7efbe56

app modified output idioma

Browse files

Files changed (1) hide show

app.py +19 -14

app.py CHANGED Viewed

@@ -67,7 +67,7 @@ class Model:
         new_tokens=[]
         ig_tokens=[] #ignorar estos indices del array de indentificadores
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
                  if  token.startswith(caracter):
@@ -208,7 +208,7 @@ class Model:
    def predict(self,etiquetas):
         categoria, porcentaje = self.categorizar_texto(self.texto)
-        print('categoria:',categoria, porcentaje)
         self.tokenizer  = AutoTokenizer.from_pretrained(self.modelo_ner)
         tokens = self.tokenizer.tokenize(self.texto)
@@ -225,13 +225,17 @@ class Model:
         labels = predicted_token_class_ids
         loss = self.model(input_ids, labels=labels).loss
-        print('idioma:',self.idioma)
         if (self.idioma=='es'):
-            new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'Ġ')
         else:
             new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'▁')
-        new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
         if etiquetas:
                 out2 = self.salida_texto(new_tokens,new_identificadores)#solo identificadores
         else:
@@ -239,9 +243,11 @@ class Model:
         return (
             out1,
             str(out2)
         )
 class ModeloDataset:
@@ -257,7 +263,7 @@ class ModeloDataset:
         new_tokens=[]
         ig_tokens=[] #ignorar estos indices del array de indentificadores
         for token in tokens:
             ind=len(new_tokens)
             if i<len(tokens):
                  if  token.startswith(caracter):
@@ -327,7 +333,6 @@ class ModeloDataset:
                 new_iden.append(id)
         return new_iden
     def aplicar_modelo(self,_sentences,idioma, etiquetas):
         if idioma=="es":
             self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
             tokenized_text=[self.tokenizer.tokenize(sentence) for sentence in _sentences]
@@ -521,7 +526,7 @@ def procesar(texto,archivo, etiquetas):
     if len(texto)>0:
         print('text')
         model.identificacion_idioma(texto)
-        return model.predict(etiquetas),gr.Dataframe(),gr.File()
     else:
         if archivo.name.split(".")[1]=="csv":
@@ -531,7 +536,7 @@ def procesar(texto,archivo, etiquetas):
             df_new = pd.DataFrame( columns=df.columns.values)
             model.identificacion_idioma(df.iloc[0][0])
             modelo.idioma=model.idioma
-            print('idioma:',model.idioma)
             for item in df.columns.values:
                 sentences=df[item]
@@ -540,7 +545,7 @@ def procesar(texto,archivo, etiquetas):
                 print('out es:',out)
                 df_new[item] = modelo.unir_array(out)
-            return "", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
             #return "", df_new, df_new.to_excel( index=False)
         else:
             print('json')
@@ -551,7 +556,7 @@ def procesar(texto,archivo, etiquetas):
                 model.identificacion_idioma(df.iloc[0][0])
                 modelo.idioma=model.idioma
-                print('idioma:',model.idioma)
                 for item in df.columns.values:
                     sentences=df[item]
@@ -564,9 +569,9 @@ def procesar(texto,archivo, etiquetas):
                 #return "", df, df.to_csv(sep='\t', encoding='utf-8',index=False)
-                return "", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
-demo = gr.Interface(fn=procesar,inputs=["text",gr.File(), "checkbox"] , outputs=["text",gr.Dataframe(interactive=False),"text"])
        #
 demo.launch(share=True)

         new_tokens=[]
         ig_tokens=[] #ignorar estos indices del array de indentificadores
         for token in tokens:
+            print('token_texto:',token,caracter)
             ind=len(new_tokens)
             if i<len(tokens):
                  if  token.startswith(caracter):
    def predict(self,etiquetas):
         categoria, porcentaje = self.categorizar_texto(self.texto)
+        print(categoria, porcentaje)
         self.tokenizer  = AutoTokenizer.from_pretrained(self.modelo_ner)
         tokens = self.tokenizer.tokenize(self.texto)
         labels = predicted_token_class_ids
         loss = self.model(input_ids, labels=labels).loss
         if (self.idioma=='es'):
+            new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'Ġ')
         else:
             new_tokens,ig_tokens=self.reordenacion_tokens(tokens,'▁')
+        new_identificadores = self.reordenacion_identificadores(ig_tokens,predicted_tokens_classes)
+        out1 = self.salida_json(new_tokens,new_identificadores)
         if etiquetas:
                 out2 = self.salida_texto(new_tokens,new_identificadores)#solo identificadores
         else:
         return (
             out1,
             str(out2)
         )
 class ModeloDataset:
         new_tokens=[]
         ig_tokens=[] #ignorar estos indices del array de indentificadores
         for token in tokens:
+            print('tokensss:',tokens,caracter)
             ind=len(new_tokens)
             if i<len(tokens):
                  if  token.startswith(caracter):
                 new_iden.append(id)
         return new_iden
     def aplicar_modelo(self,_sentences,idioma, etiquetas):
         if idioma=="es":
             self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
             tokenized_text=[self.tokenizer.tokenize(sentence) for sentence in _sentences]
     if len(texto)>0:
         print('text')
         model.identificacion_idioma(texto)
+        return model.idioma,model.predict(etiquetas),gr.Dataframe(),gr.File()
     else:
         if archivo.name.split(".")[1]=="csv":
             df_new = pd.DataFrame( columns=df.columns.values)
             model.identificacion_idioma(df.iloc[0][0])
             modelo.idioma=model.idioma
+            print(model.idioma)
             for item in df.columns.values:
                 sentences=df[item]
                 print('out es:',out)
                 df_new[item] = modelo.unir_array(out)
+            return modelo.idioma,"", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
             #return "", df_new, df_new.to_excel( index=False)
         else:
             print('json')
                 model.identificacion_idioma(df.iloc[0][0])
                 modelo.idioma=model.idioma
                 for item in df.columns.values:
                     sentences=df[item]
                 #return "", df, df.to_csv(sep='\t', encoding='utf-8',index=False)
+                return modelo.idioma,"", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
+demo = gr.Interface(fn=procesar,inputs=["text",gr.File(), "checkbox"] , outputs=["text","text",gr.Dataframe(interactive=False),"text"])
        #
 demo.launch(share=True)