Spaces:

dayannex
/

anonimizador

Sleeping

App Files Files Community

dayannex commited on Jul 10, 2024

Commit

4fe5a18

1 Parent(s): 087cfb6

documentacion

Browse files

Files changed (1) hide show

app.py +39 -20

app.py CHANGED Viewed

@@ -22,7 +22,9 @@ class Model:
         self.idioma=""
         self.modelo_ner=""
         self.categoria_texto=""
    def identificacion_idioma(self,text):
         self.texto=text
         tokenizer = AutoTokenizer.from_pretrained("papluca/xlm-roberta-base-language-detection")
@@ -38,9 +40,7 @@ class Model:
         id2lang = model.config.id2label
         vals, idxs = torch.max(preds, dim=1)
         #retorna el idioma con mayor porcentaje
         maximo=vals.max()
         idioma=''
@@ -65,7 +65,7 @@ class Model:
         i=0
         new_tokens=[]
-        ig_tokens=[] #ignorar estos indices del array de indentificadores
         for token in tokens:
             print('token_texto:',token,caracter)
             ind=len(new_tokens)
@@ -120,7 +120,7 @@ class Model:
         for i in new_labels:
             a = a+i
         return a
-        #return new_labels
    def salida_texto_anonimizado(self, ids,pre_tokens):
     new_labels = []
     current_word = None
@@ -177,6 +177,9 @@ class Model:
            else:
                new_iden.append(id)
        return new_iden
    def categorizar_texto(self,texto):
         name="elozano/bert-base-cased-news-category"
         tokenizer = AutoTokenizer.from_pretrained(name)
@@ -204,7 +207,10 @@ class Model:
              self.categoria_texto=cat
-        return  cat, porcentaje
    def predict(self,etiquetas):
         categoria, porcentaje = self.categorizar_texto(self.texto)
@@ -261,7 +267,7 @@ class ModeloDataset:
         i=0
         new_tokens=[]
-        ig_tokens=[] #ignorar estos indices del array de indentificadores
         for token in tokens:
             print('tokensss:',tokens,caracter)
             ind=len(new_tokens)
@@ -293,6 +299,9 @@ class ModeloDataset:
             else:
                  x=x+1
         return new_identificadores
     def fake_pers(self):
        return self.faker_.name(self)
     def fake_word(self):
@@ -332,6 +341,9 @@ class ModeloDataset:
             else:
                 new_iden.append(id)
         return new_iden
     def aplicar_modelo(self,_sentences,idioma, etiquetas):
         if idioma=="es":
             self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
@@ -349,7 +361,7 @@ class ModeloDataset:
             i=0
             _predicted_tokens_classes=[]
             for a in predicted_token_class_ids:
-                    #_predicted_tokens_classes[i]=[model.config.id2label[t.item()] for t in predicted_token_class_ids[i]]
                     _predicted_tokens_classes.append([self.model.config.id2label[t.item()] for t in predicted_token_class_ids[i]])
                     i=i+1
             labels = predicted_token_class_ids
@@ -371,7 +383,7 @@ class ModeloDataset:
                 new_identificadores.append(aux)
                 i=i+1
-            return new_identificadores, new_tokens#ids,_predicted_tokens_classes
         else:
             print('idioma:',idioma)
@@ -393,7 +405,7 @@ class ModeloDataset:
             i=0
             _predicted_tokens_classes=[]
             for a in predicted_token_class_ids:
-                    #_predicted_tokens_classes[i]=[model.config.id2label[t.item()] for t in predicted_token_class_ids[i]]
                     _predicted_tokens_classes.append([self.model.config.id2label[t.item()] for t in predicted_token_class_ids[i]])
                     i=i+1
             labels = predicted_token_class_ids
@@ -417,8 +429,10 @@ class ModeloDataset:
             return new_identificadores, new_tokens
-        #return ids, _predicted_tokens_classes
     def salida_texto( self,tokens,pre_tokens):
         new_labels = []
         current_word = None
@@ -451,12 +465,15 @@ class ModeloDataset:
         i=0
         salida=[]
         for item in _out:
-            salida.append("".join(str(x) for x in _out[i]))#rev space
             i=i+1
         return salida
     def unir_columna_valores(self,df,columna):
         out = ','.join(df[columna])
         return out
 class utilJSON:
     def __init__(self,archivo):
       with open(archivo, encoding='utf-8') as f:
@@ -496,7 +513,7 @@ class utilJSON:
         except ValueError:
             print("Error: Invalid value detected.")
         except Exception as e:
-            # Catch any other exceptions
             print(f"An unexpected error occurred: {str(e)}")
     def obtener_dataframe(self,data):
@@ -519,7 +536,9 @@ modelo = ModeloDataset()
 model = Model()
 def get_model():
         return model
 def procesar(texto,archivo, etiquetas):
@@ -541,12 +560,12 @@ def procesar(texto,archivo, etiquetas):
                 sentences=df[item]
                 ides, predicted = modelo.aplicar_modelo(sentences,model.idioma,etiquetas)
-                out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
                 print('out es:',out)
                 df_new[item] = modelo.unir_array(out)
             return modelo.idioma,"", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
-            #return "", df_new, df_new.to_excel( index=False)
         else:
             print('json')
             if archivo.name.split(".")[1]=="json":
@@ -561,13 +580,13 @@ def procesar(texto,archivo, etiquetas):
                     sentences=df[item]
                     ides, predicted = modelo.aplicar_modelo(sentences,modelo.idioma,etiquetas)
-                    out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
                     print('out:',out)
                     df_new[item] = modelo.unir_array(out)
-                #return "", df, df.to_csv(sep='\t', encoding='utf-8',index=False)
                 return modelo.idioma,"", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
 demo = gr.Interface(fn=procesar,inputs=["text",gr.File(), "checkbox"] , outputs=[gr.Label(label="idioma/categoría"),gr.Textbox(label="texto procesado"),gr.Dataframe(label="Datos procesados en dataframe",interactive=False),gr.Textbox(label="datos csv")])

         self.idioma=""
         self.modelo_ner=""
         self.categoria_texto=""
+   ##
+   ### Función que aplica el modelo e identifica su idioma
+   ###
    def identificacion_idioma(self,text):
         self.texto=text
         tokenizer = AutoTokenizer.from_pretrained("papluca/xlm-roberta-base-language-detection")
         id2lang = model.config.id2label
         vals, idxs = torch.max(preds, dim=1)
         #retorna el idioma con mayor porcentaje
         maximo=vals.max()
         idioma=''
         i=0
         new_tokens=[]
+        ig_tokens=[]
         for token in tokens:
             print('token_texto:',token,caracter)
             ind=len(new_tokens)
         for i in new_labels:
             a = a+i
         return a
    def salida_texto_anonimizado(self, ids,pre_tokens):
     new_labels = []
     current_word = None
            else:
                new_iden.append(id)
        return new_iden
+  ###
+  ### Función que aplica los modelo para categorizar el texto segun su contexto
+  ###
    def categorizar_texto(self,texto):
         name="elozano/bert-base-cased-news-category"
         tokenizer = AutoTokenizer.from_pretrained(name)
              self.categoria_texto=cat
+        return  cat, porcentaje
+  ###
+  ### Función que aplica los modelos sobre un texto
+  ###
    def predict(self,etiquetas):
         categoria, porcentaje = self.categorizar_texto(self.texto)
         i=0
         new_tokens=[]
+        ig_tokens=[]
         for token in tokens:
             print('tokensss:',tokens,caracter)
             ind=len(new_tokens)
             else:
                  x=x+1
         return new_identificadores
+  ###
+  ### Funciones para generar diversos datos fake dependiendo de la catagoria
+  ###
     def fake_pers(self):
        return self.faker_.name(self)
     def fake_word(self):
             else:
                 new_iden.append(id)
         return new_iden
+  ###
+  ### Función que aplica los modelos de acuerdo al idioma detectado
+  ###
     def aplicar_modelo(self,_sentences,idioma, etiquetas):
         if idioma=="es":
             self.tokenizer = AutoTokenizer.from_pretrained("BSC-LT/roberta_model_for_anonimization")
             i=0
             _predicted_tokens_classes=[]
             for a in predicted_token_class_ids:
                     _predicted_tokens_classes.append([self.model.config.id2label[t.item()] for t in predicted_token_class_ids[i]])
                     i=i+1
             labels = predicted_token_class_ids
                 new_identificadores.append(aux)
                 i=i+1
+            return new_identificadores, new_tokens
         else:
             print('idioma:',idioma)
             i=0
             _predicted_tokens_classes=[]
             for a in predicted_token_class_ids:
                     _predicted_tokens_classes.append([self.model.config.id2label[t.item()] for t in predicted_token_class_ids[i]])
                     i=i+1
             labels = predicted_token_class_ids
             return new_identificadores, new_tokens
+  ###
+  ### Procesa los tokens generados del texto de entradas con los tokens predichos, para generar los tokens por palabra
+  ###
     def salida_texto( self,tokens,pre_tokens):
         new_labels = []
         current_word = None
         i=0
         salida=[]
         for item in _out:
+            salida.append("".join(str(x) for x in _out[i]))
             i=i+1
         return salida
     def unir_columna_valores(self,df,columna):
         out = ','.join(df[columna])
         return out
+###
+### Funcion para procesar archivos json, recibe archivo
+###
 class utilJSON:
     def __init__(self,archivo):
       with open(archivo, encoding='utf-8') as f:
         except ValueError:
             print("Error: Invalid value detected.")
         except Exception as e:
             print(f"An unexpected error occurred: {str(e)}")
     def obtener_dataframe(self,data):
 model = Model()
 def get_model():
         return model
+###
+### Función que interactúa con la interfaz Gradio para el procesamiento de texto, csv o json
+###
 def procesar(texto,archivo, etiquetas):
                 sentences=df[item]
                 ides, predicted = modelo.aplicar_modelo(sentences,model.idioma,etiquetas)
+                out=modelo.salida_texto2( ides,predicted,etiquetas)
                 print('out es:',out)
                 df_new[item] = modelo.unir_array(out)
             return modelo.idioma,"", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
         else:
             print('json')
             if archivo.name.split(".")[1]=="json":
                     sentences=df[item]
                     ides, predicted = modelo.aplicar_modelo(sentences,modelo.idioma,etiquetas)
+                    out=modelo.salida_texto2( ides,predicted,etiquetas)
                     print('out:',out)
                     df_new[item] = modelo.unir_array(out)
                 return modelo.idioma,"", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
 demo = gr.Interface(fn=procesar,inputs=["text",gr.File(), "checkbox"] , outputs=[gr.Label(label="idioma/categoría"),gr.Textbox(label="texto procesado"),gr.Dataframe(label="Datos procesados en dataframe",interactive=False),gr.Textbox(label="datos csv")])