dayannex commited on
Commit
2f2e08d
·
1 Parent(s): 3d84520

app modified dataset reorden token

Browse files
Files changed (1) hide show
  1. app.py +9 -47
app.py CHANGED
@@ -430,20 +430,7 @@ class ModeloDataset:
430
 
431
  return new_identificadores, new_tokens
432
  #return ids, _predicted_tokens_classes
433
- def salida_texto_es( self,ids,pre_tokens):
434
- new_labels = []
435
- current_word = None
436
- i=0
437
- for identificador in pre_tokens:
438
- if (self.tokenizer.decode(ids[i])!="<s>"):
439
- if identificador=='O':
440
-
441
- new_labels.append(self.tokenizer.decode(ids[i]))
442
- else:
443
- new_labels.append(' ' + identificador)
444
- i=i+1
445
-
446
- return new_labels
447
  def salida_texto( self,tokens,pre_tokens):
448
  new_labels = []
449
  current_word = None
@@ -471,19 +458,7 @@ class ModeloDataset:
471
  i=i+1
472
 
473
  return out
474
- def salida_texto2_es(self, ids,pre_tokens,etiquetas):
475
- i=0
476
- out=[]
477
- for iden in pre_tokens:
478
- if i<len(ids):
479
- if etiquetas:
480
- out.append(self.salida_texto_es( ids[i],np.array(pre_tokens[i])) )
481
- else:
482
- out.append(self.salida_texto_es( ids[i],self.reemplazo_fake(np.array(pre_tokens[i]))))
483
-
484
- i=i+1
485
-
486
- return out
487
  def unir_array(self,_out):
488
  i=0
489
  salida=[]
@@ -576,21 +551,12 @@ def procesar(texto,archivo, etiquetas):
576
  print(model.idioma)
577
  for item in df.columns.values:
578
  sentences=df[item]
579
- #model.identificacion_idioma(sentences[0])
580
-
581
-
582
  ides, predicted = modelo.aplicar_modelo(sentences,model.idioma,etiquetas)
583
-
584
- if model.idioma=="es":
585
-
586
- #out=modelo.salida_texto2_es( ides,predicted,etiquetas)
587
- out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
588
- print('out es:',out)
589
- df_new[item] = modelo.unir_array(out)
590
- else:
591
- out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
592
- print('out en:',out)
593
- df_new[item] = modelo.unir_array(out)
594
  return "", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
595
  #return "", df_new, df_new.to_excel( index=False)
596
  else:
@@ -607,12 +573,8 @@ def procesar(texto,archivo, etiquetas):
607
  sentences=df[item]
608
 
609
  ides, predicted = modelo.aplicar_modelo(sentences,modelo.idioma,etiquetas)
610
-
611
- if model.idioma=="es":
612
- out=modelo.salida_texto2_es( ides,predicted,etiquetas)#tokens,labels
613
- else:
614
- out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
615
-
616
  print('out:',out)
617
  df_new[item] = modelo.unir_array(out)
618
 
 
430
 
431
  return new_identificadores, new_tokens
432
  #return ids, _predicted_tokens_classes
433
+
 
 
 
 
 
 
 
 
 
 
 
 
 
434
  def salida_texto( self,tokens,pre_tokens):
435
  new_labels = []
436
  current_word = None
 
458
  i=i+1
459
 
460
  return out
461
+
 
 
 
 
 
 
 
 
 
 
 
 
462
  def unir_array(self,_out):
463
  i=0
464
  salida=[]
 
551
  print(model.idioma)
552
  for item in df.columns.values:
553
  sentences=df[item]
554
+
 
 
555
  ides, predicted = modelo.aplicar_modelo(sentences,model.idioma,etiquetas)
556
+ out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
557
+ print('out es:',out)
558
+ df_new[item] = modelo.unir_array(out)
559
+
 
 
 
 
 
 
 
560
  return "", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
561
  #return "", df_new, df_new.to_excel( index=False)
562
  else:
 
573
  sentences=df[item]
574
 
575
  ides, predicted = modelo.aplicar_modelo(sentences,modelo.idioma,etiquetas)
576
+ out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
577
+
 
 
 
 
578
  print('out:',out)
579
  df_new[item] = modelo.unir_array(out)
580