Spaces:
Sleeping
Sleeping
app modified dataset reorden token
Browse files
app.py
CHANGED
@@ -430,20 +430,7 @@ class ModeloDataset:
|
|
430 |
|
431 |
return new_identificadores, new_tokens
|
432 |
#return ids, _predicted_tokens_classes
|
433 |
-
|
434 |
-
new_labels = []
|
435 |
-
current_word = None
|
436 |
-
i=0
|
437 |
-
for identificador in pre_tokens:
|
438 |
-
if (self.tokenizer.decode(ids[i])!="<s>"):
|
439 |
-
if identificador=='O':
|
440 |
-
|
441 |
-
new_labels.append(self.tokenizer.decode(ids[i]))
|
442 |
-
else:
|
443 |
-
new_labels.append(' ' + identificador)
|
444 |
-
i=i+1
|
445 |
-
|
446 |
-
return new_labels
|
447 |
def salida_texto( self,tokens,pre_tokens):
|
448 |
new_labels = []
|
449 |
current_word = None
|
@@ -471,19 +458,7 @@ class ModeloDataset:
|
|
471 |
i=i+1
|
472 |
|
473 |
return out
|
474 |
-
|
475 |
-
i=0
|
476 |
-
out=[]
|
477 |
-
for iden in pre_tokens:
|
478 |
-
if i<len(ids):
|
479 |
-
if etiquetas:
|
480 |
-
out.append(self.salida_texto_es( ids[i],np.array(pre_tokens[i])) )
|
481 |
-
else:
|
482 |
-
out.append(self.salida_texto_es( ids[i],self.reemplazo_fake(np.array(pre_tokens[i]))))
|
483 |
-
|
484 |
-
i=i+1
|
485 |
-
|
486 |
-
return out
|
487 |
def unir_array(self,_out):
|
488 |
i=0
|
489 |
salida=[]
|
@@ -576,21 +551,12 @@ def procesar(texto,archivo, etiquetas):
|
|
576 |
print(model.idioma)
|
577 |
for item in df.columns.values:
|
578 |
sentences=df[item]
|
579 |
-
|
580 |
-
|
581 |
-
|
582 |
ides, predicted = modelo.aplicar_modelo(sentences,model.idioma,etiquetas)
|
583 |
-
|
584 |
-
|
585 |
-
|
586 |
-
|
587 |
-
out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
|
588 |
-
print('out es:',out)
|
589 |
-
df_new[item] = modelo.unir_array(out)
|
590 |
-
else:
|
591 |
-
out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
|
592 |
-
print('out en:',out)
|
593 |
-
df_new[item] = modelo.unir_array(out)
|
594 |
return "", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
|
595 |
#return "", df_new, df_new.to_excel( index=False)
|
596 |
else:
|
@@ -607,12 +573,8 @@ def procesar(texto,archivo, etiquetas):
|
|
607 |
sentences=df[item]
|
608 |
|
609 |
ides, predicted = modelo.aplicar_modelo(sentences,modelo.idioma,etiquetas)
|
610 |
-
|
611 |
-
|
612 |
-
out=modelo.salida_texto2_es( ides,predicted,etiquetas)#tokens,labels
|
613 |
-
else:
|
614 |
-
out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
|
615 |
-
|
616 |
print('out:',out)
|
617 |
df_new[item] = modelo.unir_array(out)
|
618 |
|
|
|
430 |
|
431 |
return new_identificadores, new_tokens
|
432 |
#return ids, _predicted_tokens_classes
|
433 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
434 |
def salida_texto( self,tokens,pre_tokens):
|
435 |
new_labels = []
|
436 |
current_word = None
|
|
|
458 |
i=i+1
|
459 |
|
460 |
return out
|
461 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
462 |
def unir_array(self,_out):
|
463 |
i=0
|
464 |
salida=[]
|
|
|
551 |
print(model.idioma)
|
552 |
for item in df.columns.values:
|
553 |
sentences=df[item]
|
554 |
+
|
|
|
|
|
555 |
ides, predicted = modelo.aplicar_modelo(sentences,model.idioma,etiquetas)
|
556 |
+
out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
|
557 |
+
print('out es:',out)
|
558 |
+
df_new[item] = modelo.unir_array(out)
|
559 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
560 |
return "", df_new, df_new.to_csv(sep='\t', encoding='utf-8',index=False)
|
561 |
#return "", df_new, df_new.to_excel( index=False)
|
562 |
else:
|
|
|
573 |
sentences=df[item]
|
574 |
|
575 |
ides, predicted = modelo.aplicar_modelo(sentences,modelo.idioma,etiquetas)
|
576 |
+
out=modelo.salida_texto2( ides,predicted,etiquetas)#tokens,labels
|
577 |
+
|
|
|
|
|
|
|
|
|
578 |
print('out:',out)
|
579 |
df_new[item] = modelo.unir_array(out)
|
580 |
|