|
--- |
|
language: vi |
|
tags: |
|
- vi |
|
- vietnamese |
|
- gpt2 |
|
- text-generation |
|
- lm |
|
- nlp |
|
datasets: |
|
- vietnews |
|
widget: |
|
- text: "Tóm tắt văn bản: Hoa quả và rau thường rẻ hơn khi vào mùa. Kết quả tóm tắt văn bản là:" |
|
--- |
|
|
|
# GPT-2 |
|
|
|
Pretrained gpt model on Vietnamese New for text summarization |
|
|
|
# How to use the model |
|
|
|
~~~~ |
|
from transformers import GPT2Tokenizer, GPT2LMHeadModel |
|
|
|
tokenizer = GPT2Tokenizer.from_pretrained('minhtoan/gpt2-finetune-vietnamese-news') |
|
model = GPT2LMHeadModel.from_pretrained('minhtoan/gpt2-finetune-vietnamese-news') |
|
|
|
text = "Hoa quả và rau thường rẻ hơn khi vào mùa" |
|
input_ids = tokenizer.encode(text, return_tensors='pt') |
|
max_length = 80 |
|
|
|
sample_outputs = model.generate(input_ids,pad_token_id=tokenizer.eos_token_id, |
|
do_sample=True, |
|
max_length=max_length, |
|
min_length=max_length, |
|
num_return_sequences=3) |
|
|
|
for i, sample_output in enumerate(sample_outputs): |
|
print(">> Generated text {}\n\n{}".format(i+1, tokenizer.decode(sample_output.tolist()))) |
|
print('\n---') |
|
~~~~ |
|
|
|
|
|
## Author |
|
` |
|
Phan Minh Toan |
|
` |