leks-forever
/

nllb-200-distilled-600M

text2text-generation

Inference Endpoints

Model card Files Files and versions Community

akirus commited on Sep 21, 2024

Commit

85dcc68

·

verified ·

1 Parent(s): 7637115

Update README.md

Files changed (1) hide show

README.md +32 -2

README.md CHANGED Viewed

@@ -70,11 +70,41 @@ Users (both direct and downstream) should be made aware of the risks, biases and
 ## How to Get Started with the Model
 ```python
 model = AutoModelForSeq2SeqLM.from_pretrained("leks-forever/nllb-200-distilled-600M")
 tokenizer = NllbTokenizer.from_pretrained("leks-forever/nllb-200-distilled-600M")
-```
-[More Information Needed]
 ## Training Details

 ## How to Get Started with the Model
 ```python
+from transformers import AutoModelForSeq2SeqLM, NllbTokenizer
 model = AutoModelForSeq2SeqLM.from_pretrained("leks-forever/nllb-200-distilled-600M")
 tokenizer = NllbTokenizer.from_pretrained("leks-forever/nllb-200-distilled-600M")
+def predict(
+    text,
+    src_lang='lez_Cyrl',
+    tgt_lang='rus_Cyrl',
+    a=32, b=3,
+    max_input_length=1024,
+    num_beams=1,
+    **kwargs
+):
+    tokenizer.src_lang = src_lang
+    tokenizer.tgt_lang = tgt_lang
+    inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=max_input_length)
+    result = model.generate(
+        **inputs.to(model.device),
+        forced_bos_token_id=tokenizer.convert_tokens_to_ids(tgt_lang),
+        max_new_tokens=int(a + b * inputs.input_ids.shape[1]),
+        num_beams=num_beams,
+        **kwargs
+    )
+    return tokenizer.batch_decode(result, skip_special_tokens=True)
+sentence: str = "Я люблю гулять по парку ранним утром, когда воздух свежий и тишина вокруг."
+translation = predict(sentence, src_lang='rus_Cyrl', tgt_lang='lez_Cyrl')
+print(translation)
+# ['Заз пакамахъ, хъсан гар алаз, сагъ-саламатдиз къекъвез кӀанзава.'
+```
 ## Training Details