tomo1222
/

Gemma2-27b-ft-jp-r64_alpha64

@@ -97,30 +97,35 @@ def search_ref_input(input, k=10):
   return text
 """# Prompt"""
 output_data=[]
 for i, task in enumerate(tasks):
-    text = search_ref_input(task["input"],16)+f"### 質問:\n{task['input']}\n\n### 回答:\n"
-    print(task["input"])
-    inputs = tokenizer(text, return_tensors="pt").to("cuda")
-    print(len(inputs['input_ids'][0]))
-    output = model.generate(**inputs, max_new_tokens=1024,repetition_penalty=1.2,use_cache=True,
-                            bad_words_ids = [tokenizer.encode("質問", add_special_tokens=False),
-                                             tokenizer.encode("###", add_special_tokens=False),
-                                             tokenizer.encode("#", add_special_tokens=False),
-                                             tokenizer.encode("##", add_special_tokens=False),
-                                             tokenizer.encode("---", add_special_tokens=False),
-                                             tokenizer.encode("<h3>", add_special_tokens=False),
-                                             tokenizer.encode("filepath", add_special_tokens=False),
-                                             tokenizer.encode("> ", add_special_tokens=False),
-                                            ]
-                            )
-    output_text = tokenizer.decode(output[0][inputs.input_ids.size(1):], skip_special_tokens=True).strip()
-    print(i,output_text)
-    print("---")
-    output_data.append({"task_id":i,"output":output_text})
 with open("output.jsonl","w",encoding="utf-8") as f:
     for result in output_data:

   return text
 """# Prompt"""
 output_data=[]
 for i, task in enumerate(tasks):
+  text = (
+    search_ref_input(task["input"], 20)
+    + "あなたは日本語が堪能な優秀な人間です。\n"
+    + "**文脈**を踏まえて、改行と箇条書きを駆使して、日本語で**詳細に**書きなさい。\n"
+    + "優秀な人間になりきって、推測をいれずに根拠をもってわかりやすく答えてください。"
+    + f"### 質問:\n{task['input']}\n\n### 回答:\n"
+  )
+  print(task["input"])
+  inputs = tokenizer(text, return_tensors="pt").to("cuda")
+  print(len(inputs['input_ids'][0]))
+  output = model.generate(**inputs, max_new_tokens=1024,repetition_penalty=1.1,use_cache=True,
+                          bad_words_ids = [tokenizer.encode("質問", add_special_tokens=False),
+                                            tokenizer.encode("###", add_special_tokens=False),
+                                            tokenizer.encode("#", add_special_tokens=False),
+                                            tokenizer.encode("##", add_special_tokens=False),
+                                            tokenizer.encode("---", add_special_tokens=False),
+                                            tokenizer.encode("<h3>", add_special_tokens=False),
+                                            tokenizer.encode("filepath", add_special_tokens=False),
+                                            tokenizer.encode("> ", add_special_tokens=False),
+                                          ]
+                          )
+  output_text = tokenizer.decode(output[0][inputs.input_ids.size(1):], skip_special_tokens=True).strip()
+  print(i,output_text)
+  print("---")
+  output_data.append({"task_id":i,"output":output_text})
 with open("output.jsonl","w",encoding="utf-8") as f:
     for result in output_data: