前言
- 针对特定 NER 任务专项优化的 LLM 模型,一般与 KeywordGacha 搭配使用
- 设计目标:实现接近主流在线模型(Gemini Flash 等)的分析能力,同时能运行在(几乎)所有的设备上
- ** KeywordGacha 是一个使用 OpenAI 兼容接口自动生成小说、漫画、字幕、游戏脚本等内容文本中实体词语表的翻译辅助工具 **
综述
- 基于 SakuraLLM/Sakura-1.5B-Qwen2.5-Base-v1 训练
- 只需要大约
4G
显存,能运行在(几乎)所有的设备上,而且速度十分快 - 通过针对性的预训练,本系列模型:
- 对
轻小说
、游戏脚本
、漫画脚本
等故事性文本内容具有极好的理解能力 - 特别是
剑与魔法
、超能力战斗
、异世界冒险
等常见的 ACG 题材的故事内容 - AND NSFW IS OK
- 对
- 支持多种语言
- 目前已针对以下语言进行了训练:
中文
、英文
、日文
、韩文
- 未来计划针对以下语言进行训练:
俄文
- 目前已针对以下语言进行了训练:
模型 | 版本 | 参数量 |
---|---|---|
keyword_gacha_llm_1.5b_multilingual | 20241220 | 1.5B |
任务能力 - 分析任务
- 主要用途:通过分析上下文文本判断目标实体词语的类型和性别(如有)
- 推理参数(参考)
- 常规
- TEMPERATURE = 0.05
- TOP_P = 0.85
- FREQUENCY_PENALTY = 0.00
- 退化重试时
- TEMPERATURE = 0.50
- TOP_P = 0.85
- FREQUENCY_PENALTY = 0.20
- 常规
- 指令模板
- 输入
"messages": [ { "role": "system", "content": "你是游戏文本分析与翻译的专家,请对参考文本进行分析,然后将目标词语翻译成简体中文。\n分析步骤:\n1、故事梗概:总结与目标词语相关的故事内容。\n2、特征分析:分析目标词语的词性、指代的实体等语言学特征。\n3、实体类型判断:从以下候选项目中判断目标词语指代的实体类型,超出候选范围或无法确定时视为\"无法判断\":姓名、家族、地点、组织、物品、事件。\n4、性别判断:从以下候选项目中判断目标词语指代对象的性别,超出候选范围或无法确定时视为\"无法判断\":男、女。\n翻译要求:\n1、只需翻译目标词语,不需要翻译参考文本中的其他内容。\n2、翻译结果需全部为简体中文,且尽量保留原文风格特点。\n3、即使目标词语在参考文本中出现多次,也只需翻译一次。\n回答使用中文,严格按照以下JSON格式返回,不要添加额外的文字、说明或注释:\n{\n\"summary\":\"<故事梗概>\",\n\"analysis\":\"<特征分析>\",\n\"entity_type\":\"<实体类型:姓名/家族/地点/组织/物品/事件/无法判断>\",\n\"gender\":\"<性别判断:男/女/无法判断>\",\n\"translation\":\"<翻译结果>\"\n}" }, { "role": "user", "content": "目标词语:{target_word}\n参考文本:\n{target_text}" } ]
- 输出
"message": { "content": "{\"summary\":\"<故事梗概>\",\"analysis\":\"<特征分析>\",\"entity_type\":\"<实体类型:姓名/家族/地点/组织/物品/事件/无法判断>\",\"gender\":\"<性别判断:男/女/无法判断>\",\n\"translation\":\"<翻译结果>\"}", "role": "assistant" }
- 数据示例
- 输入
"messages": [ { "role": "system", "content": "你是游戏文本分析与翻译的专家,请对参考文本进行分析,然后将目标词语翻译成简体中文。\n分析步骤:\n1、故事梗概:总结与目标词语相关的故事内容。\n2、特征分析:分析目标词语的词性、指代的实体等语言学特征。\n3、实体类型判断:从以下候选项目中判断目标词语指代的实体类型,超出候选范围或无法确定时视为\"无法判断\":姓名、家族、地点、组织、物品、事件。\n4、性别判断:从以下候选项目中判断目标词语指代对象的性别,超出候选范围或无法确定时视为\"无法判断\":男、女。\n翻译要求:\n1、只需翻译目标词语,不需要翻译参考文本中的其他内容。\n2、翻译结果需全部为简体中文,且尽量保留原文风格特点。\n3、即使目标词语在参考文本中出现多次,也只需翻译一次。\n回答使用中文,严格按照以下JSON格式返回,不要添加额外的文字、说明或注释:\n{\n\"summary\":\"<故事梗概>\",\n\"analysis\":\"<特征分析>\",\n\"entity_type\":\"<实体类型:姓名/家族/地点/组织/物品/事件/无法判断>\",\n\"gender\":\"<性别判断:男/女/无法判断>\",\n\"translation\":\"<翻译结果>\"\n}" }, { "role": "user", "content": "目标词语:ダリヤ\n参考文本:\n「代わりにこちらで提案したいものが四つある。一つ、追加でもう金貨20枚を支払う用意をしている。二つ、今後3年間、ダリヤ嬢の注文素材は入荷時に最優先で回す、個数の入らない素材も手に入りやすくなる。三つ、同じく3年間、素材は仕入れ値で渡す。こちらで利益は一切とらない。四つめは......意味がないかもしれないが、商会関連で相談してもらえれば、こちらでできる限りのことはする。とはいえ、ギルド長も保証人についている状況ではほとんど意味がないのは承知している」\n「ダリヤ先生に関しては、偶然が重なったのでしょうね。お話を伺うかぎり、ブラックスライムで火傷した部分の皮膚か肉が、身体と魔力続きのない状態で手に残っていた、そこに神官が治癒魔法をかけて回復させ、たまたま内側に残ったと考えられます。これまで生活に影響がないのであれば、気にするほどのものではありません。ただ、今日の首無鎧を見ると、魔物に反応される可能性はありますので、そこは注意が必要ですね」\n「手伝いがあろうが、素材をもらおうが変わりはないではないか。儂の家族と彼女の家族に、安堵と笑顔を取り戻したのはあなただ。儂を含め、泣く泣く引退した騎士達を再起させ、その笑顔を取り戻してくれたのもあなただ。魔物討伐部隊の環境を整え、隊員に快適さと笑顔を取り戻したのもあなただ。だから、ダリヤ先生--いいや、まだ王印なき今、この場だけではあるが、先取りで呼ばせて頂こう」\n「ダリヤさん、下手に出すぎです。来る時、踊り場で女性職員達に捕まってましたよね?ヴォルフ様のことを聞かれても、一切答えないでいいです。面倒なのは『失礼にあたりますので』で流してください。ギルド側でも注意はしておきます。商会長と伯爵家に失礼な上、業務時間内に遊んでいる職員がいるのは管理問題ですから。それでもしつこいのがいたら私に言ってください。きっちりします」" } ]
- 输出
"message": { "content": "{\"summary\": \"文本中,角色们多次提到“ダリヤ”,包括“ダリヤ嬢”、“ダリヤ先生”、“ダリヤさん”,表明“ダリヤ”是人物的姓名或尊称。其中,有人提到“ダリヤ嬢”在战斗后被神官治疗,以及“ダリヤ先生”在魔物讨伐部队中对角色产生影响。此外,有人提醒“ダリヤ”不要在公会内做出失礼行为。\",\"analysis\": \"“ダリヤ”是名词,指代一个人物,从称呼“嬢”、“先生”、“さん”可以判断其为女性,且在公会中具有一定地位。\",\"entity_type\": \"姓名\",\"gender\": \"女\",\"translation\": \"达莉娅\"}", "role": "assistant" }
任务能力 - 翻译任务
- 主要用途:对文本片段进行翻译
- 推理参数(参考)
- 常规
- TEMPERATURE = 0.95
- TOP_P = 0.85
- FREQUENCY_PENALTY = 0.00
- 退化重试时
- TEMPERATURE = 0.95
- TOP_P = 0.85
- FREQUENCY_PENALTY = 0.20
- 常规
- 指令模板
- 输入
"messages": [ { "role": "system", "content": "请你作为一个轻小说翻译者,将轻小说文本翻译成简体中文。\n要求翻译准确,译文流畅,尽量保持原文写作风格,人名和专有名词也要翻译成中文。\n既不要漏掉任何一句,也不要增加额外的说明,注意保持换行格式,译文的行数必须要和原文相等。\n只需列出翻译后的中文译文,不要添加其他的描述、说明或者序号。" }, { "role": "user", "content": "轻小说文本:\n{source}" } ]
- 输出
"message": { "content": "{translation}", "role": "assistant" }
- 数据示例
- 输入
"messages": [ { "role": "system", "content": "请你作为一个轻小说翻译者,将轻小说文本翻译成简体中文。\n要求翻译准确,译文流畅,尽量保持原文写作风格,人名和专有名词也要翻译成中文。\n既不要漏掉任何一句,也不要增加额外的说明,注意保持换行格式,译文的行数必须要和原文相等。\n只需列出翻译后的中文译文,不要添加其他的描述、说明或者序号。" }, { "role": "user", "content": "轻小说文本:\n「代わりにこちらで提案したいものが四つある。一つ、追加でもう金貨20枚を支払う用意をしている。二つ、今後3年間、ダリヤ嬢の注文素材は入荷時に最優先で回す、個数の入らない素材も手に入りやすくなる。三つ、同じく3年間、素材は仕入れ値で渡す。こちらで利益は一切とらない。四つめは......意味がないかもしれないが、商会関連で相談してもらえれば、こちらでできる限りのことはする。とはいえ、ギルド長も保証人についている状況ではほとんど意味がないのは承知している」\n「ダリヤ先生に関しては、偶然が重なったのでしょうね。お話を伺うかぎり、ブラックスライムで火傷した部分の皮膚か肉が、身体と魔力続きのない状態で手に残っていた、そこに神官が治癒魔法をかけて回復させ、たまたま内側に残ったと考えられます。これまで生活に影響がないのであれば、気にするほどのものではありません。ただ、今日の首無鎧を見ると、魔物に反応される可能性はありますので、そこは注意が必要ですね」\n「手伝いがあろうが、素材をもらおうが変わりはないではないか。儂の家族と彼女の家族に、安堵と笑顔を取り戻したのはあなただ。儂を含め、泣く泣く引退した騎士達を再起させ、その笑顔を取り戻してくれたのもあなただ。魔物討伐部隊の環境を整え、隊員に快適さと笑顔を取り戻したのもあなただ。だから、ダリヤ先生--いいや、まだ王印なき今、この場だけではあるが、先取りで呼ばせて頂こう」\n「ダリヤさん、下手に出すぎです。来る時、踊り場で女性職員達に捕まってましたよね?ヴォルフ様のことを聞かれても、一切答えないでいいです。面倒なのは『失礼にあたりますので』で流してください。ギルド側でも注意はしておきます。商会長と伯爵家に失礼な上、業務時間内に遊んでいる職員がいるのは管理問題ですから。それでもしつこいのがいたら私に言ってください。きっちりします」" } ]
- 输出
"message": { "content": "“在此提出四项提案。第一,准备追加支付20枚金币的准备。第二,今后3年内,对达莉娅小姐的订单素材在进货时优先处理,能够更容易入手数量不足的素材。第三,同样为期3年,材料将以进货价交货。我们这边不收取任何利益。第四,......可能意义不大,但如果能和商会相关人士商量,我们会尽力而为。不过,既然知道在公会会长也是保证人的情况下,几乎没有什么意义。”\n“关于达莉娅小姐,是偶然重叠了吧。听她的说法,好像是被布克斯拉姆魔物烧伤了身体或肌肉,当时残留在手上的,经过神官的治愈魔法恢复了状态,然后才偶然留在身体内部。如果至今为止生活没有受到影响,那就没有必要过于在意。但是,看到今天的首无铠甲,可能有被魔物反应的可能性,所以要注意哦。”\n“即使有帮忙,即使要提供素材,结果都不会改变吧。能让我们家人和她的家人重拾安心和笑容的,是你啊。不仅是你,还有让那些流着眼泪退役的骑士们重新站起来,让他们重拾笑容的你。还有,让魔物讨伐部队环境得以完善,让队员找回舒适和笑容的你。所以,达莉娅小姐——不,现在还是没有王印的场合,就在此先行叫你一声。”\n“达莉娅小姐,你太谦虚了。来的时候,在楼梯上被女性职员抓着吧?即使被问到狼的事情,也不要回答。把『失礼的是我们』这样带过。公会这边也会注意的。因为有在商会长和伯爵家失礼,而且是在业务时间内游玩的职员,这是管理问题。如果有顽固的人,请告诉我。我会好好处理的。”", "role": "assistant" }
- Downloads last month
- 131
Model tree for neavo/keyword_gacha_llm_1.5b_multilingual
Base model
Qwen/Qwen2.5-1.5B