svanlin-tencent
commited on
Commit
·
59dbab0
1
Parent(s):
1fd28a8
change
Browse files
README.md
CHANGED
@@ -1,3 +1,21 @@
|
|
1 |
-
|
2 |
-
|
3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
## 模型介绍
|
2 |
+
|
3 |
+
随着人工智能技术的快速发展,大型语言模型(LLMs)在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而,随着模型规模的扩大,如何在保持高性能的同时优化资源消耗成为一个关键挑战。为了应对这一挑战,我们研究了混合专家(MoE)模型,当前亮相的Hunyuan-Large(Hunyuan-MoE-A50B)模型,这是目前业界待开源的基于Transformer的最大MoE模型,拥有3890亿总参数和520亿激活参数。
|
4 |
+
|
5 |
+
本次通过开源Hunyuan-Large的技术成果,我们希望激发更多研究者的创新灵感,共同推动AI技术的进步和应用。欢迎加入我们的开源社区,共同探索和优化未来的AI模型!Hunyuan-Large正式版预计月底正式开源,当前在混元一站式上开放Hunyuan-Large-Preview版本供大家体验。
|
6 |
+
|
7 |
+
### 模型技术优势介绍
|
8 |
+
|
9 |
+
#### 模型
|
10 |
+
- **高质量合成数据**:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据
|
11 |
+
|
12 |
+
- **KV缓存压缩**:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐
|
13 |
+
|
14 |
+
- **专家特定学习率缩放**:为不同专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献
|
15 |
+
|
16 |
+
- **长上下文处理能力**:支持高达128K的文本序列,显著提升了长上下文任务的处理能力
|
17 |
+
|
18 |
+
- **广泛的基准测试**:在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的实际应用效果和安全性
|
19 |
+
|
20 |
+
|
21 |
+
|