主要观点:DeepSeek 发布了大语言模型 V3.1,采用混合架构结合思考和非思考模式,在推理速度和响应质量上有提升,通过两阶段扩展上下文等方式处理更长输入序列,采用 FP8 UE8M0 精度,在开源基准测试中表现出色,社区讨论意见不一,模型可通过多个平台获取并伴有相关文档。
关键信息:
- 发布 V3.1 版本,混合架构结合思考与非思考模式。
- 基于 DeepSeek-V3-Base checkpoint,两阶段扩展上下文至 128,000 tokens。
- 采用 FP8 UE8M0 精度,全模型含 6710 亿参数。
- 在开源编码和推理基准测试中接近 GPT-4 且成本效益高。
- 社区讨论意见有褒有贬,开发者认为其是成本有效替代,AI 工程师称混合推理很棒。
- 可通过多个平台获取,伴有 API 文档和发布说明。
重要细节: - 思考模式为 DeepSeek-V3.1-Think,比 DeepSeek-R1-0528 推理更快。
- 训练数据达 6300 亿 tokens 扩展至 32,000 tokens 上下文窗口,再用 2090 亿 tokens 扩展至 128,000 tokens。
- 全模型约 370 亿参数每 token 激活,支持 128,000-token 上下文长度。
- 在 Aider 基准测试中得 71.6%,成本约 1 美元,低于其他模型几十美元。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。