即将推出的 DeepSeek AI 模型未能使用华为的芯片进行训练。

发布于 8 月 14 日

主要观点：中国人工智能公司 DeepSeek 因无法使用华为芯片训练其新模型而推迟发布，凸显北京推动取代美国技术的局限性，同时展示了中国芯片在关键任务上仍落后于美国竞争对手，面临技术挑战。
关键信息：1 月发布 R1 模型后被鼓励采用华为 Ascend 处理器，R2 训练过程中使用 Ascend 芯片遇到持续技术问题，转而使用 Nvidia 芯片训练和华为芯片推理，导致模型发布从 5 月推迟，失去竞争优势；训练涉及从大数据集学习，推理指使用训练模型进行预测或生成响应；DeepSeek 遇到的问题包括芯片稳定性、连接速度和软件方面的劣势；华为派工程师帮助 DeepSeek 使用其 AI 芯片开发 R2 模型但未成功；DeepSeek 仍在与华为合作使模型兼容 Ascend 用于推理，创始人对 R2 进展不满；R2 发布还因更新模型的数据标注时间长；其他开发者如阿里巴巴的 Qwen3 采用 DeepSeek 的核心概念且更高效；华为在使用 Ascend 进行训练时面临“成长烦恼”但有望适应；Nvidia 为恢复在中国销售 H20 芯片向美国政府让利；开发者在构建获胜的 AI 生态系统中起关键作用。
重要细节：提及三个熟悉此事的人提供的信息，以及一位了解情况的人所说的原因等；还引用了加州大学伯克利分校的 AI 研究员 Ritwik Gupta 的观点等；DeepSeek 和华为未回应置评请求。

阅读 39