即将推出的 DeepSeek AI 模型未能使用华为的芯片进行训练。

  • 主要观点:中国人工智能公司 DeepSeek 因无法使用华为芯片训练其新模型而推迟发布,凸显北京推动取代美国技术的局限性,同时展示了中国芯片在关键任务上仍落后于美国竞争对手,面临技术挑战。
  • 关键信息:1 月发布 R1 模型后被鼓励采用华为 Ascend 处理器,R2 训练过程中使用 Ascend 芯片遇到持续技术问题,转而使用 Nvidia 芯片训练和华为芯片推理,导致模型发布从 5 月推迟,失去竞争优势;训练涉及从大数据集学习,推理指使用训练模型进行预测或生成响应;DeepSeek 遇到的问题包括芯片稳定性、连接速度和软件方面的劣势;华为派工程师帮助 DeepSeek 使用其 AI 芯片开发 R2 模型但未成功;DeepSeek 仍在与华为合作使模型兼容 Ascend 用于推理,创始人对 R2 进展不满;R2 发布还因更新模型的数据标注时间长;其他开发者如阿里巴巴的 Qwen3 采用 DeepSeek 的核心概念且更高效;华为在使用 Ascend 进行训练时面临“成长烦恼”但有望适应;Nvidia 为恢复在中国销售 H20 芯片向美国政府让利;开发者在构建获胜的 AI 生态系统中起关键作用。
  • 重要细节:提及三个熟悉此事的人提供的信息,以及一位了解情况的人所说的原因等;还引用了加州大学伯克利分校的 AI 研究员 Ritwik Gupta 的观点等;DeepSeek 和华为未回应置评请求。
阅读 39
0 条评论