智谱开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行；曝 OpenAI 模型「草莓」今秋推出

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、曝 OpenAI 高级推理 AI 产品「草莓」秋季推出

路透社曾爆料 OpenAI 正在开发一个名为「草莓」的 AI 产品，旨在提高 AI 的高级推理能力，The Information 昨日的一篇报道再次证实了这个产品的存在。

据知情人士透露，这款人工智能模型预计最早将于今年秋季作为聊天机器人的一部分推出，可能集成于 ChatGPT 平台中。「草莓」的一大亮点在于其能够解决前所未见的数学问题，这是当前聊天机器人所无法企及的。此外，通过特定训练，「草莓」还能应对编程相关的挑战。

然而，「草莓」并不局限于回答与技术相关的问题，如果有更多的时间去「思考」，它同样擅长处理更为主观的话题，如产品营销策略咨询。为了展示「草莓」在处理语言相关任务方面的能力，OpenAI 的研究人员已展示了其解决复杂字谜游戏的实例。

推出「草莓」是 OpenAI 持续创新的一部分，旨在与财力雄厚的对手竞逐生成式人工智能及大语言模型领域的领导地位。这项技术不仅引领未来趋势，还为解决多步骤任务的智能体（Agent）产品奠定基础，这些智能体被寄予厚望，可能成为新的收入增长点。

据悉，OpenAI 在今年夏天向美国国家安全官员展示了「草莓」。（@腾讯科技）

2、智谱 AI 开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行

智谱 AI 开源了 CogVideoX-5B 视频生成模型，相比此前开源的 CogVideoX-2B，官方称其视频生成质量更高，视觉效果更好。

官方表示大幅度优化了模型的推理性能，推理门槛大幅降低，可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ，在 RTX 3060 等桌面端「甜品卡」运行 CogVideoX-5B 模型。

CogVideoX 是一个大规模 DiT（diffusion transformer）模型，用于文本生成视频任务，主要采用了以下技术：

3D causal VAE：通过压缩视数据到 latent space，并在时间维度上进行解码来实现高效的视频重建。
专家 Transformer：将文本 embedding 和视频 embedding 相结合，使用 3D-RoPE
作为位置编码，采用专家自适应层归一化处理两个模态的数据，以及使用 3D 全注意力机制来进行时空联合建模。（@IT 之家）

3、Anthropic 向所有 Claude 用户开放 Artifacts AI 功能

AI 科技公司 Anthropic 于今日发布博文，宣布面向所有 Claude 用户开放 Artifacts 功能，用户现在可以在 iOS 和安卓版 Claude 应用中创建和浏览 Artifacts。

Artifacts 于今年 6 月推出预览版，官方称用户目前已经创建了数千万个 Artifacts。

Artifacts 相当于创建了一个动态工作区，用户和 Claude 对话让其生成文档、代码、矢量图，甚至是简单的游戏过程中，Artifacts 会出现聊天界面旁边，方便用户实时查看、迭代和创建你的作品。例如，在编写代码时，用户可以实时看到 Claude 提出的建议，并立即测试修改后的版本；在创作故事或撰写文章时，用户也可以随时采纳 Claude 的创意，不断丰富和完善作品。

此外，Artifacts 还支持用户之间的协作。多个用户可以围绕同一个项目进行合作，共享彼此的想法和成果，并且能够清晰地追踪每个用户的贡献。（@AIGC 开放社区）

4、Cerebras 推出 AI 推理解决新方案，速度是英伟达方案的 20 倍

Cerebras Systems 今日宣布推出 Cerebras Inference，官方称这是全球最快的 AI 推理解决方案。该新解决方案为 Llama 3.1 8B 提供每秒 1800 个 token，为 Llama 3.1 70B 提供每秒 450 个 token，速度是微软 Azure 等超大规模云中提供的基于英伟达 GPU 的 AI 推理解决方案的 20 倍。

除了令人难以置信的性能之外，这款新型推理解决方案的定价也比流行的 GPU 云低得多，起价仅为每百万个 token 10 美分，从而为 AI 工作负载提供 100 倍更高的性价比。

该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序，而不会影响速度或成本。该方案使用了 Cerebras CS-3 系统及其 Wafer Scale Engine 3（WSE-3）AI 处理器，其中 CS-3 的内存带宽是 Nvidia H100 的 7000 倍，解决了生成式 AI 的内存带宽技术挑战。

据了解，Cerebras Inference 提供以下三个层级：

免费层为登录的任何人提供免费的 API 访问和慷慨的使用限制
开发者层专为灵活的无服务器部署而设计，为用户提供一个 API端点，其成本只是市场上替代方案的一小部分，Llama 3.1 8B 和 70B 模型的定价分别为每百万 token 10 美分和 60美分
企业层提供微调模型、定制服务级别协议和专门支持。企业可以通过 Cerebras 管理的私有云或客户场所访问 Cerebras Inference，非常适合持续的工作负载（@IT 之家）

5、智谱 AI 宣布 GLM-4-Flash 大模型免费开放，支持 26 种语言

智谱 AI 昨日宣布，旗下 GLM-4-Flash 大模型免费开放，注册开放平台 bigmodel.cn 就可以通过调用 GLM-4-Flash 构建专属模型和应用。

据介绍，GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务，生成速度能达到 72.14 token/s，约等于 115 字符/s。同时，GLM-4-Flash 具备多轮对话、网页浏览、Function Call（函数调用）和长文本推理（支持最大 128K 上下文）等功能，支持包括中文、英语、日语、韩语、德语等在内的 26 种语言。

官方表示，通过采用自适应权重量化、多种并行化方式、批处理策略以及投机采样等多种方法，在推理层面实现模型的延迟降低与速度提升，更大并发量和吞吐量不仅提升了效率，而且让推理成本显著降低，从而免费推出。

在预训练方面，官方引入了大语言模型进入数据筛选流程，获得 10T 高质量多语言数据，数据量是 ChatGLM3-6B 模型的 3 倍以上；同时采用了 FP8 技术进行预训练，提高了训练效率和计算量。（@IT 之家）

02 有态度的观点

1、字节火山引擎总裁谭待：现在大模型价格回归正常水平，原来太贵了

字节跳动旗下火山引擎总裁谭待在上周接受澎湃新闻采访时，谈到了此前行业内发生的 AI 大模型「价格战」。

谭待认为，大模型原来的价格太贵了，现在是价格回归到应该回归的地方，这不是价格战。区别在于，像是字节火山引擎这样的公司有能力做到，而别人不一定有能力。

针对目前 AI 面临巨大投入和商业回报不匹配的困扰，谭待认为，要先把现阶段的小回报慢慢积累，未来才能获得更好的回报，目前字节豆包大模型的技术创新还是为商业而服务，更偏向于走务实路线。

对于 AI「超级应用」会何时出现的问题，谭待表示，只能交给时间回答，「就像移动互联网发展之初没有抖音、滴滴、美团、快手，未来谁都无法预测」。（@爱范儿）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

智谱开源 CogVideoX-5B 视频生成模型，RTX 3060 显卡可运行；曝 OpenAI 模型「草莓」今秋推出

01 有话题的新闻

02 有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略