Swarm 框架登场：OpenAI 第 3 阶段「敲门砖」；马斯克的 Teslabot 实际有人远程操控丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ，该系列模型的能力已经上线「智谱清言」App。

据介绍，CogView3 是一个基于级联扩散的 text2img 模型，其包含如下三个阶段：

第一阶段： 利用标准扩散过程生成 512x512 低分辨率的图像。
第二阶段： 利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。
第三阶段： 将生成结果再次基于中继扩散迭代，生成 2048×2048 高分辨率的图像。

官方表示，在实际效果上，CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，同时只需要 SDXL 大约 1/10 的推理时间。

CogView3-Plus 模型则在 CogView3（ECCV'24）的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。据介绍，其采用 Zero-SNR 扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比，它在保持模型基本能力的同时，有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。（@IT 之家）

2、Swarm 框架登场：OpenAI 第 3 阶段「敲门砖」，让专业的事交给专业的 AI 智能体做

OpenAI 公司推出了 Swarm 框架，旨在解决开发者在多智能体系统编排中面临的复杂挑战。Swarm 框架通过简化智能体的协调、执行和测试过程，让开发者能够更高效地管理、互动多个 AI 智能体。

OpenAI 朝 AI 第 3 阶段迈进

根据 OpenAI 公布五级量表，最新推出的 o1 模型处于第二阶段，即所谓的「推理者」（reasoners），而开发 multi-agent 符合第三阶段的目标要求。

Swarm 框架

Swarm 是一个实验性框架，协调、执行和测试多智能体，让其变得轻量且高度可控，其目标是让开发者能够以简便高效的方式管理多个 AI 智能体之间的互动。
Swarm 框架的核心在于智能体（agents）和交接（handoffs）两个基础抽象（ primitive abstractions）：

- 智能体： 每个智能体是特定指令与工具的组合，能够独立完成任务。
- 交接： 智能体可以在执行过程中随时将任务或对话交接给其他智能体，确保流程的流畅性和模块化。

该框架保持整体协调的高效性的同时，简化了复杂的智能体互动。

随着多智能体系统在 AI 研究和应用中的重要性日益增加，Swarm 框架为开发者提供了一个易于使用的工具，降低了技术门槛，增加了可及性。无论是用于研究、产品开发还是教育，Swarm 框架都为探索协调的多智能体 AI 提供了一个激动人心的机会。（@IT 之家）

3、马斯克的 Teslabot 实际有人远程操控

特斯拉 CEO 埃隆·马斯克在数日前的自动驾驶出租车发布会活动上展示了人形机器人 TeslaBot（原称 Optimus），该机器人在现场跳舞、交谈、玩游戏和倒饮料，非常之吸引现场的嘉宾观众。

据一位在活动现场与特斯拉工程师交谈的人士透露，机器人的反应都是在幕后人员的控制下完成的，而马斯克并未向观众明确说明这一事实。这一行为被揭露后引发了观众的失望和对马斯克技术宣传的质疑。

一些投资者对这一场特斯拉的发布会评价为「令人失望」，他们认为发布会缺乏具体细节，而且自动驾驶出租车（CyberCab）和人形机器人（Teslabot）要到 2026 年才开始生产，投资者对于的交付时间表也认为过于遥远，所以当日特斯拉股票在发布会后便下跌，但即使如此，马斯克的一系列创新产品仍然让人期待。（@爱范儿）

4、古尔曼：苹果智能眼镜和带摄像头的 AirPods 可能于 2027 年推出

据彭博社的马克・古尔曼称，苹果正在准备其它一些基于视觉的产品，预计会有智能眼镜，类似于 Meta 与 Ray-Ban 的合作产品，以及带有摄像头的 AirPods。推出时间不会早于 2027 年，并且存在可能最终不会推出的情况。

根据该报告，苹果希望通过将视觉智能技术引入更多产品，来挽回他们在 Apple Vision Pro 的视觉智能方面数十亿美元的部分研发投资。苹果已经在 iPhone 16 中引入了该技术，下一步是将其引入眼镜形态的产品中。

这款眼镜不会是带有显示屏的完整的 AR 眼镜，而是一款内置摄像头、扬声器和麦克风的智能眼镜，类似于 Meta 的 Ray Ban 眼镜。

此外，苹果公司仍在计划推出带有摄像头的 AirPods，这一消息此前已有报道。（@IT 之家）

5、优必选发布全新一代工业人形机器人 Walker S1，进入比亚迪等汽车工厂实训

优必选发布了全新一代工业人形机器人 Walker S1，已进入比亚迪工厂执行搬运任务实训，实现全球首次人形机器人与无人物流车、无人叉车、工业移动机器人和智能制造管理系统的协同作业。

优必选表示，已经与东风柳汽、吉利汽车、一汽红旗、一汽-大众青岛分公司、奥迪一汽、富士康、顺丰在内的多家企业合作。截至目前，Walker S 系列已成为全球进入最多车厂实训的人形机器人。

Walker S1 主要参数如下：

基本参数：身高 172cm、体重 76kg、负载行走 15kg
360° 多模态感知：集成化头部设计、双耳鱼眼相机、3D 立体视觉
一体化关节：创新型旋转驱动，最大扭矩 250N・m
仿人灵巧手：6 个阵列式触觉压力传感器、全栈式灵巧操作策略库（@IT 之家）

02 有态度的观点

1、Meta 首席人工智能科学家 LeCun：AI 威胁人类论完全是胡说八道

Meta 首席人工智能科学家 Yann LeCun 近日在接受《华尔街日报》采访时表示，对人工智能对人类生存的威胁的担忧是「彻头彻尾的胡说八道（complete B.S. ) 」。

LeCun 是人工智能领域的一位先驱，曾获得图灵奖，目前担任纽约大学教授和 Meta 高级研究员。他此前曾在社交媒体上表示，在担心控制超级智能 AI 之前，我们需要先弄清楚如何设计一个比家猫更聪明的系统。

LeCun 在接受《华尔街日报》采访时详细阐述了他的观点，在回答有关人工智能变得足够聪明以至于对人类构成威胁的问题时，他说：「你将不得不原谅我的法语，但那是完全的胡说八道。」

LeCun 认为，今天的语言大模型缺乏一些关键的「猫级」能力，如持久记忆、推理、规划和对物理世界的理解。他认为，这些模型只是证明了「你可以操纵语言，但并不聪明」，它们永远不会产生真正的通用人工智能（AGI）。

LeCun 并不完全否认实现 AGI 的可能性，但他表示，需要新的方法来实现。他指出，他领导的 Meta 基础人工智能研究团队正在研究如何消化真实世界的视频，这可能是一种有前景的方向。（@IT 之家）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

Swarm 框架登场：OpenAI 第 3 阶段「敲门砖」；马斯克的 Teslabot 实际有人远程操控丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

RTE开发者社区

引用和评论

上线 3 天破 500 星，TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人丨社区来稿

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？