Claude 大更新，AI 可模仿人类访问电脑；月之暗面招募微软亚研院谭旭，研发类 GPT- 4o 的端到端语音模型

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、开源文生图 AI 重磅选手上新：Stable Diffusion 3.5 全家桶登场、消费级硬件上「开箱即用」

Stability AI 公司昨日（10 月 22 日）发布博文，宣布推出 Stable Diffusion 3.5，这标志着开源 AI 文生图模型的重大进步。

Stable Diffusion 3.5 共有 Medium、Large 和 Large Turbo 三种规模版本，旨在满足科学研究人员、爱好者、初创公司和企业的不同需求，相关介绍如下：

Stable Diffusion 3.5 Large：共有 80 亿个参数，具有卓越的质量和快速响应，是 Stable Diffusion 家族中最强大的模型，非常适合 100 万像素分辨率的专业应用场景。
Stable Diffusion 3.5 Large Turbo：是 Large 的精简版，在出色地遵循提示词上，仅需 4 个步骤内生成高质量图像，且生成速度明显快于 Large。
Stable Diffusion 3.5 Medium（将于 10 月 29 日发布）：该模型拥有 25 亿个参数，采用改进的 MMDiT-X 架构和训练方法，旨在能够在消费级硬件上「开箱即用」，平衡质量和易于定制，能够生成分辨率在 25 万到 200 万像素之间的照片。

Stability AI 为此次发布实施了一项相当宽松的社区许可，这些模型可供非商业用途免费使用，并且对年收入低于 100 万美元的企业开放，超过此门槛的企业必须获得单独的许可安排。（@IT 之家）

2、Anthropic 发布 Claude 3.5 Haiku 以及一项革命性新功能， AI 可以模仿人类访问电脑

Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku，以及一项名为「computer use 模拟计算机使用」的新功能。

也就是 Claude 能够模仿人类的方式使用电脑，它可以自主查看屏幕、移动光标、点击按钮、输入文本等。还能够自动化执行多个步骤的复杂任务，如填写在线表格、搜索数据、提交报告等，从而大幅减少人工操作时间。

Claude 3.5 能够在计算机界面上导航，通过切换窗口、打开菜单、选择选项等操作，完成多步骤的任务。

开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务（如研究），甚至在复杂的应用场景中进行交互。

Claude 3.5 Sonnet 改进

该版本在多项行业基准测试中表现优异，尤其在编程和工具使用任务上有显著提升。在编程测试（SWE-bench Verified）中表现提高到 49%，在零售领域的工具使用测试（TAU-bench）中提升至 69.2%，航空领域则达到了 46%。

新版 Sonnet 与其前代版本保持相同的价格和速度，并在多步开发过程中提高了推理和编程能力。

Claude 3.5 Haiku 发布

Claude 3.5 Haiku 是速度最快的新一代模型，在多项测试中超越了上一代的 Claude 3 Opus。在编程测试（SWE-bench Verified）中，Claude 3.5 Haiku 的得分为 40.6%，超过许多其他先进模型（如原版 Claude 3.5 Sonnet 和 GPT-4o）。

该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。特别适用于用户界面任务、个性化体验生成和大规模数据处理（如购买记录、定价或库存记录）。（@小互 AI）

3、消息称 OPPO 将收购大模型创业公司波形智能，纳入后者 CEO 姜昱辰

界面新闻昨日（10 月 22 日）援引波形智能内部人士消息称，该公司将被手机厂商 OPPO 收购，CEO 姜昱辰将入职 OPPO。OPPO 方面向界面新闻表示：「目前暂无更多信息。」

「我们只是被收购，产品仍在正常运营，不是网传的关张。」上述波形智能内部人士表示。

公开资料显示，姜昱辰生于 1998 年，本科毕业于浙江大学竺可桢学院工高班，博士毕业于苏黎世联邦理工大学，师从 Prof。Ryan Cotterell ，主攻自然语言生成。

波形智能旗下拥有自研的中文创作垂直领域大模型「Weaver」，以及由其驱动的面向用户写作类 Agent 产品「蛙蛙写作 2.0」。其主要盈利方式为订阅会员和单次服务计费，用户定位是一款帮助专业小说作者、自媒体运营者等内容生产者提升写作速度的效率工具。但是，用户的付费意愿、能力以及市场空间等都有待验证。

另据《科创板日报》，姜昱辰曾表示，Weaver 大模型专为创作而生，最大特点是 50B tokens 高质量中文内容进行预训练，再加上工程师不断调整，使得该大模型的写作内容更有「人味」。（@IT 之家）

4、微软亚研院前首席研究经理加入月之暗面

据晚点 Auto 独家报道，微软亚研院前首席研究经理谭旭，已经于 8 月加入大模型创业公司月之暗面，主要负责研发端到端语音模型。

谭旭在离开微软研究院前担任首席研究经理，方向是生成式 AI、语音 / 音频 / 视频内容生成，论文引用量达上万次，他也曾担任 NeurIPS 等学术会议期刊的审稿人；其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。

报道指出，月之暗面的整个多模态研究在 2023 年 10 月就开始了。在受市场关注的视频生成大模型上，有接近月之暗面的人士称，月之暗面目前有十人左右的团队在研发视频模型，为确保产品更具差异性，对外发布计划仍在推迟。

谭旭加入月之暗面后，主要目标之一可能是帮月之暗面打造类似 GPT-4o 的语音体验。( @APPSO)

5、华为原生鸿蒙操作系统正式发布

我国首个国产移动操作系统——华为原生鸿蒙操作系统正式发布，这也是继苹果 iOS 和安卓系统后，全球第三大移动操作系统。

据介绍，此前已经发布过的鸿蒙系统，由于系统底座仍使用了部分 AOSP 开放源代码，而不得不兼容部分安卓应用软件。而此次发布的原生鸿蒙，实现了系统底座的全部自研，系统的流畅度、性能、安全特性等提升显著，也实现了国产操作系统的自主可控。（@腾讯科技）

02有态度的观点

1、AI 教父 Hinton：我很担心 AI 从人类手中夺过控制权；AI 智能终将超越人类

Hinton 在一次访谈中提到了自己对 AI 发展的担忧。「我一如既往对 AI 的发展表示担忧，但我很高兴看到世界开始认真对待这个问题...AI 会变得比人类更聪明。我们必须担心它们会想从我们手中夺取控制权，这是我们应该认真思考的问题。」

Hinton 认为 AI 的智慧可能超越大多数人类，只是时间问题。有的专家认为掌控 AI 不是问题——我们设定目标，它们会服从我们，按我们说的做。也有其他专家认为它们绝对会夺取控制权。但 Hinton 认为谨慎一些是明智的。他个人认为 AI 有可能会夺取控制权，而且这个可能性比 1%大很多。

Hinton 提出，军事领域的 AI 应用应该受到国际共识制约。「使用 AI 制造自动化致命武器的风险并不取决于 AI 是否比我们聪明，这与 AI 本身可能失控并试图接管的风险是完全不同的。我对这两种情况都很担心...自动化武器显然会出现，至于人工智能是否会失控并试图接管它，我们可能能够控制也可能无法控制，我们对此一无所知。因此在它比我们更有掌控力之前，我们应该投入大量资源来研究我们是否能够控制它。」(@Z potentials)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

Claude 大更新，AI 可模仿人类访问电脑；月之暗面招募微软亚研院谭旭，研发类 GPT- 4o 的端到端语音模型

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

Gemini 刚发布的「主动音频」和「主动视频」是什么？对谈 Project Astra 主管

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？