百度推出端到端语音大模型，支持方言、可打断、电话语音成本砍半；雷神 AI 眼镜发布：语音助理+摄像头，1799 元起丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@qqq、@鲍勃

01 有话题的技术

1、OpenAI 罕见宣布将开源推理模型

OpenAI CEO Sam Altman 正式宣布，将在未来几个月内推出一款具备推理能力的强大开放权重语言模型，并期待与开发者共同探索如何最大化其潜力。据 Altman 透露， 这是自 GPT-2 以来 OpenAI 首次计划发布开放权重语言模型 。他坦言，虽然这一想法已酝酿许久，但此前其他优先事项占据了主导地位。如今，发布这款模型的时机变得尤为重要。

作为参考，开放权重（open weight）是指将 AI 模型（尤其是神经网络）的训练参数（即权重）公开，供公众使用、检查或进一步开发。用户可以在这些权重的基础上进行修改，并将修改后的权重重新分发。虽然开放权重不能完全等同于开源，是一种介于完全闭源和完全开源之间的折中方案，但它是开源理念在 AI 领域的一种延伸和部分实现，包括此前宣称开源的 DeepSeek V3/R1 同样只开放了权重。

在正式发布前，OpenAI 将依据其「准备框架」对模型进行评估，确保其安全性与可靠性。考虑到模型发布后可能被修改，团队还将开展额外测试与优化工作。(@ APPSO)

2、Runway 发布新一代模型 Gen-4

昨日晚，专注于视频生成领域的 Runway 正式推出其新一代模型 Gen-4，号称全球首款实现「世界一致性」的模型。官网信息显示，Gen-4 的核心亮点包括：

世界一致性：能在多个场景中保持人物、场景和物体的一致性，无需额外精调；
参考图能力：仅凭一张参考图，即可在不同光线和场景中生成一致的角色或物体；
场景覆盖：从任意角度重建和捕捉场景，只需提供参考图和描述；
物理效果：模拟真实世界物理规律，呈现逼真的光照、阴影和动态效果；
视频质量：具备极强的提示理解能力和世界构建能力；
生成式视觉特效：提供快速、可控的视频特效，可与实拍和传统特效无缝融合。

通过结合视觉参考和文字指令，Gen-4 能够生成风格、主题、场景高度一致的图像和视频：用户只需提供简单的视觉参考或文字描述，例如角色的动作、场景的氛围或特定的特效需求，Gen-4 便能在短时间内生成高质量的视频片段。目前 Gen-4 已对 Runway 付费方案及企业用户开放，用户现在可以制作 5 秒和 10 秒的 720p 高清视频片段；用于角色、位置和物体一致性的场景参考功能即将推出。(@ APPSO)

3、OpenAI 官宣 2900 亿融资， GPT-4o 生图功能现已免费开放

OpenAI 宣布获得新一轮 400 亿美元（约合 2905 亿人民币）的融资，估值达到 3000 亿美元（约合 21791 亿人民币）。这是民营科技公司有史以来规模最大的一轮融资。

据悉本轮融资由软银集团领投，他们提供了 400 亿美元中的约 300 亿美元。

OpenAI 表示，这将让其进一步推动人工智能的前沿研究，扩展计算基础设施，并为每周使用 ChatGPT 的 5 亿人提供越来越强大的工具。

几乎也在同一时间，OpenAI CEO Sam Altman 宣布 GPT-4o 的生图功能已向所有免费用户推出。

体验🔗 https://chatgpt.com/

Altman 此前发文透露，得益于 GPT-4o 的多模态图像生成功能，OpenAI 在过去五天内新增了 100 万用户。(@ APPSO)

02 有亮点的产品

1、百度「文小言」大更新，端到端语音大模型：成本砍半、方言自由

百度推出的业界首个端到端语音语言大模型，基于全新互相关注意力（Cross-Attention）架构，实现两大飞跃：

- 成本革命：电话语音场景调用成本较行业降低 50%-90%。

- 极速响应：语音交互等待时间从 3-5 秒压缩至 1 秒，接近人类对话流畅度。

方言自由与情感交互：AI 的「人情味」升级；
- 方言支持：重庆话、河南话、广西话等特色方言自由切换，甚至能用蜡笔小新音色讲睡前故事。
- 情感合成：通过流式逐字多情感语音合成，AI 可根据场景切换情感，如兴奋、温柔、幽默，拟真度媲美真人。
复杂场景应对：从知识问答到角色扮演。

用户可随时打断对话，进行深度知识问答（如量子物理科普），或开启「孙悟空」「科技达人」等角色扮演模式。这种能力的背后，是语音大模型与 LLM（大语言模型）的深度耦合，实现听-思-说一体化。（@ AI 智韵）

2、AI 机器人主播首秀告捷，宇树 G1 淘宝直播 5 分钟带货破百万

昨晚，宇树科技于 2024 年 5 月发布的 Unitree G1 人形机器人作为首个 AI 机器人主播，在交个朋友淘宝直播间进行了直播带货的首次尝试。G1 身高约 127 厘米，拥有灵活的运动能力和 AI 智能。此次创新的电商应用探索取得了显著成果，开播仅 5 分钟销售额便突破 128 万元。

直播过程中，宇树机器人 G1 以拟人化的方式讲解并推介宇树科技的 GO2 机器狗，该产品售价 9997 元起。在机器人主播讲解商品的同时，GO2 机器狗也在一旁进行了握手、拜年、跳跃等一系列动作展示。

值得关注的是，宇树 G1 不仅承担了带货任务，还与人类主播进行了互动交流。其在面对即兴提问时展现出的机智应答引发了网友的热烈讨论，并被戏称为「高情商机器人」。此次直播带货的成功，标志着宇树科技在探索机器人商业化应用方面迈出了重要一步。

据悉，杭州宇树科技有限公司（Unitree Robotics）是中国领先的民用机器人研发与生产企业，专注于高性能通用足式及人形机器人的自主研发、生产和销售。作为全球最早公开零售高性能四足机器人的公司，宇树科技在机器人核心零部件、运动控制和感知等领域拥有卓越的技术积累。（@ AIbase 基地）

3、雷神 AI 智能眼镜发布：语音助理+摄像头，首发价 1799 元起

3 月 31 日消息，雷神科技举办新品发布会，会上，雷神 AI 智能眼镜正式发布。该眼镜内置 AI 语音助理功能、支持拍照，定价 1999 元（首发价 1799 元），配充电仓 2299 元（首发价 2099 元），5 月 30 日发售。

（图片来源：网络）

据了解，这款眼镜整体造型低调，采用黑色风格，使用 TR90 亲肤材质，配备防蓝光镜片，同时镜片引入「国内首创自由环曲面技术」，眼镜整体重量 39 克，号称可以实现零存在感体验。

该眼镜搭载 4 纳米工艺高通骁龙 AR1 处理器，配备 12MP 1/3.57 英寸摄像头（6P 光学镀膜，支持人像优化），内置 173 毫安时电池，同时配备智能充电仓，可以实现 12 次充电。

此外，这款新品还支持豆包和 DeepSeek AI 模型，支持智能翻译、智能游戏助手（号称可提供最佳游戏策略）、智能健康顾问等功能。

发布会上，雷神科技宣布与汇鼎眼视光（光学技术）、火山引擎（AI 云计算）、欧普康视（眼健康科技）、天键（智能声学）、亿境（智能硬件）共建智能眼镜产业生态联盟，推动智能眼镜技术的创新与普及。

雷神 AI 智能眼镜作为联盟首款力作，在消费电子领域首次实现「智能交互+视觉增强+健康管理」三位一体功能架构，标志着智能穿戴设备正式迈入 AI 新时代。（@雷神科技、@IT 之家）

03 Real-Time AI Demo 分享

1、ElevenLabs 与 Crossmint 演示语音支付购物

语音 AI 公司 ElevenLabs 与支付解决方案商 Crossmint 近期合作，演示了一个通过电话语音支付购买商品的创新案例。用户只需简单地通过语音指令，即可从 Saratoga Store 订购 Saratoga 矿泉水，轻松完成日常购物流程。这一演示生动展现了语音交互技术在简化在线购物体验方面的巨大潜力。

Crossmint 创始人 @alfongj 表示：「本次演示表明，我们现在已经能够构建出智能电话客服，它可以自动接听订单，并通过 Apple Pay 等多种方式安全便捷地向用户收款。这意味着一个全新的商业机遇正在涌现——我们可以与连锁餐厅和零售商展开合作，帮助他们集成这项技术，并从由此增加的销售额中获得分成。这很可能是一个价值数百万美元的市场机遇。」(@ alfongj@X)

04 有态度的观点

1、比尔盖茨：未来十年，AI 将取代多个职业

近期，比尔盖茨在 The Tonight Show 节目上，与主持人 Jimmy Fallon 谈及「AI 未来在人类社会中的意义」，其中比尔盖茨语出惊人：十年内，AI 将解放很多职业内容。比尔盖茨在谈论中指出，医生和教师是最可能被 AI 取代的两个职业。但他也表示「这对社会是有益的」：未来十年内，借助 AI 的力量，智力或将变得普遍，甚至免费，包括优秀的医疗评估和优秀的学习辅导。

此外，比尔盖茨还表示，在劳动力方面的问题，随着时间推移也将通过 AI 得到解决。对于 AI 的未来前景，比尔盖茨则保持乐观的心态看待，其认为「哪怕现在从零创业」，他依然选择以 AI 为核心的初企，他解释「只要有资金，任何人都能从一个小点子进行 AI 领域创业」。同时，比尔盖茨也鼓励年轻人，在 AI 领域勇敢一点，其还调侃表示，「因为你们能以比我更新鲜的视角应对这个问题」。(@ APPSO)