ChatGPT 向更多用户推出高级语音模式：支持 50 种语言；字节发布两款新视频生成大模型丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、OpenAI 发布类人 ChatGPT 语音助手：支持中文在内的 50 种语言

今天凌晨，OpenAI 宣布向更多 ChatGPT 付费用户推出「高级语音模式」（Advanced Voice Mode，简称 AVM ）。

目前，OpenAI 提供了两种类型的语音对话 —— 标准语音和高级语音：

1）高级语音：目前正在向 Plus 和 Team 用户逐步推出。该功能使用 GPT-4o 的原生音频技术，能够实现更加自然的实时对话，并捕捉非语言线索（例如语速），还能作出情感化的回应。

Plus 和 Team 用户每天对高级语音的使用量有限制，包括语音输入和输出。企业版和教育版的用户将在下周开始获得该功能。

2）标准语音：适用于所有登录 ChatGPT 的用户，并可以通过 iOS、macOS 和 Android 应用使用。

标准语音通过多种模型生成响应，包括将语音转录为文本，再传递给模型进行回答。

尽管标准语音不像高级语音那样具备原生多模式功能，但它仍然使用 GPT-4o 和 GPT-4o mini。需要注意的是，标准语音中的每一次提示都会计入消息限制。

AVM 将在一周内逐步向所有 Plus 和 Team 用户推送。在等待期间，OpenAI 还增加了「自定义指令」、记忆功能、五种新语音和改进的口音支持，还可以用超过 50 种语言说「抱歉，我迟到了」，同时支持中文模式。

此外，ChatGPT 还新增了五种可供用户体验的语音：Arbor、Maple、Sol、 Spruce 和 Vale，加上之前的 Breeze、Juniper、Cove 和 Ember，ChatGPT 语音总数达到了九种，几乎赶上了谷歌 Gemini Live 的数量。

OpenAI 表示，自从 AVM 的有限 alpha 测试发布以来，已经进行了多项改进。据称 ChatGPT 的语音功能现在对口音的理解能力更强，且对话更加顺畅和迅速。

OpenAI 还将 ChatGPT 部分定制功能扩展到了 AVM，包括「自定义指令」，允许用户个性化 ChatGPT 的响应方式，以及「记忆功能」，让 ChatGPT 能够记住之前的对话以供以后参考。（@有新 Newin）

2、字节版 Sora 终于来了，一口气发布两款视频模型

字节跳动旗下的火山引擎在深圳办了一场 AI 创新巡展，一口气发布了两款视频生成大模型，正式宣告进军 AI 视频生成。这两款模型，一个名为 PixelDance，一个名为 Seaweed，不仅在审美、动幅上提升了一个 level，还破解了多主体互动和一致性难题。

豆包视频生成模型能够实现复杂的多主体互动。这意味着多个视频中的人物可以在不同镜头中自然地完成复杂的互动动作，人物的样貌、服装和细节在不同镜头的切换下仍然保持一致，接近真实拍摄的效果。

这种一致性得益于 DiT 架构（融合计算单元）的应用，使得视频生成在动态和运镜之间可以灵活切换，支持多种镜头语言，如变焦、环绕、平摇、缩放、目标跟随等。（@小互 AI）

3、OpenAI 发布 MMMLU 数据集：更广、更深评估 AI 模型，支持简体中文

OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解（MMMLU）数据集，涵盖各种主题、学科领域和语言，旨在评估大型语言模型（LLMs）在各种任务中的性能，包括不同研究领域中的常识、推理、解决问题和理解能力。
MMMLU 数据集是涵盖范围广、考验深层认知的多语言数据集，支持简体中文等多样语言，可以进行跨语言的综合评估，弥补了 NLP 研究中代表性不足的语言模型的评估问题。（@极客日报）

4、腾讯 Robotics X 实验室人居环境机器人「5 号」正式亮相

腾讯 Robotics X 实验室今日在官方公众号发文，宣布该实验室最新研发成果人居环境机器人「5 号」（The Five，小五）正式亮相。

官方表示，小五作为腾讯 Robotics X 实验室最新一代机器人，集合了此前多代机器人研发的核心能力，融合了四腿轮足复合设计、大面积触觉皮肤、多指灵巧手以及安全人机物理交互等多项自研技术。( @APPSO)

5、VideoLingo——一键全自动视频翻译工具

VideoLingo 是一站式视频翻译本地化配音工具，旨在生成 Netflix 级别的高质量字幕，告别生硬机翻和多行字幕，并提供高质量的配音。通过直观的 Streamlit 网页界面，只需点击两下即可完成从视频链接到内嵌高质量双语字幕甚至带上配音的整个流程，轻松创建 Netflix 品质的本地化视频。（@机器之心 SOTA 模型）

02有态度的观点

1、谷歌 CEO 皮查伊：AI 不会取代程序员，反而会让更多人成为程序员

近年来，人工智能（AI）的飞速发展引发了广泛讨论，人们担心 AI 是否会取代人类的工作。艺术家和程序员尤其担心，因为 AI 似乎能够胜任这两项工作。然而，谷歌及其母公司 Alphabet 的 CEO 桑达尔・皮查伊（Sundar Pichai）认为，AI 不会取代程序员，相反，其将帮助更多人成为程序员。

皮查伊在卡内基梅隆大学的演讲中谈到了 AI 对编程工作的影响，他表示，AI 最有可能帮助人们，而不是取代他们。它可以帮助现有程序员专注于更高级的任务，而不是重复解决同样的问题。此外，皮查伊认为 AI 将降低编程的门槛，使更多人能够通过自然语言的方式进行编程，就像使用一种创意工具一样。

皮查伊还将 AI 能够在日常活动中为众多专业人士提供帮助的能力描述为看待人工智能的「正确视角」，他还称「人工智能」这个词不太恰当，容易让人产生比较的想法，其实不必如此。他认为一个更好的术语应该是「赋能智能」，并且他「打赌未来会有更多的人进行编程」。（@IT 之家）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

ChatGPT 向更多用户推出高级语音模式：支持 50 种语言；字节发布两款新视频生成大模型丨 RTE 开发者日报

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略