Claude 语音版曝光，可通过对话搜索文档、撰写邮件；ElevenLabs 已支付音频样本演员超 500 万美元丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、印度 Sarvam AI 发布了基于 Mistral Small 24B 的 Sarvam-M 模型，旨在优化模型关于印度语言的表现

印度 Sarvam AI 发布了基于 Mistral Small 24B 的 Sarvam-M 模型，旨在优化印度语言、数学和编程任务的表现。模型通过监督微调（SFT）和强化学习（RLVR）进行后训练和推理优化，涵盖了从数据选择到算法改进的多个环节。该模型从 Hugging Face 收集了 1150 万个提示，经过去重和质量评分，精选出 370 万高质量、多样化的提示，覆盖英语和 10 种印度语言（占印度人口 70% 以上）。

Sarvam-M 在多个基准测试中表现优异，尤其在印度语言、数学和编程任务上：

印度语言：在 IndicGenBench （0.49）、MILU-IN （0.75）等测试中领先，GSM-8K-IN-R 提升 86%；
数学和编程：在 HumanEval （0.88）、MBPP （0.75）、LivecodeBench （0.44）上表现突出，超越 Llama-4 Scout 和 Gemma 3 27B；
通用知识：在 MMLU 略降 1%（0.87），但在印度语言相关测试（如 MMLU-IN 0.79）表现优于 Llama-3.3 70B；
Indic Vibe Check：在定制的对话基准测试中，Sarvam-M 平均得分 8.12，优于其他模型。

相关链接：https://www.sarvam.ai/ （@shao__meng@X）

2、腾讯开源 HunyuanPortrait：单图生成动态数字人头像

腾讯 HunyuanPortrait 是开源的数字人头像生成模型。仅需输入单张图片和视频模板，就能实现高度精准的面部表情与头部动作同步。

官方表示，运行环境建议至少配备 16GB 显存。

腾讯 HunyuanPortrait 模型主页： https://huggingface.co/tencent/HunyuanPortrait （@三花 AI、@Hugging Face）

3、阿里开源长文本深度思考模型 QwenLong-L1

阿里巴巴通义实验室近日宣布开源了其最新的长文本深度思考模型 QwenLong-L1，这一模型在处理超长文本推理方面取得了显著突破，并迅速登上 HuggingFace 今日热门论文第二名。

来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式，并识别出其中的两个核心挑战：次优的训练效率与不稳定的优化过程。

针对这些问题，团队提出 QwenLong-L1 长上下文推理强化学习框架，通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现，最终在多个长文档问答 benchmarks 上，QwenLong-L1-32B 表现卓越，不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型，更与 Claude-3.7-Sonnet-Thinking 性能对标。（@机器之心、@云智瞳）

4、ElevenLabs 设计了全新的语音库，其中包含超过 5000 个专业配音

人工智能语音技术公司 ElevenLabs 宣布，其支付给音频样本演员的总金额已超过 500 万美元。为了庆祝这一里程碑，平台推出了一个完全重新设计的语音库，使用户更容易发现所有语言中的新颖和独特的声音。

ElevenLabs 语音库中现在有超过 5000 个专业配音可供选择，同时平台重新设计了布局，以帮助用户更快找到合适的声音。

ElevenLabs 还按使用场景和类型精心策划新增了精选合集，精选合集会定期更新以展示出色的新声音。如精选语言合集，该合集会展示每种语言中出色的声音。现在还支持筛选功能和配置个人合集功能。

链接：http://elevenlabs.io/app/voice-library （@elevenlabsio@X）

5、我国首个软件开发 AI 智能体标准发布

日前，中国信息通信研究院与中国工商银行、北京兴云数科技术有限公司、北京百度网讯科技有限公司牵头，联合农业银行、腾讯、阿里、华为等二十余家头部企业共同编制《面向软件工程智能体的技术和应用要求第 1 部分：开发智能体》（标准编号 AIIA/T 0219-2025），现正式发布。

据悉，本次软件开发 AI 智能体标准的发布，旨在规范 Agent 的能力建设，加速其在软件工程领域的落地，推动智能化软件工程（AI4SE）行业健康有序发展。

本标准围绕技术能力、服务能力两大维度，提出了开发智能体的能力建设和应用要求：

技术能力：涵盖感知能力、记忆能力、规划能力、执行能力等四个方面；

服务能力：包括编码智能体、单元测试智能体、检查修复智能体、智能问答智能体及开发全流程智能体，对开发智能体提出了全栈的技术能力要求。

本次标准实施，一方面，可为企业开发智能体提供能力建设指导，助力产品快速迭代；另一方面，可为企业提供技术选型参考，推动开发智能体的落地应用。( @APPSO)

02有亮点的产品

1、VideoTutor：2 分钟搞定 K12 课程，支持 100+ 种 AI 语音，覆盖 40+ 语言

VideoTutor 推出了一款创新的 AI 工具，专为 K12 教育设计。用户只需输入问题或主题，AI 便能自动生成 2-5 分钟的短视频课程，涵盖专业旁白、动态视觉效果和结构化讲解。这一工具支持多种科目，并提供个性化定制选项，使学生、教师和家长能够快速创建学习内容。

根据 VideoTutor 官网，该工具利用 AI 驱动的视频生成技术，结合自然语言处理（NLP）和动态可视化，专注于 K12 数学、科学、语言等学科。

官方链接：https://videotutor.io/（@创意 ai 实验室、@果比 AI）

2、豆包 AI 视频通话功能

豆包正式上线了视频通话功能，能让它「边看边聊」，让 AI 能够在视频中实时识别并分析内容，成为用户的智能伴侣。通过这一功能，用户不仅可以与 AI 互动，还可以在观看节目时获得及时的评论和分析。例如，豆包在观看《甄嬛传》时，能够辨别角色和情节，并进行深入讨论。

打开豆包 app 对话框的＋号，选择「打电话」，点击右侧「视频通话」就能体验。同时还接入了联网搜索的功能和字幕功能。

此外，豆包的视觉理解模型不仅能够识别物体，还具备强大的逻辑推理能力，可以帮助用户解决学术问题和烹饪难题。这一创新的交互方式，提升了 AI 在日常生活中的实用性和趣味性。（@量子位）

3、Anthropic 推出 Claude 语音版，可通过对话总结日程、搜索文档、撰写邮件

Anthropic 公司近日开始在其 Claude 移动应用中测试上线「语音模式」。根据 Anthropic 官方在 X 平台（原 Twitter）发布的消息及其官网更新的文档，这项功能当前处于测试阶段，几周内将逐步向用户开放，初期仅支持英语。用户现在可以直接通过语音与 Claude 进行英文对话，并完成总结日程、搜索文档、撰写邮件等任务。

Anthropic 的语音模式不仅支持语音对话，还可在对话中讨论图片和文档，用户可在五种不同声音中进行选择，并能随时在文字和语音之间切换。对话结束后，系统会提供完整的对话转录和摘要。

不过，该功能仍存在一些限制。语音对话同样计入用户的正常使用配额。Anthropic 表示，大多数免费用户每天大约可以使用 20 到 30 次语音对话。此外，仅付费用户可使用 Google Workspace 连接功能，使 Claude 能访问 Google 日历和 Gmail 邮件；而 Google 文档的集成功能仅限于 Claude 企业版用户。

另外一个更新是包括免费计划在内的所有用户现在都可以使用网络搜索功能了。

Claude 语音模式官方公告：
https://x.com/AnthropicAI/status/1927463559836877214
（@Techcrunch、@银杏河、@AnthropicAI@X、@三花 AI）

4、扣子空间播客能力全新升级，一键制作精彩播客

扣子空间播客能力全新升级，能够通过输入文章链接、图片、表格、文章、PPT、PDF 等，扣子空间根据文章内容总结、专项脚本，一键生成科技文章、会议纪要、产品介绍、科研论文、团建方案、项目讲解等播客。

更生动：扣子空间能够模拟真人专业播客的口语习惯，双人对谈，交叉附和，「捧哏」与「逗哏」配合默契，听觉效果高度拟人；
更自然：扣子空间全面升级播客音色，不再是冰冷的机械音，而在拟人音色中加入丰富的情感波动和丝滑的语气转换，仿佛挚友对谈，声音更有温度；
更懂播客：扣子空间输出的播客以漫谈开场，自然切入话题，懂得如何吸引听众注意；更懂得「留白艺术」，为精彩内容埋下伏笔，实现播客听众的长效留存。（@扣子 Coze）