头图

image.png
开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01有话题的技术

1、印度 Sarvam AI 发布了基于 Mistral Small 24B 的 Sarvam-M 模型,旨在优化模型关于印度语言的表现

印度 Sarvam AI 发布了基于 Mistral Small 24B 的 Sarvam-M 模型,旨在优化印度语言、数学和编程任务的表现。模型通过监督微调(SFT)和强化学习(RLVR)进行后训练和推理优化,涵盖了从数据选择到算法改进的多个环节。该模型从 Hugging Face 收集了 1150 万个提示,经过去重和质量评分,精选出 370 万高质量、多样化的提示,覆盖英语和 10 种印度语言(占印度人口 70% 以上)。

Sarvam-M 在多个基准测试中表现优异,尤其在印度语言、数学和编程任务上:

  • 印度语言:在 IndicGenBench (0.49)、MILU-IN (0.75) 等测试中领先,GSM-8K-IN-R 提升 86%;
  • 数学和编程:在 HumanEval (0.88)、MBPP (0.75)、LivecodeBench (0.44) 上表现突出,超越 Llama-4 Scout 和 Gemma 3 27B;
  • 通用知识:在 MMLU 略降 1%(0.87),但在印度语言相关测试(如 MMLU-IN 0.79)表现优于 Llama-3.3 70B;
  • Indic Vibe Check:在定制的对话基准测试中,Sarvam-M 平均得分 8.12,优于其他模型。

相关链接:https://www.sarvam.ai/ (@shao__meng@X)

2、腾讯开源 HunyuanPortrait:单图生成动态数字人头像

腾讯 HunyuanPortrait 是开源的数字人头像生成模型。仅需输入单张图片和视频模板,就能实现高度精准的面部表情与头部动作同步。

官方表示,运行环境建议至少配备 16GB 显存。

腾讯 HunyuanPortrait 模型主页: https://huggingface.co/tencent/HunyuanPortrait (@三花 AI、@Hugging Face)

3、阿里开源长文本深度思考模型 QwenLong-L1

阿里巴巴通义实验室近日宣布开源了其最新的长文本深度思考模型 QwenLong-L1,这一模型在处理超长文本推理方面取得了显著突破,并迅速登上 HuggingFace 今日热门论文第二名。

来自阿里巴巴通义实验室的团队首先形式化定义长上下文推理强化学习范式,并识别出其中的两个核心挑战:次优的训练效率与不稳定的优化过程。

针对这些问题,团队提出 QwenLong-L1 长上下文推理强化学习框架,通过渐进式上下文扩展策略逐步提升模型在长上下文推理任务上的表现,最终在多个长文档问答 benchmarks 上,QwenLong-L1-32B 表现卓越,不仅超越 OpenAI-o3-mini、Qwen3-235B-A22B 等旗舰模型,更与 Claude-3.7-Sonnet-Thinking 性能对标。(@机器之心、@云智瞳)

4、ElevenLabs 设计了全新的语音库,其中包含超过 5000 个专业配音

人工智能语音技术公司 ElevenLabs 宣布,其支付给音频样本演员的总金额已超过 500 万美元。为了庆祝这一里程碑,平台推出了一个完全重新设计的语音库,使用户更容易发现所有语言中的新颖和独特的声音。

ElevenLabs 语音库中现在有超过 5000 个专业配音可供选择,同时平台重新设计了布局,以帮助用户更快找到合适的声音。

ElevenLabs 还按使用场景和类型精心策划新增了精选合集,精选合集会定期更新以展示出色的新声音。如精选语言合集,该合集会展示每种语言中出色的声音。现在还支持筛选功能和配置个人合集功能。

链接:http://elevenlabs.io/app/voice-library (@elevenlabsio@X)

5、我国首个软件开发 AI 智能体标准发布

日前,中国信息通信研究院与中国工商银行、北京兴云数科技术有限公司、北京百度网讯科技有限公司牵头,联合农业银行、腾讯、阿里、华为等二十余家头部企业共同编制《面向软件工程智能体的技术和应用要求 第 1 部分:开发智能体》(标准编号 AIIA/T 0219-2025),现正式发布。

据悉,本次软件开发 AI 智能体标准的发布,旨在规范 Agent 的能力建设,加速其在软件工程领域的落地,推动智能化软件工程(AI4SE)行业健康有序发展。

本标准围绕技术能力、服务能力两大维度,提出了开发智能体的能力建设和应用要求:

技术能力:涵盖感知能力、记忆能力、规划能力、执行能力等四个方面;

服务能力:包括编码智能体、单元测试智能体、检查修复智能体、智能问答智能体及开发全流程智能体,对开发智能体提出了全栈的技术能力要求。

本次标准实施,一方面,可为企业开发智能体提供能力建设指导,助力产品快速迭代;另一方面,可为企业提供技术选型参考,推动开发智能体的落地应用。( @APPSO)

02有亮点的产品

1、VideoTutor:2 分钟搞定 K12 课程,支持 100+ 种 AI 语音,覆盖 40+ 语言

VideoTutor 推出了一款创新的 AI 工具,专为 K12 教育设计。用户只需输入问题或主题,AI 便能自动生成 2-5 分钟的短视频课程,涵盖专业旁白、动态视觉效果和结构化讲解。这一工具支持多种科目,并提供个性化定制选项,使学生、教师和家长能够快速创建学习内容。

根据 VideoTutor 官网,该工具利用 AI 驱动的视频生成技术,结合自然语言处理(NLP)和动态可视化,专注于 K12 数学、科学、语言等学科。

官方链接:https://videotutor.io/(@创意 ai 实验室、@果比 AI)

2、豆包 AI 视频通话功能

豆包正式上线了视频通话功能,能让它「边看边聊」,让 AI 能够在视频中实时识别并分析内容,成为用户的智能伴侣。通过这一功能,用户不仅可以与 AI 互动,还可以在观看节目时获得及时的评论和分析。例如,豆包在观看《甄嬛传》时,能够辨别角色和情节,并进行深入讨论。

打开豆包 app 对话框的 + 号,选择「打电话」,点击右侧「视频通话」就能体验。同时还接入了联网搜索的功能和字幕功能。

此外,豆包的视觉理解模型不仅能够识别物体,还具备强大的逻辑推理能力,可以帮助用户解决学术问题和烹饪难题。这一创新的交互方式,提升了 AI 在日常生活中的实用性和趣味性。(@量子位)

3、Anthropic 推出 Claude 语音版,可通过对话总结日程、搜索文档、撰写邮件

Anthropic 公司近日开始在其 Claude 移动应用中测试上线「语音模式」。根据 Anthropic 官方在 X 平台(原 Twitter)发布的消息及其官网更新的文档,这项功能当前处于测试阶段,几周内将逐步向用户开放,初期仅支持英语。用户现在可以直接通过语音与 Claude 进行英文对话,并完成总结日程、搜索文档、撰写邮件等任务。

Anthropic 的语音模式不仅支持语音对话,还可在对话中讨论图片和文档,用户可在五种不同声音中进行选择,并能随时在文字和语音之间切换。对话结束后,系统会提供完整的对话转录和摘要。

不过,该功能仍存在一些限制。语音对话同样计入用户的正常使用配额。Anthropic 表示,大多数免费用户每天大约可以使用 20 到 30 次语音对话。此外,仅付费用户可使用 Google Workspace 连接功能,使 Claude 能访问 Google 日历和 Gmail 邮件;而 Google 文档的集成功能仅限于 Claude 企业版用户。

另外一个更新是包括免费计划在内的所有用户现在都可以使用网络搜索功能了。

Claude 语音模式官方公告:
https://x.com/AnthropicAI/status/1927463559836877214
(@Techcrunch、@银杏河、@AnthropicAI@X、@三花 AI)

4、扣子空间播客能力全新升级,一键制作精彩播客

扣子空间播客能力全新升级,能够通过输入文章链接、图片、表格、文章、PPT、PDF 等,扣子空间根据文章内容总结、专项脚本,一键生成科技文章、会议纪要、产品介绍、科研论文、团建方案、项目讲解等播客。

  • 更生动:扣子空间能够模拟真人专业播客的口语习惯,双人对谈,交叉附和,「捧哏」与「逗哏」配合默契,听觉效果高度拟人;
  • 更自然:扣子空间全面升级播客音色,不再是冰冷的机械音,而在拟人音色中加入丰富的情感波动和丝滑的语气转换,仿佛挚友对谈,声音更有温度;
  • 更懂播客:扣子空间输出的播客以漫谈开场,自然切入话题,懂得如何吸引听众注意;更懂得「留白艺术」,为精彩内容埋下伏笔,实现播客听众的长效留存。(@扣子 Coze)

03有态度的观点

1、Anthropic 核心成员:两年后,AI 将有能力自动化几乎全部白领工作

日前,Anthropic 核心技术成员 Sholto Douglas 接受了《Unsupervised Learning》的采访,他在采访中提到了「AI 在未来是如何为人类工作,又是如何与人类生存」等各种看法。

采访中最为惊人的就是 Douglas 对 AI 胜任人类工作的预测:2027 年 -2028 年,AI 模型将具备自动化几乎所有白领工作的能力。其进一步解释,这一进展并非科幻,而是基于当前模型在任务复杂度与持续行动能力上的飞速提升。

同时,Douglas 也谈及了 AI 胜任人类工作最大的一个环节——AI Agent。其认为,Agent 的核心障碍是「可靠性」。其表示,虽然目前模型并非百分百可靠,但所有数据、趋势都在证明,人类正在朝着「专家级」甚至是「超人类级别」的目标前进。

值得一提的是,Douglas 还在采访中提到了 AI 对 GDP 的影响。其预测,AI 对全球 GDP 的初步影响可能堪比「中国崛起」对世界经济的重塑影响,并且速度还将会更快。

采访视频:https://www.youtube.com/watch?v=W1aGV4K3A8Y (@APPSO)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
668 声望976 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。