开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01有话题的技术
1、Spatial Speech Translation 空间语音翻译:保持环境中说话人方向和声音特征
空间语音翻译是一种新颖的听觉设备概念,能够翻译佩戴者环境中的说话者,同时在双耳输出中保持每个说话者的方向和独特的声音特征。
为实现这一目标,团队采用了盲源分离、定位、实时富表达翻译和双耳渲染技术,以在翻译音频中保留了说话者的方向信息,同时在 Apple M2 芯片上实现了实时推理能力。开发团队使用原型双耳耳机进行的概念验证评估表明,即使在环境中存在其他说话者的强烈干扰,该产品在语言翻译时也能达到最高 22.01 的 BLEU 分数。用户研究进一步证实了该系统在此前未接触过的真实混响环境中有效渲染空间翻译语音的能力。
「空间语音翻译」是一种智能听觉系统,能够翻译佩戴者听觉空间中的说话者声音,同时在双耳输出中保留每位说话者的方向感和独特声音特征。(A)当两位说话者交谈时,这款可穿戴设备能实时翻译双方语音,并保持其空间位置和声学特性。(B)在嘈杂环境中,该听觉设备运用双耳声学线索实现定向翻译,只翻译特定方向的说话者(如佩戴者视线所指方向),同时过滤环境中其他说话者的声音。(C)这款降噪耳机能捕获双耳声音输入,处理音频信号,并实时播放经翻译的立体声语音。
链接:
https://babelfish.cs.washington.edu/ (@Spatial Speech Translation)
2、Glint-MVT:格灵深瞳团队运用间隔 Softmax,显著降低数据噪声影响,提升泛化能力
Glint-MVT 中的 MVT,全称叫做 Margin-based pretrained Vision Transformer,是团队自研、设计的视觉预训练 Transformer 模型。
它的一大亮点,就是创新性地把原先用于人脸识别的间隔 Softmax(Margin Softmax)损失函数引入了进来,再通过构造百万级虚拟类别训练模型,显著降低数据噪声影响,提升泛化能力。
并且从实测和性能效果上来看,在各种专业下游任务中的表现,要比 CLIP 等其他 ViT 模型的结果更好。
在 Glint-MVT 这个底座之上,团队针对引用表达分割(RES,Referring Expression Segmentation)和图像理解,还分别训练出了多模态模型:Glint-RefSeg 模型和 MVT-VLM 模型。
在分割这件事上,除了图像之外,Glint-RefSeg 还可以用在视频上。而且除了传统场景之外,像具身智能这样的 fashion 场景,Glint-MVT 也可以应用。(@量子位)
3、微软 Azure 发布 Voice Live API 预览版,可选基础模型,集成降噪、轮次检测和数字人
5 月 21 日,微软宣布 Azure AI Speech 推出一系列全新功能,包括全新 Voice Live API(公开预览版),该 API 能够简化语音智能体的开发,帮助打造流畅自然的语音到语音对话体验。
为了确保卓越的对话质量,Voice Live API 采用了先进的音频处理和轮次转换检测技术。此外,它还提供灵活的基础型选择,并支持 TTS 语音和 TTS 虚拟形象的个性化定制。
微软 Voice Live API 为构建语音智能体提供了一个统一、低延迟的 API。该 API 从今天起进入公开预览阶段,支持使用用户选择的基础模型实现低延迟、可扩展的语音到语音交互。
全新 Voice Live API 为用户带来了由所选生成式 AI 模型支持的流式交互体验,通过一个低延迟的单一 API 实现无缝的语音输入和输出功能。这一公开预览版推出了一系列提升对话体验的强大功能。API 支持超过 150 种语言环境的语音输入和输出,并提供超过 600 种逼真语音选择,其中包括 30 多种专为对话场景优化的超自然神经高清语音。用户可根据需求选择内置的基础模型,如 GPT-4o Realtime、GPT-4o Mini Realtime、GPT-4o、GPT-4o Mini 以及 Phi。此外,定制化选项允许用户对语音模型进行微调,以提升准确性和品牌一致性,同时可集成定制语音和虚拟形象等功能,打造个性化体验。
此外,该 API 提供了先进的会话增强功能,包括噪音抑制、回声消除以及强大的打断检测能力,确保交互过程流畅自然。为进一步提升视觉参与度,API 支持通过轻松配置的虚拟数字人,为语音智能体赋予独特的身份。与 Azure AI Agent Service 和 Semantic Kernel 的集成非常简便,开发人员可以轻松地将语音输入和输出功能融入使用这些工具构建的智能体中,同时确保用户体验的一致性和吸引力。
Blog 链接:
https://techcommunity.microsoft.com/blog/azure-ai-services-bl...
(@Microsoft Community)
02有亮点的产品
1、Soopra AI 宣布完成了 100 万美元的种子前融资,后续计划推出能够执行高级功能的 AI 智能体平台
Soopra AI 是一家提供按需人工智能专家角色以用于教育和洞察的公司,今日宣布完成了 100 万美元的种子前融资,后续计划推出能够执行高级功能的 AI 智能体平台。
Soopra AI 是一家专注于提供按需人工智能专家角色的公司,旨在服务于教育和洞察领域,该公司宣布完成了 100 万美元的种子前融资,并计划后续推出一个能够执行高级功能的 AI 智能体平台。
公司表示,借助这笔资金,他们正在推出 Soopra 2.0(也称为 ASK),这是一个专为 AI 智能体打造的社交网络。智能体 AI 的能力已超越传统聊天机器人的简单问答功能,它们能够独立行动并在无需人工持续监督的情况下自主做出决策。同时这些 AI 智能体可被编程使用各种工具,包括网络搜索和外部数据源(如日历、其他 AI 模型或云服务等),以高效完成指定任务。
Soopra 的平台允许教育者根据自己的讲座系列构建个性化课程,从而为学生提供全天候的教学辅助。这些聊天机器人因具有互动性并采用教育者的写作风格和教学指导,能够相当贴近教育者在现实生活中的表达方式。虽然目前它并非完美,只是一种模拟,但在教授不在场时,它仍能提供一定程度的有效指导。( @siliconANGLE)
2、京东:AI 数字人带货水平超 80% 真人主播,支持精品音色微调、精准声唇对齐、丰富情感韵律及自然拟人化大姿态动作
日前,京东集团举行「京东云城市大会」,会上,京东云提到:
在直播场景,京东数字人已经在 9000+ 商家开播,高保真低成本的人体建模技术、多模态自然化行为生成等数字人技术栈更新,高商业可用数字人正式上线服务,京东数字人面向新客开放免费版,包括五大时尚感、个性化数字人免费用,180 分钟合成时长,AI 直播助手新功能等。
据澎湃新闻获悉,京东数字人率先成为大规模应用的突破口:直播成本仅为真人的 1/10,带货水平却超越 80% 真人主播。
具体来看,此次京东推出高商业可用数字人,支持精品音色微调、精准声唇对齐、丰富情感韵律及自然拟人化大姿态动作,适配场景的带货话术进一步提升表现力。
在今年京东 618,京点点 AIGC 内容生成平台将开放商品图生成功能全免费,还能提供小红书种草文案的批量生成、商品图智能抠图等功能。京东 AIGC 视频混剪平台也提供 3 个月免费试用,首次开放文生视频、图生视频功能,并免费提供口播/种草/投放/品宣等 50 多个特色模板,可帮助商家快速生成 AI 视频,覆盖商详、投放、品宣、种草等场景的视频制作需求。 (@APPSO、@京东黑板报)
3、Zapia 获得额外 725 万美元种子轮融资,支持转录语音笔记等 20 多项功能
Zapia,一家总部位于乌拉圭蒙得维的亚和美国加利福尼亚州门洛帕克的基于 WhatsApp 的拉丁美洲 AI 智能体,获得了 725 万美元的种子轮追加融资。本轮融资使种子轮总金额超过 1200 万美元,由 Prosus Ventures 领投,Endeavor Catalyst、Anthos Capital、Factory HQ 和 SnR 参与。
Zapia 是一款基于 WhatsApp 的 AI 智能体,拥有超过 350 万用户。用户使用它来设置 WhatsApp 提醒、安排 WhatsApp 消息、转录语音笔记、解读图片和 PDF、在线搜索产品以及从互联网获取最新信息等 20 多项功能。该公司现推出了 iOS 和 Android 的移动端应用。(@FINSMES)
4、昆仑万维天工超级智能体:支持文档到音视频的全能 AI 创作
5 月 22 日,昆仑万维面向全球市场,同步发布天工超级智能体(Skywork Super Agents)。这款产品采用了 AI agent 架构和 deep research 技术,能够一站式生成文档、PPT、表格(excel)、网页、播客和音视频多模态内容。它具有强大的 deep research 能力,在 GAIA 榜单上排名全球第一,超过了 OpenAI Deep Research 和 Manus。而且无需邀请码,海内外用户即可直接注册使用。
官方还提供了国际版可以实际体验对比效果。
值得一提的是,其深度研究 Agent 已在 GitHub 上开源。
天工国内版官网:
天工国际版官网:
SkyworkAI GitHub 开源项目:
https://github.com/SkyworkAI/DeepResearchAgent (@三花 AI、@昆仑万维集团)
03有态度的观点
1、微软 CPO:Agent 本质还是一种工具
日前,微软首席产品官 Aparna Chennapragada 接受《Lenny’s Podcast》的访谈,其在节目中提到,Agent 本质上还是一种工具,但未来 Agent 将会拥有更高的目标实现能力。
对于 Aparna 来讲,她认为自己更倾向以「产品实际」的角度去看待、思考 Agent,因此她觉得 Agent 本质上还是一种工具,也是一种「能够自主执行任务的独立软件进程」,因为 Agent 它无需人类的指导,它会自主分析如何去帮助用户进行解决问题。
Aparna 表示,大家现在都处在了一个「人机共驾」的时代——人类在主驾,而 AI 在副驾协助。但 Aparna 预测,随着 AI 推理能力的更新迭代,人类能够更放心地将任务交给 Agent。那时,人们只需要一声令下,Agent 就能自己搞定。
「如何才算一款优秀的 Agent 产品?」Aparna 给出了答案:「执行上的自主性」「能解决问题的复杂性」「拥有自然的交互方式」。Aparna 表示,上述三点至少是构建一个优秀 Agent 产品的设计原则。
🔗 原视频:
https://youtu.be/HbbfXAWcuUo?si=73c5Y7FoTX5xokiK (@APPSO)
2、阿里云 CEO:为全球化建设新一代 AI 基础设施
5 月 22 日,在 2025 阿里云中企出海大会上,阿里巴巴集团 CEO、阿里云智能集团董事长兼 CEO 吴泳铭表示:
阿里云将以战略级投入,加速打造全球云计算一张网,加速 AI 产品国际化,增强出海咨询、技术和服务团队建设,为中国企业出海铺路搭桥。
据悉,阿里云将在三个方面加大投入,全力支持中国企业出海:
加速打造全球云计算一张网:未来三年,阿里巴巴将投入超过 3800 亿人民币,用于建设云和 AI 硬件基础设施,总额超过去十年总和。阿里云将加速打造覆盖中国、日韩等地的「全球云计算一张网」,同时将保持国内外基础设施统一技术架构、统一服务平台。
加速模型出海,加速 AI 产品国际化:阿里云将加速部署通义、百炼、PAI、大数据等 AI 应用所需产品。在基础设施层,阿里云灵骏将在海外多个区域开服;在模型服务层,阿里云百炼国际站 Model Studio 新增多项能力,为出海中企提供更高效实惠的模型 API 服务。
打造海内外一体的最优服务体验:阿里云将增强对出海咨询、技术和服务团队的投入,为中企提供国内+海外 7×24 小时一体化的服务体验。
吴泳铭表示,走向全球是中国企业的发展必然。而在未来,中国企业将在全球市场拥有更大的影响力。(@APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。