微软 Azure 发布 Voice Live API，自带音频处理可自选模型；空间语音翻译：保持环境中说话人方向和声音特征丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01有话题的技术

1、Spatial Speech Translation 空间语音翻译：保持环境中说话人方向和声音特征

空间语音翻译是一种新颖的听觉设备概念，能够翻译佩戴者环境中的说话者，同时在双耳输出中保持每个说话者的方向和独特的声音特征。

为实现这一目标，团队采用了盲源分离、定位、实时富表达翻译和双耳渲染技术，以在翻译音频中保留了说话者的方向信息，同时在 Apple M2 芯片上实现了实时推理能力。开发团队使用原型双耳耳机进行的概念验证评估表明，即使在环境中存在其他说话者的强烈干扰，该产品在语言翻译时也能达到最高 22.01 的 BLEU 分数。用户研究进一步证实了该系统在此前未接触过的真实混响环境中有效渲染空间翻译语音的能力。

「空间语音翻译」是一种智能听觉系统，能够翻译佩戴者听觉空间中的说话者声音，同时在双耳输出中保留每位说话者的方向感和独特声音特征。（A）当两位说话者交谈时，这款可穿戴设备能实时翻译双方语音，并保持其空间位置和声学特性。（B）在嘈杂环境中，该听觉设备运用双耳声学线索实现定向翻译，只翻译特定方向的说话者（如佩戴者视线所指方向），同时过滤环境中其他说话者的声音。（C）这款降噪耳机能捕获双耳声音输入，处理音频信号，并实时播放经翻译的立体声语音。

链接：

https://babelfish.cs.washington.edu/ （@Spatial Speech Translation）

2、Glint-MVT：格灵深瞳团队运用间隔 Softmax，显著降低数据噪声影响，提升泛化能力

Glint-MVT 中的 MVT，全称叫做 Margin-based pretrained Vision Transformer，是团队自研、设计的视觉预训练 Transformer 模型。

它的一大亮点，就是创新性地把原先用于人脸识别的间隔 Softmax（Margin Softmax）损失函数引入了进来，再通过构造百万级虚拟类别训练模型，显著降低数据噪声影响，提升泛化能力。

并且从实测和性能效果上来看，在各种专业下游任务中的表现，要比 CLIP 等其他 ViT 模型的结果更好。

在 Glint-MVT 这个底座之上，团队针对引用表达分割（RES，Referring Expression Segmentation）和图像理解，还分别训练出了多模态模型：Glint-RefSeg 模型和 MVT-VLM 模型。

在分割这件事上，除了图像之外，Glint-RefSeg 还可以用在视频上。而且除了传统场景之外，像具身智能这样的 fashion 场景，Glint-MVT 也可以应用。（@量子位）

3、微软 Azure 发布 Voice Live API 预览版，可选基础模型，集成降噪、轮次检测和数字人

5 月 21 日，微软宣布 Azure AI Speech 推出一系列全新功能，包括全新 Voice Live API（公开预览版），该 API 能够简化语音智能体的开发，帮助打造流畅自然的语音到语音对话体验。

为了确保卓越的对话质量，Voice Live API 采用了先进的音频处理和轮次转换检测技术。此外，它还提供灵活的基础型选择，并支持 TTS 语音和 TTS 虚拟形象的个性化定制。

微软 Voice Live API 为构建语音智能体提供了一个统一、低延迟的 API。该 API 从今天起进入公开预览阶段，支持使用用户选择的基础模型实现低延迟、可扩展的语音到语音交互。

全新 Voice Live API 为用户带来了由所选生成式 AI 模型支持的流式交互体验，通过一个低延迟的单一 API 实现无缝的语音输入和输出功能。这一公开预览版推出了一系列提升对话体验的强大功能。API 支持超过 150 种语言环境的语音输入和输出，并提供超过 600 种逼真语音选择，其中包括 30 多种专为对话场景优化的超自然神经高清语音。用户可根据需求选择内置的基础模型，如 GPT-4o Realtime、GPT-4o Mini Realtime、GPT-4o、GPT-4o Mini 以及 Phi。此外，定制化选项允许用户对语音模型进行微调，以提升准确性和品牌一致性，同时可集成定制语音和虚拟形象等功能，打造个性化体验。

此外，该 API 提供了先进的会话增强功能，包括噪音抑制、回声消除以及强大的打断检测能力，确保交互过程流畅自然。为进一步提升视觉参与度，API 支持通过轻松配置的虚拟数字人，为语音智能体赋予独特的身份。与 Azure AI Agent Service 和 Semantic Kernel 的集成非常简便，开发人员可以轻松地将语音输入和输出功能融入使用这些工具构建的智能体中，同时确保用户体验的一致性和吸引力。

Blog 链接：

https://techcommunity.microsoft.com/blog/azure-ai-services-bl...

(@Microsoft Community)

02有亮点的产品

1、Soopra AI 宣布完成了 100 万美元的种子前融资，后续计划推出能够执行高级功能的 AI 智能体平台

Soopra AI 是一家提供按需人工智能专家角色以用于教育和洞察的公司，今日宣布完成了 100 万美元的种子前融资，后续计划推出能够执行高级功能的 AI 智能体平台。

Soopra AI 是一家专注于提供按需人工智能专家角色的公司，旨在服务于教育和洞察领域，该公司宣布完成了 100 万美元的种子前融资，并计划后续推出一个能够执行高级功能的 AI 智能体平台。

公司表示，借助这笔资金，他们正在推出 Soopra 2.0（也称为 ASK），这是一个专为 AI 智能体打造的社交网络。智能体 AI 的能力已超越传统聊天机器人的简单问答功能，它们能够独立行动并在无需人工持续监督的情况下自主做出决策。同时这些 AI 智能体可被编程使用各种工具，包括网络搜索和外部数据源（如日历、其他 AI 模型或云服务等），以高效完成指定任务。

Soopra 的平台允许教育者根据自己的讲座系列构建个性化课程，从而为学生提供全天候的教学辅助。这些聊天机器人因具有互动性并采用教育者的写作风格和教学指导，能够相当贴近教育者在现实生活中的表达方式。虽然目前它并非完美，只是一种模拟，但在教授不在场时，它仍能提供一定程度的有效指导。( @siliconANGLE)

2、京东：AI 数字人带货水平超 80% 真人主播，支持精品音色微调、精准声唇对齐、丰富情感韵律及自然拟人化大姿态动作

日前，京东集团举行「京东云城市大会」，会上，京东云提到：

在直播场景，京东数字人已经在 9000+ 商家开播，高保真低成本的人体建模技术、多模态自然化行为生成等数字人技术栈更新，高商业可用数字人正式上线服务，京东数字人面向新客开放免费版，包括五大时尚感、个性化数字人免费用，180 分钟合成时长，AI 直播助手新功能等。

据澎湃新闻获悉，京东数字人率先成为大规模应用的突破口：直播成本仅为真人的 1/10，带货水平却超越 80% 真人主播。

具体来看，此次京东推出高商业可用数字人，支持精品音色微调、精准声唇对齐、丰富情感韵律及自然拟人化大姿态动作，适配场景的带货话术进一步提升表现力。

在今年京东 618，京点点 AIGC 内容生成平台将开放商品图生成功能全免费，还能提供小红书种草文案的批量生成、商品图智能抠图等功能。京东 AIGC 视频混剪平台也提供 3 个月免费试用，首次开放文生视频、图生视频功能，并免费提供口播/种草/投放/品宣等 50 多个特色模板，可帮助商家快速生成 AI 视频，覆盖商详、投放、品宣、种草等场景的视频制作需求。（@APPSO、@京东黑板报）

3、Zapia 获得额外 725 万美元种子轮融资，支持转录语音笔记等 20 多项功能

Zapia，一家总部位于乌拉圭蒙得维的亚和美国加利福尼亚州门洛帕克的基于 WhatsApp 的拉丁美洲 AI 智能体，获得了 725 万美元的种子轮追加融资。本轮融资使种子轮总金额超过 1200 万美元，由 Prosus Ventures 领投，Endeavor Catalyst、Anthos Capital、Factory HQ 和 SnR 参与。

Zapia 是一款基于 WhatsApp 的 AI 智能体，拥有超过 350 万用户。用户使用它来设置 WhatsApp 提醒、安排 WhatsApp 消息、转录语音笔记、解读图片和 PDF、在线搜索产品以及从互联网获取最新信息等 20 多项功能。该公司现推出了 iOS 和 Android 的移动端应用。(@FINSMES)

4、昆仑万维天工超级智能体：支持文档到音视频的全能 AI 创作

5 月 22 日，昆仑万维面向全球市场，同步发布天工超级智能体（Skywork Super Agents）。这款产品采用了 AI agent 架构和 deep research 技术，能够一站式生成文档、PPT、表格（excel）、网页、播客和音视频多模态内容。它具有强大的 deep research 能力，在 GAIA 榜单上排名全球第一，超过了 OpenAI Deep Research 和 Manus。而且无需邀请码，海内外用户即可直接注册使用。

官方还提供了国际版可以实际体验对比效果。

值得一提的是，其深度研究 Agent 已在 GitHub 上开源。

天工国内版官网：

https://www.tiangong.cn/

天工国际版官网：

https://skywork.ai

SkyworkAI GitHub 开源项目：

https://github.com/SkyworkAI/DeepResearchAgent （@三花 AI、@昆仑万维集团）