Amazon 最新语音模型 Nova Sonic：比 4o 便宜 80%，智能停顿和打断；a16z 发布 AI 数字人报告丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、英伟达官宣开源「超大杯」Llama Nemotron 推理模型

英伟达官宣开源「超大杯」Llama Nemotron 推理模型，共有 253B 参数，基于 Llama-3.1-405B 微调而来。

在多项基准测试中，Llama Nemotron 一举击败了两款 Llama 4 模型。而且仅用一半的参数，性能直逼 DeepSeek R1。

尤其是，在复杂数学推理 AIME（2024/2025）、科学推理 GPQA Diamond、编码 LiveCodeBnech 中，新模型取得 SOTA。

相比 DeepSeek R1 671B，它的推理吞吐量提升了 4 倍。

Llama-3.1-Nemotron-Ultra-253B-v1 经过后期训练，专注于推理、人类聊天偏好和任务，如 RAG（检索增强生成）和工具调用。

它能支持 128Ktoken 的上下文长度，且能够在单个 8xH100 芯片节点上进行推理。

这个模型之所以能达到如此强的推理性能，是因为在模型精度和效率之间取得了良好平衡，让效率（吞吐量）直接转化为成本节省。

通过采用一种新颖的神经架构搜索（NAS）方法，研究者大大减少了模型的内存占用，从而支持更大的工作负载，并减少了在数据中心环境中运行模型所需的 GPU 数量。( @APPSO)

2、通义千问 3.0 倒计时，通过新加坡节点扩展，阿里巴巴的 AI 全球化浮出水面

（图片来源：阿里巴巴）

阿里巴巴的云业务部门正升级其海外可用的人工智能工具套件，以吸引更多全球客户。

阿里云正通过其新加坡可用区扩展平台即服务选项，并强化国际产品线，推出包括通义千问-Max 及类似 DeepSeek 的 QwQ-Plus 推理模型等，最新自研大语言模型。

此举显示阿里正加大力度吸引国内外 AI 用户和开发者。

据彭博社报道，阿里最快将于本月发布旗舰模型通义千问 3 的升级版。这家杭州企业还推出了新版夸克 AI 助手，整合了聊天机器人、深度思考与任务执行等功能。

除了吸引 AI 开发者在其平台上构建应用的云服务外，该公司周二还发布了一套面向终端用户的软件即服务（SaaS）新产品。

其中包括用于解析各类文档的工具 AI Doc，以及利用生成式 AI 进行内容创作的智能工作室 Smart Studio。

(@Z Potentials)

3、亚马逊重磅推出全新语音模型 Amazon Nova Sonic

亚马逊正式宣布推出 Amazon Nova Sonic，这是一款全新的基础模型，能够将语音理解和语音生成功能集成至单一模型中，从而在 AI 应用中实现更接近人类对话的语音交流。

构建支持语音功能的应用程序的传统方法涉及对多个模型进行复杂编排。 Amazon Nova Sonic 采用了一种全新方法来解决这些挑战。 它并未使用多个不同模型，而是将理解能力和生成能力集成到单一模型中。这种集成使得该模型能够根据语气、风格等语音语境以及口语输入，对生成的语音回复进行调整，从而实现更自然的对话。Amazon Nova Sonic 甚至能够理解人类对话中的细微差别， 包括说话者自然的停顿和犹豫，会等待合适的时机才开口说话，并且能够巧妙应对被插话打断的情况。

基于 Amazon Nova Sonic 构建的旅行领域 AI Agent 示例

在这段对话中，一位客户就夏威夷之旅与虚拟旅行助手进行交流。当客户的语气从兴奋转为对旅行费用的担忧时，AI 在调取相关价格信息的同时，语气变得更加能让人安心宽慰。

它还能为用户语音生成文字记录，使开发者能够利用这些文字调用特定工具和 API，来构建具备语音功能的 AI Agent，正如这一旅行 AI Agent 示例可以通过检索最新航班信息来预订机票。这些功能再加上其极快的推理速度，使得由 Amazon Nova Sonic 驱动的语音应用程序更加自然、实用。

基于 Amazon Nova Sonic 构建的企业级 AI 助手示例

在此示例中，一个仪表盘式 AI 助手展示了企业客户如何从 Amazon Nova Sonic 基于公司数据生成回复的能力中获益。该助手调取报告，并以自然、对话式的语调分享准确数据，同时还会主动提出相关的后续跟进问题。这种流畅的对话能够实现多轮交流，无需说话者明确设定语境。

Nova Sonic 通过 Bedrock 提供，Bedrock 是亚马逊用于构建企业人工智能应用的开发者平台，采用新的双向流媒体 API。在一份新闻稿中，亚马逊称 Nova Sonic 是市场上「成本效益最高」的人工智能语音模型，价格约比 OpenAI 的 GPT-4o 便宜 80%。（@亚马逊云科技&Techcrunch）

4、a16z 推出 AI 数字人报告，Agora、ElevenLabs、字节跳动的 OmniHuman 等被列为核心要素技术能力

a16z 在《AI 数字人跨越「恐怖谷」》（AI Avatars Escape the Uncanny Valley）一文中提到了创建 AI 数字人的要素，Agora、ElevenLabs、字节跳动的 OmniHuman 等被列为核心要素技术能力。

创建一个可信的 AI 数字人是一项挑战，有关逼真度的每个要素都会带来各自的技术障碍。这不仅要避免出现难以想象的障碍，还要解决动画、语音合成和实时渲染方面的基本问题。以下是对所需技术的细分，为何如此难以实现，以及我们在哪些方面取得了进展：

面部： 无论你是在克隆一个人还是在创建一个新角色，你都需要一张在不同帧之间保持一致，并且在说话时动作逼真的面部。上下文感知的表现力仍然是一个挑战（例如，一个数字人在说「我累了」时打哈欠）。
声音： 声音需要听起来真实并与角色相匹配；少女的脸不应该有老妇的声音。我们遇到的大多数 AI 数字人公司都使用 ElevenLabs ，它拥有一个庞大的语音库，并允许用户克隆自己的声音。
唇部同步： 要获得高质量的唇部同步非常困难。许多公司，如 Sync 都致力于解决这一问题。其他模型，如 MoCha（来自 Meta）和 OmniHuman 是在更大的数据集上进行训练，并使用各种技术对伴随音频的人脸生成进行强条件限制。在更大的数据集上进行训练，但找到了根据音频强烈调节人脸框架生成的方法。
身体： 数字人不能只是一个漂浮的头部！较新的模型可使数字人拥有可移动的完整躯体，但在扩展躯体和向用户交付躯体方面，我们仍处于早期阶段。
背景： 数字人并非存在于真空中。数字人周围环境的照明、深度和交互需要与场景相匹配。理想情况下，数字人甚至能够触摸和接触环境中的事物，例如拿起产品。

如果你想让你的数字人参与实时对话，比如加入 Zoom 会议，你还需要添加一些其他东西：

大脑： 数字人需要能够「思考」。目前支持对话的产品通常会让你上传或连接到知识库。未来，更复杂的版本有望包含更多记忆和个性。数字人应该能够记住过去与你的对话，并拥有自己的「天赋」。
流媒体： 要以最小的延迟实时传输所有这些内容并不容易。 Agora 等产品正在这方面取得进展、但要使所有这些模型都能正常工作，同时最大限度地减少延迟是很困难的。我们已经看到一些产品在这方面做得很好，例如 Tolan ，这是一款拥有声音和面孔的 AI 外星伴侣，但仍有很多工作要做。(@a16z)

RTE 开发者社区正在翻译完整报告，欢迎关注公众号获取最新消息。

02.有亮点的产品

1、谷歌 Gemini Live 推出屏幕共享和摄像头功能

谷歌正在推出 Gemini Live 的屏幕共享和摄像头功能。所有 Android 上的 Gemini 高级用户均可使用。(@AshutoshShrivastava@X)

2、华为鸿蒙智行即将发布智能眼镜产品

4 月 9 日消息，今天鸿蒙智行的官微发布了新品发布会的预告信息，从海报披露的日程来看，鸿蒙智行新品发布会将于 4 月 16 日 14 时举行，当日 14 时发布鸿蒙智家及智能眼镜新品「抢鲜看」，14 时 30 分将会发布鸿蒙智行新品，届时也会有线上直播。

（图片来源：鸿蒙智行）

鸿蒙智家涵盖了华为自研的智慧屏、音箱、路由、门锁等核心设备，并融入了丰富的鸿蒙生态产品。目前暂不清楚华为即将推出的这款智能眼镜是音频智能眼镜还是拍摄类的 AI 智能眼镜。

该预告海报也引发了业内人士的诸多猜想，有业内人士称，拍摄类的 AI 智能眼镜的可能性更大。发布会为鸿蒙智家及智能眼镜新品「抢鲜看」，强调的是通过智能眼镜实现和华为智能家居产品的打通，作为智能家庭控制的新中心。

在海报里提及，说明该新品有一定的分量。但因为目前智能眼镜产品还不适合完全发布，所以为「抢鲜看」，此次发布会更突出的应该是眼镜和智能家居产品的互通互联。

另外智能眼镜也很适合和鸿蒙智行形成互联互通，给用户带来新的驾驶体验。小米即将推出的 AI 智能眼镜墨镜款就是瞄准了小米智能汽车的用户。(@XR Vision Pro)

3、创维 XR 发布首款全场景 AI 智能眼镜

4 月 7 日，创维 XR 正式发布首款全场景 AI 智能眼镜，以革命性的轻量化设计、强大的拍摄、AI 交互能力，且实现全天候续航表现，彻底颠覆传统智能眼镜的体验边界。

这款产品不仅融合了高清拍摄、立体声耳机、实时翻译、AI 助手等核心功能，更凭借 34.7 克极致轻盈机身和时尚外观，快充 30 分钟实现 24 小时续航，让前沿科技真正融入日常生活，成为未来智能穿戴领域的典范之作。

（图片来源：网络）

智能眼镜的续航一直是业界难题，而创维 AI 眼镜突破性地解决了这一痛点，带来前所未有的续航体验：日常使用续航超过 24 小时，满足全天候需求；30 分钟快充即可充满 100%，大幅缩短充电等待时间；深度待机状态下，续航更可长达 10 天。在录像场景下，创维 AI 眼镜的表现尤为出色，支持连续录制 1 小时以上，远超同类产品。这一革命性的续航表现，让用户彻底告别电量焦虑，确保 AI 智能体验始终在线，随时响应。

此外，通过先进的自然语言处理与情境感知技术，创维 AI 眼镜可在用户保持自然交互的同时，实时提供导航指引、多语言翻译、消息提醒等功能服务，实现虚实信息的无感衔接。（@新闻晨报）

03.有态度的观点

1、纽约大学教授：全球 AI 进步已停滞

近日，纽约大学心理学和神经科学教授 Gary Marcus 发布博文，其分享了自己对于目前 AI 的各类看法。Marcus 开篇便提到「Scaling 已经结束」。他举了近期十分火热的一个例子 —— Meta 新推出的 Llama 4 模型，由此表示，尽管 Meta 用了大量参数以及性能去训练模型，但依然没办法让「非推理」模型比规模更小的「推理」模型效果好，而这也证实了 Marcus 在三年前提出的《Deep Learning is Hitting a Wall（深度学习正在撞南墙）》。对于生成式 AI 的经济发展，Marcus 也表示失望：生成式 AI 正面临财务困境，而泡沫也随时破裂。Marcus 提到，英伟达在 2025 年已经下跌三分之一，而在模型的研发上，市面上只会出现越来越多类似的模型，因此性能和模型规模，将不会成为高利润的关键。Marcus 还提到了一件十分令人啼笑皆非的事情：近日美国宣布的关税计划中，其影响到的地区竟然包含部分只有企鹅生活的偏远岛屿。对此 Marcus 也表示，这些计划可能就是美国政府过度依赖 AI 模型生成的后果。最后，Marcus 还总结表示，LLMs（大语言模型）不是未来之路，并且将会有更好的解决方案在未来等待着大家。
(@APPSO)