NVIDIA 推出智能体构建工具 Agentic AI Blueprints；VITA-1.5：实时多模态交互，1.5 秒延迟

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、NVIDIA 推出智能体构建工具 Agentic AI Blueprints，助力企业实现工作自动化

全新 NVIDIA AI Blueprints 旨在帮助各地企业构建 AI 智能体应用程序，更好实现工作自由化。

有了这些 blueprints，开发人员现在可以构建和部署自定义 AI 代理。这些人工智能代理就像「知识机器人」一样，可以推理、计划和采取行动，快速分析大量数据，从视频、PDF 和其他图像中总结和提取实时见解。

CrewAI、Daily、LangChain、LlamaIndex 和 Weights & Biases 是 AI 智能体编排和管理工具的供应商，它们与 NVIDIA 合作构建 blueprints，将 NVIDIA AI Enterprise 软件平台（包括 NVIDIA NIM 微服务和 NVIDIA NeMo）与其平台集成在一起。这五个 blueprints——包括一类新的 AI 智能体合作伙伴 blueprints——为开发人员创建下一波将改变每个行业的人工智能应用程序提供了构建模块。

除了合作伙伴的 blueprints 之外，英伟达还推出了能根据 PDF 生成播客的 AI Blueprint，以及另一个用于构建视频搜索和总结的 AI 智能体的 blueprint。另外还有四个 NVIDIA Omniverse Blueprints，使开发人员更容易为物理 AI 构建适合模拟的数字双胞胎。(@NVIDIA)

2、GPT-4o 级别！VITA-1.5：实时视觉与语音交互， 1.5 秒互动延迟

近日，VITA-MLLM 团队宣布推出 VITA-1.5，这是该团队在 VITA-1.0 基础上推出的升级版本，致力于提升多模态交互的实时性与准确性。VITA-1.5 不仅支持英语和中文，还在多项性能指标上实现了显著提升，为用户提供了更流畅的交互体验。

在 VITA-1.5 中，互动延迟大幅降低，从原来的 4 秒缩短至仅 1.5 秒，用户在进行语音交互时几乎感受不到延迟。此外，该版本在多模态性能方面也有显著提高，经过评估，VITA-1.5 在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从 59.8 提升至 70.8，展现了出色的能力。

VITA-1.5 在语音处理能力上也进行了深度优化。其自动语音识别（ASR）系统的错误率显著降低，从 18.4 降至 7.5，这使得语音指令的理解和响应更加准确。同时，VITA-1.5 引入了一个端到端的文本转语音（TTS）模块，该模块能够直接接受大型语言模型（LLM）的嵌入作为输入，从而提高语音合成的自然度和连贯性。

为了确保多模态能力的平衡，VITA-1.5 采用了渐进式训练策略，使得新增的语音处理模块对视觉 - 语言的表现影响最小，图像理解性能从 71.3 轻微下降至 70.8。团队通过这些技术创新，进一步推动了实时视觉与语音交互的界限，为未来的智能交互应用奠定了基础。

在 VITA-1.5 的使用方面，开发者可以通过简单的命令行操作进行快速入门，并且提供了基础和实时互动演示。用户需要准备一些必要的模块，例如语音活动检测（VAD）模块，以提升实时交互体验。此外，VITA-1.5 还将开源其代码，方便广大开发者参与和贡献。（@AIbase 基地）

3、阿里团队出品！妆容迁移技术 SHMT：提供化妆参考图就能给你上妆

近日，阿里巴巴达摩院的研究团队发布了一项重要研究成果，名为「SHMT:自监督层次化妆转移」，该论文已被国际顶级学术会议 NeurIPS2024 接收。这项研究展示了一种新的化妆效果转移技术，利用潜在扩散模型（Latent Diffusion Models）来实现化妆图像的精准生成，为化妆应用和图像处理领域注入了新活力。

简单的说，SHMT 是一项妆容迁移技术，只要一个化妆的参考图，和一张目标角色照片，就可以把妆容效果迁移到该目标脸上。这项技术的核心在于其「解耦和重建」的范式，能够摆脱不精确的伪配对数据的误导，从而实现更精准的妆容迁移。

团队在项目中采用了开源的方式，发布了训练代码、测试代码以及预训练模型，使得研究人员能够更方便地进行相关研究和开发。（@曲速人工智能研究）

4、谷歌 DeepMind 推 CAT4D：AI 魔法突破次元壁，普通视频活变 3D 大片

科技媒体 The Decoder 近日发布博文，报道称谷歌 DeepMind 联合哥伦比亚大学、加州大学圣地亚哥分校的研究人员，开发了一款名为 CAT4D 的 AI 系统，可以将普通视频转化为动态 3D 场景，降低了 3D 内容创作的门槛，为多个行业带来了新的可能性。

在训练 AI 过程中，谷歌 DeepMind 团队发现没有太多现有数据，为了解决这个问题，团队混合真实世界的镜头与计算机生成的内容，训练数据包括静态场景的多视图图像、单视角视频和合成 4D 数据，通过扩散模型学习，在特定时刻从特定角度创建图像。

以往，实现类似效果需要多台摄像机同时录制同一场景，而 CAT4D 则简化了这一流程，只需普通视频素材即可，这项技术有望革新游戏开发、电影制作和增强现实等领域。（@IT 之家）

5、「天工大模型 4.0」o1 版和 4o 版正式上线

1 月 6 日，昆仑万维宣布旗下「天工大模型 4.0」o1 版和 4o 版同步上线，并全量登陆天工网页和 App，用户均可免费使用。

据官方介绍，「天工大模型 4.0」o1 版作为国内第一款中文逻辑推理能力的 o1 模型，不仅包含上线即开源的模型，还有两款性能更强的专用版本。经过全方位的技术栈升级和模型优化，由昆仑万维自研的 Skywork o1 系列能熟练处理各种推理挑战，包括数学、代码、逻辑、常识、伦理决策等问题。

另外，「天工大模型 4.0」4o 版是由昆仑万维自研的多模态模型，其赋能的实时语音对话助手 Skyo，则是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具，为用户带来温暖贴心、流畅实时的对话体验。

据悉，2024 年 11 月，昆仑万维「天工大模型 4.0」o1 版和 4o 版正式公开发布，并启动邀请测试。目前，「天工大模型 4.0」两款模型已正式登陆昆仑万维旗下天工 web 与 App，全面向用户开放。(@APPSO)

02 有亮点的产品

1、罗永浩初创 AI 项目首款硬件上线

近日，罗永浩旗下 AI 初创项目 JARVIS 首款 AI 原生硬件设备在其官网上线。

JARVIS 为该硬件官方命名为「JARVIS ONE」，由主体和一副 TWS 耳机组成。同时官方表示，激动人心的发布（仪式）即将到来。

据官方介绍，主体包括电池、指纹识别、Wi-Fi、麦克风和蓝牙模块，用户只需触摸并按住指纹识别区域即可激活语音命令，同时该设备通过蓝牙或 Wi-Fi 连接到加密的云服务器来响应用户语音命令。配套的 TWS 耳机通过蓝牙与本体连接，并且「JARVIS ONE」本体支持通过蓝牙与多个设备同时连接。

同期，JARVIS 官方在安卓平台上架了一款名为 J1 Assistant 的聚合类 AI 助理软件。官方介绍，J1 Assistant 最大特色是拥有一个音频输入按钮，官方为其命名为「Ripple Touch」。用户可以通过按下按钮输入语音，之后即可完成将相关语音作为消息发送至 Google 搜索引擎、发送至自家 AI 模型询问、发送至 ChatGPT AI 询问、作为新建备忘录等功能。

此前，据凤凰网科技报道，按照计划，罗永浩创立的初创公司—细红线将在 2025 年春节前后发布首款新品。据了解，这个新品主要是 AI 软件方案，并附带了一款 AI native 硬件，且「理念非常超前」。(@APPSO)

2、AI Live Interpreter：实时双向的 AI 现场翻译解决方案

人工翻译一直是实现跨语言交流的首选解决方案，包括聘请多语言员工或外包给电话口译（OPI）服务，这些方法虽然有效，但也有成本高、延迟、可扩展性低和具有安全风险等缺点。

在某些情况下，人工翻译是无价的，但不可否认的是，我们需要更具可扩展性和效率的解决方案。好消息是，这些解决方案已经存在。

Krisp 近期推出了 AI Live Interpreter ，这是业界首个 AI 现场翻译解决方案，提供实时双向翻译。凭借企业级可扩展性和安全第一的设计，它可以帮助呼叫中心一键消除语言障碍。

主要优点：