这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、NVIDIA 推出智能体构建工具 Agentic AI Blueprints,助力企业实现工作自动化
全新 NVIDIA AI Blueprints 旨在帮助各地企业构建 AI 智能体应用程序,更好实现工作自由化。
有了这些 blueprints,开发人员现在可以构建和部署自定义 AI 代理。这些人工智能代理就像「知识机器人」一样,可以推理、计划和采取行动,快速分析大量数据,从视频、PDF 和其他图像中总结和提取实时见解。
CrewAI、Daily、LangChain、LlamaIndex 和 Weights & Biases 是 AI 智能体编排和管理工具的供应商,它们与 NVIDIA 合作构建 blueprints,将 NVIDIA AI Enterprise 软件平台(包括 NVIDIA NIM 微服务和 NVIDIA NeMo)与其平台集成在一起。这五个 blueprints——包括一类新的 AI 智能体合作伙伴 blueprints——为开发人员创建下一波将改变每个行业的人工智能应用程序提供了构建模块。
除了合作伙伴的 blueprints 之外,英伟达还推出了能根据 PDF 生成播客的 AI Blueprint,以及另一个用于构建视频搜索和总结的 AI 智能体的 blueprint。另外还有四个 NVIDIA Omniverse Blueprints,使开发人员更容易为物理 AI 构建适合模拟的数字双胞胎。(@NVIDIA)
2、GPT-4o 级别!VITA-1.5:实时视觉与语音交互, 1.5 秒互动延迟
近日,VITA-MLLM 团队宣布推出 VITA-1.5,这是该团队在 VITA-1.0 基础上推出的升级版本,致力于提升多模态交互的实时性与准确性。VITA-1.5 不仅支持英语和中文,还在多项性能指标上实现了显著提升,为用户提供了更流畅的交互体验。
在 VITA-1.5 中,互动延迟大幅降低,从原来的 4 秒缩短至仅 1.5 秒,用户在进行语音交互时几乎感受不到延迟。此外,该版本在多模态性能方面也有显著提高,经过评估,VITA-1.5 在 MME、MMBench 和 MathVista 等多个基准测试中的平均性能从 59.8 提升至 70.8,展现了出色的能力。
VITA-1.5 在语音处理能力上也进行了深度优化。其自动语音识别(ASR)系统的错误率显著降低,从 18.4 降至 7.5,这使得语音指令的理解和响应更加准确。同时,VITA-1.5 引入了一个端到端的文本转语音(TTS)模块,该模块能够直接接受大型语言模型(LLM)的嵌入作为输入,从而提高语音合成的自然度和连贯性。
为了确保多模态能力的平衡,VITA-1.5 采用了渐进式训练策略,使得新增的语音处理模块对视觉 - 语言的表现影响最小,图像理解性能从 71.3 轻微下降至 70.8。团队通过这些技术创新,进一步推动了实时视觉与语音交互的界限,为未来的智能交互应用奠定了基础。
在 VITA-1.5 的使用方面,开发者可以通过简单的命令行操作进行快速入门,并且提供了基础和实时互动演示。用户需要准备一些必要的模块,例如语音活动检测(VAD)模块,以提升实时交互体验。此外,VITA-1.5 还将开源其代码,方便广大开发者参与和贡献。(@AIbase 基地)
3、阿里团队出品!妆容迁移技术 SHMT:提供化妆参考图就能给你上妆
近日,阿里巴巴达摩院的研究团队发布了一项重要研究成果,名为 「SHMT:自监督层次化妆转移」,该论文已被国际顶级学术会议 NeurIPS2024 接收。这项研究展示了一种新的化妆效果转移技术,利用潜在扩散模型(Latent Diffusion Models)来实现化妆图像的精准生成,为化妆应用和图像处理领域注入了新活力。
简单的说,SHMT 是一项妆容迁移技术,只要一个化妆的参考图,和一张目标角色照片,就可以把妆容效果迁移到该目标脸上。这项技术的核心在于其「解耦和重建」的范式,能够摆脱不精确的伪配对数据的误导,从而实现更精准的妆容迁移。
团队在项目中采用了开源的方式,发布了训练代码、测试代码以及预训练模型,使得研究人员能够更方便地进行相关研究和开发。(@曲速人工智能研究)
4、谷歌 DeepMind 推 CAT4D:AI 魔法突破次元壁,普通视频活变 3D 大片
科技媒体 The Decoder 近日发布博文,报道称谷歌 DeepMind 联合哥伦比亚大学、加州大学圣地亚哥分校的研究人员,开发了一款名为 CAT4D 的 AI 系统,可以将普通视频转化为动态 3D 场景,降低了 3D 内容创作的门槛,为多个行业带来了新的可能性。
在训练 AI 过程中,谷歌 DeepMind 团队发现没有太多现有数据,为了解决这个问题,团队混合真实世界的镜头与计算机生成的内容,训练数据包括静态场景的多视图图像、单视角视频和合成 4D 数据,通过扩散模型学习,在特定时刻从特定角度创建图像。
以往,实现类似效果需要多台摄像机同时录制同一场景,而 CAT4D 则简化了这一流程,只需普通视频素材即可,这项技术有望革新游戏开发、电影制作和增强现实等领域。(@IT 之家)
5、「天工大模型 4.0」o1 版和 4o 版正式上线
1 月 6 日,昆仑万维宣布旗下「天工大模型 4.0」o1 版和 4o 版同步上线,并全量登陆天工网页和 App,用户均可免费使用。
据官方介绍,「天工大模型 4.0」o1 版作为国内第一款中文逻辑推理能力的 o1 模型,不仅包含上线即开源的模型,还有两款性能更强的专用版本。经过全方位的技术栈升级和模型优化,由昆仑万维自研的 Skywork o1 系列能熟练处理各种推理挑战,包括数学、代码、逻辑、常识、伦理决策等问题。
另外,「天工大模型 4.0」4o 版是由昆仑万维自研的多模态模型,其赋能的实时语音对话助手 Skyo,则是一个具备情感表达能力、快速响应能力、多语言流畅切换的智能语音对话工具,为用户带来温暖贴心、流畅实时的对话体验。
据悉,2024 年 11 月,昆仑万维「天工大模型 4.0」o1 版和 4o 版正式公开发布,并启动邀请测试。目前,「天工大模型 4.0」两款模型已正式登陆昆仑万维旗下天工 web 与 App,全面向用户开放。(@APPSO)
02 有亮点的产品
1、罗永浩初创 AI 项目首款硬件上线
近日,罗永浩旗下 AI 初创项目 JARVIS 首款 AI 原生硬件设备在其官网上线。
JARVIS 为该硬件官方命名为「JARVIS ONE」,由主体和一副 TWS 耳机组成。同时官方表示,激动人心的发布(仪式)即将到来。
据官方介绍,主体包括电池、指纹识别、Wi-Fi、麦克风和蓝牙模块,用户只需触摸并按住指纹识别区域即可激活语音命令,同时该设备通过蓝牙或 Wi-Fi 连接到加密的云服务器来响应用户语音命令。配套的 TWS 耳机通过蓝牙与本体连接,并且「JARVIS ONE」本体支持通过蓝牙与多个设备同时连接。
同期,JARVIS 官方在安卓平台上架了一款名为 J1 Assistant 的聚合类 AI 助理软件。官方介绍,J1 Assistant 最大特色是拥有一个音频输入按钮,官方为其命名为「Ripple Touch」。用户可以通过按下按钮输入语音,之后即可完成将相关语音作为消息发送至 Google 搜索引擎、发送至自家 AI 模型询问、发送至 ChatGPT AI 询问、作为新建备忘录等功能。
此前,据凤凰网科技报道,按照计划,罗永浩创立的初创公司—细红线将在 2025 年春节前后发布首款新品。据了解,这个新品主要是 AI 软件方案,并附带了一款 AI native 硬件,且「理念非常超前」。(@APPSO)
2、AI Live Interpreter:实时双向的 AI 现场翻译解决方案
人工翻译一直是实现跨语言交流的首选解决方案,包括聘请多语言员工或外包给电话口译 (OPI) 服务,这些方法虽然有效,但也有成本高、延迟、可扩展性低和具有安全风险等缺点。
在某些情况下,人工翻译是无价的,但不可否认的是,我们需要更具可扩展性和效率的解决方案。好消息是,这些解决方案已经存在。
Krisp 近期推出了 AI Live Interpreter ,这是业界首个 AI 现场翻译解决方案,提供实时双向翻译。凭借企业级可扩展性和安全第一的设计,它可以帮助呼叫中心一键消除语言障碍。
主要优点:
- 即时可用性: 全天候可用,消除延迟。
- 成本效益: 人工智能现场翻译的成本仅为人工翻译的一小部分。
- 可扩展性: 开箱即用,适用于所有软件电话,并且建立在旨在处理无限同时会话的系统上,可轻松适应峰值需求。
- 用户体验: 智能体可以看到现场转录和翻译,这有助于获得更多背景信息
- 安全性: 许多人工智能解决方案都把隐私放在第一位,从而降低了与第三方相关的风险。
Krisp 支持超过 25 种语言,质量高且不断增长。(@Voice AI Newsletter)
03 有态度的观点
1、机构:2025 年人形机器人有望小规模商用落地
1 月 6 日,机构 IDC 公布了 2025 年具身智能机器人发展趋势。
机构预测,2025 年人形机器人在商用服务、特种应用有望实现小规模商用落地,且预计将实现千台量级的规模。此前,2024 年一批人形机器人进入商用测试阶段,目前科研教育场景是人形机器人的主要应用场景。
预测中指出,在特种应用领域,人形机器人基于多模态感知、高防护等级的材料组成以及对复杂地形的适应能力,将在安全巡检、应急救援等特殊作业场景替代人类从事重复劳动、高风险的任务。(@APPSO)
2、Sam Altman:OpenAI 确定发布 AI Agents,彻底改变企业效率
1 月 6 日,OpenAI 首席执行官兼联合创始人 Sam Altman,在他的个人博客发布了最新深度文章——Reflections。
主要回顾了 OpenAI 创立这 9 年的时间:从最初的不被外界看好,到 2022 年发布 ChatGPT 掀起全球 AI 革命用户一路暴涨超过 3 亿,再到他突然被解雇,整个 OpenAI 陷入混乱状态。
这也让他意识到自己的管理挺失败的,好在恢复过程中他比较幸运有很多人帮助了他,随后整改了 OpenAI 董事会实现多元化管理。
在技术展望方面,Sam 特意写道「我们现在有信心按照传统的理解方式构建 AGI。2025 年,OpenAI 将上线第一批 AI Agents 加入到『劳动力大军』中,并实质性地改变公司的产出效率。我们坚信,不断地将强大的工具交到人们手中会带来伟大的、广泛传播的成果。」
而 Agents 也是 OpenAI 开发和应用 AGI 的最重要的载体之一,可以直观地将很多重复、复杂、繁琐的业务流程轻松实现跨端到端的自动化。
因为,AGI 的核心本质就是将不同的业务流程实现自动化,把人类从枯燥、无意义的业务流程中解放出来,将时间、精力用在商业价值更高的业务上。
此外,Sam 在制定 OpenAI 的 2025 年产品发布计划时,特意将 Agents 放在了通用人工智能 AGI 的后面,可见对其重视程度。(@AIGC 开放社区)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。