头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、字节跳动开源全新 AI 模型 LatentSync 精准控制唇形同步

字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同,LatentSync 直接利用了 Stable Diffusion 的强大功能,能更有效地建模复杂的视听关联。

研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐 (TREPA) 技术。TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。

此外,研究团队还深入研究了 SyncNet 的收敛问题,并通过大量的实证研究,确定了影响 SyncNet 收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。通过优化这些因素,SyncNet 在 HDTF 测试集上的准确率从 91% 显著提升至 94%。由于没有改变 SyncNet 的整体训练框架,这项经验也可应用于其他利用 SyncNet 的唇同步和音频驱动的人像动画方法。(@AIbase 基地)

2、阿里发布 Qwen-Agent 框架,赋能开发者构建复杂 AI 智能体

阿里通义千问 Qwen 推出全新 AI 框架 Qwen-Agent,基于现有 Qwen 语言模型,支持智能体执行复杂任务,并提供多种高级功能,赋能开发者构建更强大的 AI 智能体。

该框架基于 Qwen 现有语言模型,赋予智能体执行详细指令、使用工具、规划任务和维护对话上下文等核心能力,还集成了 RAG(检索增强生成)、代码解释器和基于 Qwen2.5-Math 的专用数学推理等高级功能。

在架构方面,Qwen-Agent 采用两层架构。底层提供语言模型和基础工具,顶层提供现成的智能体组件。开发者可以灵活组合这些组件,构建能够执行复杂任务的智能体,例如阅读 PDF、操作现有工具以及执行自定义功能。

开发者可以通过阿里巴巴的 DashScope 云服务或自行部署 Qwen 模型,阿里巴巴近期下调了 API AI 服务价格,进一步降低了使用门槛。此外,框架还提供 GUI 界面,方便开发者使用 Gradio 框架创建交互式网页演示。(@IT 之家)

3、Autodesk 内测 AI 大模型 Bernini 生成式 CAD 要来了

近日,全球知名 CAD 软件巨头 Autodesk 宣布正在内部测试一款名为 Bernini 的生成式 AI 大模型。

Bernini 这一名称源于 17 世纪意大利著名雕塑家和建筑师 Gian Lorenzo Bernini,充分体现了其创造力与艺术性的结合。与其他生成式 AI 模型不同,Bernini 具备独特的功能:它不仅能将文本和手绘草图转化为实用的 3D 文件,还具备生成中空功能性结构的能力,避免了仅生成外观模型的问题。使用者可以自由调整生成的形状和纹理,实现个性化设计。

为了训练这一模型,Autodesk 与香港中文大学合作,利用了 1000 万种公开可用的 3D 形状进行数据训练。Autodesk 执行副总裁兼首席技术官 Raji Arasu 在公开活动中表示,Bernini 能够从单一输入生成多个功能性 3D 形状变体,显著提升设计师的创作效率。

不过,Bernini 的推出并不意味着它已具备商业化能力。根据 Autodesk 的 CEO Andrew Anagnost 透露,目前该模型仍在测试阶段,尚未正式投入商业应用。未来,客户将能够使用自己的数据来优化模型,从而进一步提升其性能。

在技术层面,Autodesk 选择了 Amazon DynamoDB 作为数据存储解决方案,确保能够高效处理 PB 级别的数据。此外,结合 Amazon SageMaker 等云服务,Autodesk 的模型训练流程得以高效管理,从而在保持成本稳定的同时,实现了 AI 生产力的提升。(@AIbase 基地)

02有亮点的产品

1、罗永浩重返科技行业:AI 智能助理 J1 Assistant 上线

罗永浩旗下的 AI 新兴企业 Jarvis 低调推出了新款 AI 智能助理——J1 Assistant。这款软件已在官网上线,目前是 Beta 版本,支持三星 Galaxy S24 系列、Galaxy S23 系列、Galaxy S22 系列、谷歌 Pixel 9 系列、谷歌 Pixel 8 系列以及谷歌 Pixel 7 系列。

根据官方公布的演示视频,打开 J1 Assistant 后,主界面会显示一个麦克风图标。长按并输入语音,语音内容会自动转换成文字,你可以将这些语音内容发给谷歌搜索或者 ChatGPT,也可以发给 J1 Assistant,它会聆听、理解你的语义内容并给出对应的答案。

官方表示,J1 Assistant 是一款更智能、更高效、设计更优雅的 AI 助手,它能真正理解用户,并完成复杂的语音指令,比如创建待办事项、执行高效搜索等等,目前该应用还处于测试阶段。(@极客公园)

2、陪伴型机器人「Mirumi」问世,模仿婴儿的好奇心

Yukai Engineering 在 CES 2025 展览会上发布了一款特别的新产品 —— 看起来毛茸茸的小型「陪伴型」机器人 Mirumi,官方称其能够模仿婴儿的好奇心。其内置传感器,可探测到周围的环境,并完成转头与附近的人或物互动,可谓「憨态可掬」。

当有人突然接近或触摸它时,它会羞涩地低下头,模拟出一副害羞的模样。公司计划通过众筹活动,于 2025 年中期推出 Mirumi,提供粉色和灰色等毛发颜色,售价预计在 70 美元左右。

Mirumi 通常被挂在手提包的带子上。然而,Mirumi 并不能独立行走,功能上也仅限于转动头部。通过结合距离传感器和惯性测量单元来感知周围的运动,Mirumi 会根据所感应到的情况做出不同反应。当包包开始移动时,Mirumi 会开始四处张望,发现人或物后,它会专注地盯着目标。

如果有陌生人突然接近或触摸它,Mirumi 会做出相反的动作,转过头来表现出婴儿般的羞涩反应。甚至在被摇动时,它也会像在表示「不」一样摇头,表现出它的「不喜欢」。如果一段时间内没有互动,它就会恢复「天真无邪」的环顾四周的行为。

Mirumi 不仅仅是一个伴侣机器人,它还能够给他人带来欢乐。「人们常常通过与他人分享自己的喜悦来获得满足,Mirumi 正是让你做到这一点的机器人。」Yukai Engineering 的首席执行官青木俊介表示。「无论你是在拥挤的地铁里,还是在商店排队,Mirumi 总能用它那天真无邪的目光触动人心,促使他人不由自主地向它挥手或做出搞笑的表情回应。」(@IT 之家)

3、马斯克宣布 Grok 3 预训练已完成

1 月 4 日,X CEO 马斯克宣布,xAI 旗下 AI 聊天机器人 Grok 3 即将推出,并表示预训练已经完成。

马斯克表示,计算量将会是 Grok 2 的 10 倍。2024 年 7 月,马斯克曾透露,Grok 3 使用了 10 万块英伟达 H100 芯片进行训练,并相信 Grok 3 将会「十分特别」。同时,马斯克预计 2024 年底发布 Grok 3,但并未如期而至。

据悉,2024 年 12 月,xAI 宣布向所有 X 平台用户免费推送新版本的 Grok 2。据官方介绍,Grok 利用 X 平台实时了解世界正在发生的事情。此前,Grok 推出了两个额外功能—网页搜索和引用,从而增强了 Grok 的使用体验。(@ APPSO)

03有态度的观点

1、OpenAI 研究员:数据集的选择决定 AI 好不好

近日,OpenAI 研究员 Jason Wei 在个人社交账号发布推文,并表示数据集的选择决定 AI 好不好。

文中,Jason Wei 提到,当前 AI 研究中一项被低估但却能决定成败的技能:找到真正能体现新方法有效性的数据集。同时他提及,这项技能在十年前还不存在,但如今却可能成为一项研究成败的关键。

Jason Wei 举例「思维链 (Chain of Thought, CoT) 在哪些数据集上能提升性能?」,同时他引用了一篇「认为 CoT 主要对数学和逻辑任务有帮助」的论文。但 Jason Wei 认为这种观点是缺乏想象力和多样化评估的表现。

Jason Wei 强调,要确保用于测试的数据集确实能够检验该方法,并且他认为人为设计的数据集可能无法代表用户查询的大部分内容。(@ APPSO)

更多 Voice Agent 学习笔记:

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

市场规模超 60 亿美元,语音如何改变对话式 AI?

2024 语音模型前沿研究整理,Voice Agent 开发者必读

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望967 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。