罗永浩 AI 智能助理 J1 Assistant 上线；字节开源 LatentSync ，精准控制唇形同步丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、字节跳动开源全新 AI 模型 LatentSync 精准控制唇形同步

字节跳动近日开源了一项名为 LatentSync 的创新技术，该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示，即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同，LatentSync 直接利用了 Stable Diffusion 的强大功能，能更有效地建模复杂的视听关联。

研究发现，基于扩散的唇同步方法在时间一致性方面表现不佳，因为不同帧之间的扩散过程存在不一致性。为了解决这个问题，LatentSync 引入了时间表示对齐（TREPA）技术。TREPA 利用大型自监督视频模型提取的时间表示，使生成的帧与真实帧对齐，从而增强时间一致性，同时保持唇同步的准确性。

此外，研究团队还深入研究了 SyncNet 的收敛问题，并通过大量的实证研究，确定了影响 SyncNet 收敛的关键因素，包括模型架构、训练超参数和数据预处理方法。通过优化这些因素，SyncNet 在 HDTF 测试集上的准确率从 91% 显著提升至 94%。由于没有改变 SyncNet 的整体训练框架，这项经验也可应用于其他利用 SyncNet 的唇同步和音频驱动的人像动画方法。（@AIbase 基地）

2、阿里发布 Qwen-Agent 框架，赋能开发者构建复杂 AI 智能体

阿里通义千问 Qwen 推出全新 AI 框架 Qwen-Agent，基于现有 Qwen 语言模型，支持智能体执行复杂任务，并提供多种高级功能，赋能开发者构建更强大的 AI 智能体。

该框架基于 Qwen 现有语言模型，赋予智能体执行详细指令、使用工具、规划任务和维护对话上下文等核心能力，还集成了 RAG（检索增强生成）、代码解释器和基于 Qwen2.5-Math 的专用数学推理等高级功能。

在架构方面，Qwen-Agent 采用两层架构。底层提供语言模型和基础工具，顶层提供现成的智能体组件。开发者可以灵活组合这些组件，构建能够执行复杂任务的智能体，例如阅读 PDF、操作现有工具以及执行自定义功能。

开发者可以通过阿里巴巴的 DashScope 云服务或自行部署 Qwen 模型，阿里巴巴近期下调了 API AI 服务价格，进一步降低了使用门槛。此外，框架还提供 GUI 界面，方便开发者使用 Gradio 框架创建交互式网页演示。（@IT 之家）

3、Autodesk 内测 AI 大模型 Bernini 生成式 CAD 要来了

近日，全球知名 CAD 软件巨头 Autodesk 宣布正在内部测试一款名为 Bernini 的生成式 AI 大模型。

Bernini 这一名称源于 17 世纪意大利著名雕塑家和建筑师 Gian Lorenzo Bernini，充分体现了其创造力与艺术性的结合。与其他生成式 AI 模型不同，Bernini 具备独特的功能：它不仅能将文本和手绘草图转化为实用的 3D 文件，还具备生成中空功能性结构的能力，避免了仅生成外观模型的问题。使用者可以自由调整生成的形状和纹理，实现个性化设计。

为了训练这一模型，Autodesk 与香港中文大学合作，利用了 1000 万种公开可用的 3D 形状进行数据训练。Autodesk 执行副总裁兼首席技术官 Raji Arasu 在公开活动中表示，Bernini 能够从单一输入生成多个功能性 3D 形状变体，显著提升设计师的创作效率。

不过，Bernini 的推出并不意味着它已具备商业化能力。根据 Autodesk 的 CEO Andrew Anagnost 透露，目前该模型仍在测试阶段，尚未正式投入商业应用。未来，客户将能够使用自己的数据来优化模型，从而进一步提升其性能。

在技术层面，Autodesk 选择了 Amazon DynamoDB 作为数据存储解决方案，确保能够高效处理 PB 级别的数据。此外，结合 Amazon SageMaker 等云服务，Autodesk 的模型训练流程得以高效管理，从而在保持成本稳定的同时，实现了 AI 生产力的提升。（@AIbase 基地）

02有亮点的产品

1、罗永浩重返科技行业：AI 智能助理 J1 Assistant 上线

罗永浩旗下的 AI 新兴企业 Jarvis 低调推出了新款 AI 智能助理——J1 Assistant。这款软件已在官网上线，目前是 Beta 版本，支持三星 Galaxy S24 系列、Galaxy S23 系列、Galaxy S22 系列、谷歌 Pixel 9 系列、谷歌 Pixel 8 系列以及谷歌 Pixel 7 系列。

根据官方公布的演示视频，打开 J1 Assistant 后，主界面会显示一个麦克风图标。长按并输入语音，语音内容会自动转换成文字，你可以将这些语音内容发给谷歌搜索或者 ChatGPT，也可以发给 J1 Assistant，它会聆听、理解你的语义内容并给出对应的答案。

官方表示，J1 Assistant 是一款更智能、更高效、设计更优雅的 AI 助手，它能真正理解用户，并完成复杂的语音指令，比如创建待办事项、执行高效搜索等等，目前该应用还处于测试阶段。（@极客公园）

2、陪伴型机器人「Mirumi」问世，模仿婴儿的好奇心

Yukai Engineering 在 CES 2025 展览会上发布了一款特别的新产品 —— 看起来毛茸茸的小型「陪伴型」机器人 Mirumi，官方称其能够模仿婴儿的好奇心。其内置传感器，可探测到周围的环境，并完成转头与附近的人或物互动，可谓「憨态可掬」。

当有人突然接近或触摸它时，它会羞涩地低下头，模拟出一副害羞的模样。公司计划通过众筹活动，于 2025 年中期推出 Mirumi，提供粉色和灰色等毛发颜色，售价预计在 70 美元左右。

Mirumi 通常被挂在手提包的带子上。然而，Mirumi 并不能独立行走，功能上也仅限于转动头部。通过结合距离传感器和惯性测量单元来感知周围的运动，Mirumi 会根据所感应到的情况做出不同反应。当包包开始移动时，Mirumi 会开始四处张望，发现人或物后，它会专注地盯着目标。

如果有陌生人突然接近或触摸它，Mirumi 会做出相反的动作，转过头来表现出婴儿般的羞涩反应。甚至在被摇动时，它也会像在表示「不」一样摇头，表现出它的「不喜欢」。如果一段时间内没有互动，它就会恢复「天真无邪」的环顾四周的行为。

Mirumi 不仅仅是一个伴侣机器人，它还能够给他人带来欢乐。「人们常常通过与他人分享自己的喜悦来获得满足，Mirumi 正是让你做到这一点的机器人。」Yukai Engineering 的首席执行官青木俊介表示。「无论你是在拥挤的地铁里，还是在商店排队，Mirumi 总能用它那天真无邪的目光触动人心，促使他人不由自主地向它挥手或做出搞笑的表情回应。」（@IT 之家）

3、马斯克宣布 Grok 3 预训练已完成