开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01有话题的新闻
1、字节跳动开源全新 AI 模型 LatentSync 精准控制唇形同步
字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同,LatentSync 直接利用了 Stable Diffusion 的强大功能,能更有效地建模复杂的视听关联。
研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐 (TREPA) 技术。TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。
此外,研究团队还深入研究了 SyncNet 的收敛问题,并通过大量的实证研究,确定了影响 SyncNet 收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。通过优化这些因素,SyncNet 在 HDTF 测试集上的准确率从 91% 显著提升至 94%。由于没有改变 SyncNet 的整体训练框架,这项经验也可应用于其他利用 SyncNet 的唇同步和音频驱动的人像动画方法。(@AIbase 基地)
2、阿里发布 Qwen-Agent 框架,赋能开发者构建复杂 AI 智能体
阿里通义千问 Qwen 推出全新 AI 框架 Qwen-Agent,基于现有 Qwen 语言模型,支持智能体执行复杂任务,并提供多种高级功能,赋能开发者构建更强大的 AI 智能体。
该框架基于 Qwen 现有语言模型,赋予智能体执行详细指令、使用工具、规划任务和维护对话上下文等核心能力,还集成了 RAG(检索增强生成)、代码解释器和基于 Qwen2.5-Math 的专用数学推理等高级功能。
在架构方面,Qwen-Agent 采用两层架构。底层提供语言模型和基础工具,顶层提供现成的智能体组件。开发者可以灵活组合这些组件,构建能够执行复杂任务的智能体,例如阅读 PDF、操作现有工具以及执行自定义功能。
开发者可以通过阿里巴巴的 DashScope 云服务或自行部署 Qwen 模型,阿里巴巴近期下调了 API AI 服务价格,进一步降低了使用门槛。此外,框架还提供 GUI 界面,方便开发者使用 Gradio 框架创建交互式网页演示。(@IT 之家)
3、Autodesk 内测 AI 大模型 Bernini 生成式 CAD 要来了
近日,全球知名 CAD 软件巨头 Autodesk 宣布正在内部测试一款名为 Bernini 的生成式 AI 大模型。
Bernini 这一名称源于 17 世纪意大利著名雕塑家和建筑师 Gian Lorenzo Bernini,充分体现了其创造力与艺术性的结合。与其他生成式 AI 模型不同,Bernini 具备独特的功能:它不仅能将文本和手绘草图转化为实用的 3D 文件,还具备生成中空功能性结构的能力,避免了仅生成外观模型的问题。使用者可以自由调整生成的形状和纹理,实现个性化设计。
为了训练这一模型,Autodesk 与香港中文大学合作,利用了 1000 万种公开可用的 3D 形状进行数据训练。Autodesk 执行副总裁兼首席技术官 Raji Arasu 在公开活动中表示,Bernini 能够从单一输入生成多个功能性 3D 形状变体,显著提升设计师的创作效率。
不过,Bernini 的推出并不意味着它已具备商业化能力。根据 Autodesk 的 CEO Andrew Anagnost 透露,目前该模型仍在测试阶段,尚未正式投入商业应用。未来,客户将能够使用自己的数据来优化模型,从而进一步提升其性能。
在技术层面,Autodesk 选择了 Amazon DynamoDB 作为数据存储解决方案,确保能够高效处理 PB 级别的数据。此外,结合 Amazon SageMaker 等云服务,Autodesk 的模型训练流程得以高效管理,从而在保持成本稳定的同时,实现了 AI 生产力的提升。(@AIbase 基地)
02有亮点的产品
1、罗永浩重返科技行业:AI 智能助理 J1 Assistant 上线
罗永浩旗下的 AI 新兴企业 Jarvis 低调推出了新款 AI 智能助理——J1 Assistant。这款软件已在官网上线,目前是 Beta 版本,支持三星 Galaxy S24 系列、Galaxy S23 系列、Galaxy S22 系列、谷歌 Pixel 9 系列、谷歌 Pixel 8 系列以及谷歌 Pixel 7 系列。
根据官方公布的演示视频,打开 J1 Assistant 后,主界面会显示一个麦克风图标。长按并输入语音,语音内容会自动转换成文字,你可以将这些语音内容发给谷歌搜索或者 ChatGPT,也可以发给 J1 Assistant,它会聆听、理解你的语义内容并给出对应的答案。
官方表示,J1 Assistant 是一款更智能、更高效、设计更优雅的 AI 助手,它能真正理解用户,并完成复杂的语音指令,比如创建待办事项、执行高效搜索等等,目前该应用还处于测试阶段。(@极客公园)
2、陪伴型机器人「Mirumi」问世,模仿婴儿的好奇心
Yukai Engineering 在 CES 2025 展览会上发布了一款特别的新产品 —— 看起来毛茸茸的小型「陪伴型」机器人 Mirumi,官方称其能够模仿婴儿的好奇心。其内置传感器,可探测到周围的环境,并完成转头与附近的人或物互动,可谓「憨态可掬」。
当有人突然接近或触摸它时,它会羞涩地低下头,模拟出一副害羞的模样。公司计划通过众筹活动,于 2025 年中期推出 Mirumi,提供粉色和灰色等毛发颜色,售价预计在 70 美元左右。
Mirumi 通常被挂在手提包的带子上。然而,Mirumi 并不能独立行走,功能上也仅限于转动头部。通过结合距离传感器和惯性测量单元来感知周围的运动,Mirumi 会根据所感应到的情况做出不同反应。当包包开始移动时,Mirumi 会开始四处张望,发现人或物后,它会专注地盯着目标。
如果有陌生人突然接近或触摸它,Mirumi 会做出相反的动作,转过头来表现出婴儿般的羞涩反应。甚至在被摇动时,它也会像在表示「不」一样摇头,表现出它的「不喜欢」。如果一段时间内没有互动,它就会恢复「天真无邪」的环顾四周的行为。
Mirumi 不仅仅是一个伴侣机器人,它还能够给他人带来欢乐。「人们常常通过与他人分享自己的喜悦来获得满足,Mirumi 正是让你做到这一点的机器人。」Yukai Engineering 的首席执行官青木俊介表示。「无论你是在拥挤的地铁里,还是在商店排队,Mirumi 总能用它那天真无邪的目光触动人心,促使他人不由自主地向它挥手或做出搞笑的表情回应。」(@IT 之家)
3、马斯克宣布 Grok 3 预训练已完成
1 月 4 日,X CEO 马斯克宣布,xAI 旗下 AI 聊天机器人 Grok 3 即将推出,并表示预训练已经完成。
马斯克表示,计算量将会是 Grok 2 的 10 倍。2024 年 7 月,马斯克曾透露,Grok 3 使用了 10 万块英伟达 H100 芯片进行训练,并相信 Grok 3 将会「十分特别」。同时,马斯克预计 2024 年底发布 Grok 3,但并未如期而至。
据悉,2024 年 12 月,xAI 宣布向所有 X 平台用户免费推送新版本的 Grok 2。据官方介绍,Grok 利用 X 平台实时了解世界正在发生的事情。此前,Grok 推出了两个额外功能—网页搜索和引用,从而增强了 Grok 的使用体验。(@ APPSO)
03有态度的观点
1、OpenAI 研究员:数据集的选择决定 AI 好不好
近日,OpenAI 研究员 Jason Wei 在个人社交账号发布推文,并表示数据集的选择决定 AI 好不好。
文中,Jason Wei 提到,当前 AI 研究中一项被低估但却能决定成败的技能:找到真正能体现新方法有效性的数据集。同时他提及,这项技能在十年前还不存在,但如今却可能成为一项研究成败的关键。
Jason Wei 举例「思维链 (Chain of Thought, CoT) 在哪些数据集上能提升性能?」,同时他引用了一篇「认为 CoT 主要对数学和逻辑任务有帮助」的论文。但 Jason Wei 认为这种观点是缺乏想象力和多样化评估的表现。
Jason Wei 强调,要确保用于测试的数据集确实能够检验该方法,并且他认为人为设计的数据集可能无法代表用户查询的大部分内容。(@ APPSO)
更多 Voice Agent 学习笔记:
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。