头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq,@鲍勃

01有话题的技术

1、PD:像 Sora 一样,用物理模拟方式生成视频

麻省理工学院、斯坦福大学、哥伦比亚大学、康奈尔大学的研究人员联合开源了创新 3D 交互视频模型——PhysDreamer(简称「PD」)。

PD 和 OpenAI 的 Sora 一样,是一个可以通过物理模拟的方式来生成视频。也就是说,PD 的视频具备很多物理世界的特征。

例如,用手去触摸一盆花后,花朵会左右摇摆直至缓慢停止。PD 可以准确地捕捉到物体很多微妙的动态变化和复杂的交互细节,生成的视频也就更加精准、细腻。(@AIGC 开放社区)

2、微软推出 OmniParser V2.0:将大语言模型转化为 GUI 交互智能体

IT 之家 2 月 17 日消息,微软 OmniParser 是一款基于纯视觉的 GUI 智能体解析和识别屏幕上可交互图标的 AI 工具,此前搭配 GPT-4V 可显著增强识别能力。

2 月 12 日,微软在官网发布了 OmniParser 最新版本 V2.0 ,可将 OpenAI(4o / o1 / o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet)等模型,变成可以操控计算机的 AI 智能体。

与 V1 版本相比,OmniParser V2 使用了更大规模的交互元素检测数据和图标功能标题数据进行了训练,在检测较小的可交互 UI 元素时准确率更高、推理速度更快,延迟降低了 60%。
在高分辨率 Agent 基准测试 ScreenSpot Pro 中 , V2+GPT-4o 的准确率达到了 39.6% ,而 GPT-4o 原始准确率只有 0.8%。

为了能够更快地实验不同的智能体设置, 微软还开源了 OmniTool,这是一个集成了智能体所需一系列基本工具的 Docker 化 Windows 系统 ,涵盖屏幕理解、定位、动作规划和执行等功能,也是将大模型变成智能体的关键工具。

开源地址:https://github.com/microsoft/OmniParser(@IT 之家)

3、阿里升级 AI 人像视频生成,表情动作直逼专业水准

EMO 最初由阿里巴巴通义实验室提出,作为音频驱动高表现力人像 AI 视频生成的先驱。现在,该实验室的研究者带来了升级版本「EMO2」。

只需提供一张人物的肖像图片,你就可以输入任意长度的音频来驱动人物说话、唱歌或进行手势舞。并且,生成的人物表情和动作都具备高度的感染力和专业水准。(@机器之心)

4、马斯克旗下 Grok3 大模型即将发布,称其为最聪明人工智能


(图片来源:APPSO)

当地时间 15 日,马斯克在社交平台 X 上宣布,其旗下人工智能公司开发的大模型 Grok 3 将于北京时间 18 日中午 12 点正式发布。马斯克称 Grok 3 是「地球上最聪明的人工智能」。与此同时,马斯克的竞争对手 OpenAI 公司 CEO 阿尔特曼宣布,大模型 GPT-4o 的智力水平已经提升至 o3 pro 级别。他表示,GPT-4o 作为 OpenAI 的最新一代自然语言处理大模型,不仅在理解和生成语言方面的能力得到了显著提升,其智力水平也达到了新的高度。(@央视财经)

5、斯坦福大学团队使用多智能体强化学习训练社交推理语言模型

社交推理游戏是一类需要玩家通过交流和推理来达成目标的游戏,典型的例子是《狼人杀》,这些游戏要求玩家在有限的信息下,通过与其他玩家的交流和互动,推断出某个隐藏角色的身份。假如让多智能体玩狼人杀,这些智能体可以合作、竞争或者两者兼而有之。研究多智能体环境不仅有助于理解智能体之间的互动,还能为开发更智能、更协调的系统提供理论基础。

在多智能体环境中,使用自然语言进行交流是一种强大的工具。它不仅能让独立的智能体在部分可观察的环境中共享信息,还能实现与人类的零样本协调。然而大多数先前的研究存在局限性,要么依赖于大量人类演示的训练,要么缺乏生成自然和有用交流策略的能力。在这项工作中,斯坦福大学的研究团队探索了一种无需人类演示的方法,通过训练语言模型,使其能够使用自然语言就环境进行富有成效的讨论。

2 月 11 日,他们的研究论文《Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning》发表于 arXiv 平台。

研究团队将沟通问题分解为倾听和说话两个方面。 他们的主要思想是利用智能体的目标来预测有关世界的有用信息,作为指导沟通的密集奖励信号。具体来说,通过训练模型根据讨论预测有关环境的信息来提高模型的倾听技能。同时,通过多智能体强化学习,根据模型对其他智能体的影响奖励消息,从而提高模型的说话技能。

他们研究的核心问题是如何在没有人类示范的情况下,训练语言模型使其在多智能体环境中进行有效的交流。研究团队探讨了如何利用智能体的目标预测世界的有用信息,作为密集奖励信号指导交流。研究团队以《我们之间》(Among Us)这款社交推理游戏为实验平台,通过多智能体强化学习,分析智能体在复杂社交环境中的表现和行为。 研究团队的主要目标是展示智能体在没有大量任务特定数据的情况下,通过自我改进提升其交流和推理能力,并最终提高游戏胜率。(@独角噬元兽)

6、「阶跃星辰」开源「文生视频」模型 Step-Video-T2V

该模型为 30B 大小,支持生成最长 204 帧(544×992px)视频,效果惊艳。

技术要点

  • 深度压缩视频 VAE(16×16 空间压缩 + 8× 时间压缩),降低训练/推理成本;
  • 3D 全注意力 DiT 架构,适配动态分辨率;
  • 视频偏好优化(DPO),通过人类反馈提升流畅度与真实感。支持中英文输入,提供基础版(50 步生成)和 Turbo 版(15步蒸馏加速),实测生成 204 帧视频需 4 块 80GB GPU(12 分钟)。

目前尚未官宣

github: https://github.com/stepfun-ai/Step-Video-T2V

huggingface: https://huggingface.co/stepfun-ai(@赛博禅心)

02有亮点的产品

1、DeepSeek 满血版「火」到微信,国民级应用加持,AI 搜索要变天?

微信正式接入 DeepSeek 了,有网友意外发现,打开微信搜索框,AI 搜索中竟能选用 DeepSeek 满血版 R1 模型。

点开 AI 搜索,会出现两个选项:一是快速回答,另一个是 DeepSeek R1。

不过,这一功能还在灰度测试中,并未全面开放。对此,腾讯官方确认称,「微信搜一搜在调用混元大模型丰富 AI 搜索的同时,近日正式灰度测试接入 DeepSeek」。

之后,所有人不用下载,不用付费,就能免费用上最强 R1 了。(@新智元)

2、字节跳动 AI 中文 IDE「Trae」:已支持 Windows 系统,内置 GPT-4o 免费使用

IT 之家 2 月 17 日消息,字节跳动于今年 1 月发布了一款面向开发者的全新 AI 编程产品 Trae,这是一个 AI 中文 IDE 工具,不过当时只有 Mac 版本。

据 IT 之家小伙伴反馈, 该工具目前已上线 Windows 版 ,支持 Windows 10 和 Windows 11 系统。

Trae 由字节跳动旗下新加坡公司 SPRING PTE 提供服务,支持 AI 问答、代码自动补全、基于 Agent 的 AI 编程等功能,可以帮助程序员自动化完成开发任务,并在一些项目中可以实现端到端开发,用户提问后能够直接生成完整的代码项目。

该工具可选择简体中文或英文 ,并内置了 GPT-4o、Claude-3.5-Sonnet 模型供免费使用。(@IT 之家)

3、学而思 xDeepSeek,首发超级学习应用「随时问」

学而思正式发布接入 DeepSeek 的全新「随时问」APP。该产品深度融合 DeepSeek R1 智能推理,依托学而思 22 年教研沉淀,现面向全国中小学生免费开放,提供苏格拉底式启发学习模式,支持题目分步解析、无限追问和智能错题管理,助力构建科学学习体系。

学而思专业内容×强大模型,点亮三大「黑科技」

据悉,随时问 APP 全方位拥抱 DeepSeek,一方面会直接接入 DeepSeek R1 为用户提供深度思考模式下的问答功能;另一方面,DeepSeek 的 V3 版本已成为学而思九章大模型的基座之一,学而思加入大量教育行业专有数据进行二次训练,并在此基础上开发学习场景的产品功能。

相比于面向成年人的生成式大模型,中小学学习辅导对 AI 大模型内容生成的精准性和适配性有更多要求。熊泽法介绍,随时问 APP 针对中小学学习场景实现了深度优化,目前具备三大「黑科技」——

  • 首先,超过 2.5 亿分钟自研讲解视频。
  • 第二,超高准确率的「九章识题」技术。
  • 第三,智能分级适配的「九章答题」能力。

(@成都商报教育)

4、百川智能联合北京儿童医院推出「AI 儿科医生」,正式投入临床应用

百川智能今日宣布,其与北京儿童医院及小儿方健康科技(北京)有限公司联合研发的「AI 儿科医生」在经过近一个月的内测并得到专家认可后,正式投入临床应用。这一里程碑式的进展标志着 AI 技术在医疗领域的深度应用迈出了重要一步。

近日,由国家儿童医学中心首都医科大学附属北京儿童医院首次开展的「AI 儿科医生+多学科专家」双医并行多学科会诊活动中,基于 Baichuan M1 大模型打造的「AI 儿科医生」与 13 位来自耳鼻咽喉头颈外科、肿瘤外科、肿瘤内科等领域的知名专家共同参与会诊,其诊断建议与专家组的结论高度吻合,展现了强大的诊疗能力。

百川智能创始人兼 CEO 王小川表示,AI 医疗是通用人工智能最重要的应用领域之一,AI 医生的上岗将极大地促进优质医疗服务的普及和普惠。他强调,基于 Baichuan M1 大模型打造的 AI 儿科医生在北京儿童医院正式投入使用,不仅是一次技术突破,更是推动医疗普惠的重要里程碑。

AI 儿科医生的临床应用有望缓解儿科医疗资源紧张的问题,提升诊疗效率和准确性,尤其为偏远地区和医疗资源匮乏的地方提供更优质的医疗服务。百川智能表示,未来将继续深化 AI 技术在医疗领域的应用,探索更多创新解决方案,推动医疗行业的智能化转型。(@AIbase 基地)

03有态度的观点

1、梁汝波:重提「务实的浪漫」,追求 「智能」 上限

据晚点 LatePost 报道,2 月 13 日上午,字节跳动召开新一期的 All Hands 全员会,CEO 梁汝波携多位高管与全体员工进行交流。与去年强调「危机感」不同,今年梁汝波重提「务实的浪漫」。会议披露,字节跳动在 AI 领域已取得显著进展。据 AI 业务负责人朱文佳介绍,公司从 2024 年初处于行业第二梯队,到年底其 AI 产品豆包已跃居国内日活用户第一,底层技术能力也进入全球第一梯队。

为推动 AI 发展,公司进行了重大组织调整,将 Flow 部门提升为与抖音、飞书同级的核心业务部门,并汇聚多位高管加入 AI 团队。然而,近期 DeepSeek R1 的突然崛起也给字节带来新的思考。梁汝波在会上坦承,公司去年在长链思考等技术创新方面未能快速跟进,错失了一些机会。针对这一情况,他提出 2025 年三大发展重点:

  • 追求 「智能」 上限。相比追求某个具体产品——比如豆包——的 DAU,把智能本身作为最重要的目标可以激发更多尝试、不忽略关键技术节点。
  • 探索新的交互。「新的交互应该是会更可穿戴、更便携、更自然的。」去年上线的 Ola Friend 耳机只是初步尝试。
  • 加强规模效应。这是指 AI 产品应该越多人用越好用,「现在豆包上这个特点还不明确。」

更多 Voice Agent 学习笔记:

报名丨Computer use&Voice Agent :使用 TEN 搭建你的 Mac Assistant

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

语音即入口:AI 语音交互如何重塑下一代智能应用

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
658 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。