开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、昆仑万维宣布开源交互式世界基础模型 Matrix-Game
作为一款世界基础模型,Matrix-Game 能够生成完整可交互的游戏世界,能够对人类输入的操作指令进行正确响应,保留了游戏世界的空间结构与物理特性,画面也更加精致,超越了以往所有类似开源世界模型。
Matrix-Game(17B+)是昆仑万维 Matrix 系列模型在交互式世界生成方向的首次落地,也是世界模型领域工业界首个开源的 10B + 大模型。
昆仑万维表示,Matrix-Zero 其实包含两个子模型 —— 一个用于 3D 场景生成,另一个用于可交互的视频生成。
这次发布的 Matrix-Game 就是可交互视频生成模型在游戏方向的落地,它能够根据用户输入(键盘指令、鼠标移动等)生成连贯、可控的游戏互动视频。
Github: https://github.com/SkyworkAI/Matrix-Game
HuggingFace: https://huggingface.co/Skywork/Matrix-Game
技术报告:https://github.com/SkyworkAI/Matrix-
Game/blob/main/assets/report.pdf
项目主页:https://matrix-game-homepage.github.io(@机器之心)
2、字节提出 DanceGRPO 可应用于多种视觉生成任务
刚刚,字节最新发布了研究工作 DanceGRPO,首次将 DeepSeek 的 GRPO 适配于视觉生成任务,实现了一个强化学习算法在两大生成范式(diffusion model 和 rectified flows)、三项任务(文生图、文生视频、图生视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReel-I2V)及五类奖励模型(图像/视频美学、图文对齐、视频运动质量、二元奖励)中的统一应用。而且,实验表明 DanceGRPO 在 HPS-v2.1、CLIP Score、VideoAlign 和 GenEval 等基准测试上显著超越基线方法,最高提升达 181%。
项目链接:https://dancegrpo.github.io/
02 有亮点的产品
1、Manus AI 融资 7500 万美元,开放额外访问权限,所有用户免费使用
5 月 13 日凌晨,Manus AI 在 X 平台宣布开放额外访问权限,所有用户无需排队即可使用该工具,同时,平台还将为所有用户发放一次性 1000 积分奖励,用于体验更多服务功能。此前 Manus AI 发布时,曾因采用邀请码的方式进行预览体验,且邀请码数量过少,一度出现「一码难求」的市场局面。
另外,据彭博社上个月援引知情人士消息, Manus AI 近日完成一轮融资,由硅谷风投公司 Benchmark 领投,融资金额达 7500 万美元(约合 5.46 亿人民币)。
此次融资让 Manus AI 的估值提升至近 5 亿美元(约合 36.44 亿人民币),这一估值比之前的估值增长了约五倍。
体验地址:https://manus.im/ (@APPSO)
2、语音 AI 客服 Droxy :简易配置、智能转接与预约、支持知识库
Droxy 是一款全天候的 AI 语音通话智能体,提供卓越的客户服务。其主要功能包括:
- 真人般的问题解答: 利用先进的自然语言处理技术,Droxy 能够理解问题并像真人一样对话式响应。
- 自动外呼与业务增长: 自动拨打电话,提供即时服务报价和信息,助力业务增长。
- 品牌语调一致性: 可自定义语气和风格,匹配品牌形象,确保沟通一致性。
- 知识库训练与精准回答: 基于网站和公司知识训练,高效回答客户问题。
- 智能转接与预约: 根据紧急程度和技术人员可用性安排预约,减少客户等待时间。
- 语音留言功能: 提供语音邮件服务,方便信息传递。
官方链接:https://www.droxy.ai/ (@Droxy AI@X、@Droxy 网站)
3、Mapondo: AI 音频导览应用,扫描环境收听个性化导览
专为现代旅行者打造的 AI 驱动音频导览。通过 Mapondo,以前所未有的方式体验世界。该产品支持定制化推荐、AI 生成的音频指南和相关提示。支持扫描环境,发现附近必看的景点。
该产品已上线谷歌商店和苹果应用商店。
下载链接:https://mapondo.app/(@Product Hunt)
4、快手推出 AI 作图工具 Poify,专注于电商领域,目前免费
Poify 是快手推出的一款专注于电商领域的 AI 作图工具。集成了多种强大的 AI 功能,能够帮助电商商家和创意工作者快速、高效地生成高质量的商品展示图和创意营销图片,大大降低了传统商品图片拍摄的成本,同时提高了图片创作的效率和质量,满足电商行业多样化的商品展示和营销需求。
支持对图片局部细节,如纹理、颜色进行修改和优化,比如对商品的某个部位的颜色进行微调,或者修复图片中的瑕疵。
另外提供一键抠图、线稿上色、图像扩展、图片增强、智能消除等多种功能工具。
相比同类工具,Poify 专注电商图像创作,提供简单易用的界面和针对性功能,适合商家快速制作商品展示和营销素材。
Poify 官方链接:https://poify.ai/ (@腾讯研究院、@怪兽抱抱 AI 电商)
5、腾讯混元 T1-Vision 上线元宝:可深度理解图片内容
(图片来源:腾讯元宝)
5 月 12 日,腾讯宣布 T1-Vision 上线元宝。T1-Vision 支持多模态原生长思维链,可实现「边看图边思考」这项技术的核心优势在于超强的图像理解和信息提取能力。
与传统图像识别相比,混元 T1-Vision 能够深入解析图像中的复杂信息,不仅仅停留在简单的目标识别层面。医疗检查报告、芯片产品、围棋对局,这些看似毫无关联的场景,现在都能获得精准而深入的智能分析。
多模态原生长思维链技术让人工智能能够像人类大脑一样,在图像和文字之间自由切换,构建更加灵活的认知模式。这意味着用户可以通过「边看图边思考」的方式,获得更加深入和全面的信息洞察。(@凤凰网科技)
03 有态度的观点
1、阶跃星辰 CEO:多模态的「GPT-4 时刻」尚未到来
日前,阶跃星辰创始人、CEO 姜大昕接受媒体采访,其分享了对多模态行业的最新理解。
姜大昕表示,此前 OpenAI 的 Sora 发布时,阶跃星辰的团队对此较为失望,他们都认为 OpenAI 主线应该是理解生成一体化。但姜大昕坦言,回头去想,从多模融合直接做到理解生成一体化太难了,可能需要迭代几轮后再到理解生成一体化。他也强调,未来的方向肯定是能够预测「下一帧内容」。
对于 AGI 的期待,姜大昕则表示,理解生成一体化的问题解决后,带推理的 VLA 将能够实现对未来更好的预测,如果能做到时空推理,再加上 3D 和自然语言学习,就到了世界模型阶段。姜大昕认为,到了这个程度,那么他眼中的 AGI 就实现了。
姜大昕判断称,多模态的「GPT-4 时刻」还没有到来,但同时他也表示,有的时候 AI 的突破就在一瞬间。
他强调,模型的突破是早于商业化的:「就像先有了 GPT-3.5 才会有 ChatGPT,先有了多模融合和推理模型,才会有现在成熟的 Agent(智能体)。」同样,要有了多模理解生成一体化,尤其是可规模化的一体化,才能真正地做到人形机器人的泛化。(@APPSO)
2、扎克伯格:AR 眼镜会是未来的手机,VR 则是未来的电视
Meta 创始人兼 CEO 马克·扎克伯格近日接受 Stratechery 记者本·汤普森专访,详细阐述了公司以开源大语言模型 Llama 为核心的 AI 战略,以及未来在多个业务领域的布局规划。
在访谈中,扎克伯格预测,社交媒体将进入 AI 生成内容大爆发的第三阶段——在朋友分享和创作者内容基础上,AI 将根据用户喜好生成大量个性化内容。第三个方向是将消息类应用打造成商业平台。第四个方向则是开发专门由 AI 驱动的新业务,如 Meta AI 独立应用和元宇宙内容生成服务。
谈及开源战略,扎克伯格批评了苹果公司对开发者的限制:「苹果公司直接表态不允许在一个已有的平台上再构建一个具有独立平台功能的生态系统,这种限制性政策导致了我们两家公司之间的深层矛盾。」
扎克伯格还特别点赞了 DeepSeek 的发展:「现在这个领域已经不光是 Llama 一家独大,像 DeepSeek 这些 AI 模型也做得风生水起。」他预测到 2025 年,开发者主要都会使用开源模型。
在谈到 AI 与人际关系的结合时,扎克伯格表示,AI 未来将在朋友关系维护中发挥重要作用,如帮助用户记忆社交细节和规划活动。
扎克伯格认为 AR 眼镜会是未来的手机,VR 则是未来的电视,两者将共同发展。扎克伯格透露,Meta 正在开发的先进 AR 眼镜 Orion 计划在未来几年内推出,这将是 AI 助手与用户全天候互动的理想载体。( @APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。